{ "best_metric": null, "best_model_checkpoint": null, "epoch": 4.8, "eval_steps": 50, "global_step": 1800, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.13333333333333333, "grad_norm": 7.388608455657959, "learning_rate": 3.8022813688212926e-06, "loss": 1.4202, "step": 50 }, { "epoch": 0.13333333333333333, "eval_loss": 0.725118100643158, "eval_runtime": 1.1532, "eval_samples_per_second": 135.28, "eval_steps_per_second": 6.937, "step": 50 }, { "epoch": 0.26666666666666666, "grad_norm": 4.093813896179199, "learning_rate": 7.604562737642585e-06, "loss": 0.7254, "step": 100 }, { "epoch": 0.26666666666666666, "eval_loss": 0.6901488900184631, "eval_runtime": 1.1541, "eval_samples_per_second": 135.176, "eval_steps_per_second": 6.932, "step": 100 }, { "epoch": 0.4, "grad_norm": 10.369660377502441, "learning_rate": 1.1406844106463879e-05, "loss": 0.6961, "step": 150 }, { "epoch": 0.4, "eval_loss": 0.7221754789352417, "eval_runtime": 1.1586, "eval_samples_per_second": 134.64, "eval_steps_per_second": 6.905, "step": 150 }, { "epoch": 0.5333333333333333, "grad_norm": 3.4792988300323486, "learning_rate": 1.520912547528517e-05, "loss": 0.7128, "step": 200 }, { "epoch": 0.5333333333333333, "eval_loss": 0.7042415142059326, "eval_runtime": 1.1575, "eval_samples_per_second": 134.768, "eval_steps_per_second": 6.911, "step": 200 }, { "epoch": 0.6666666666666666, "grad_norm": 2.5701582431793213, "learning_rate": 1.9011406844106467e-05, "loss": 0.7534, "step": 250 }, { "epoch": 0.6666666666666666, "eval_loss": 0.731088399887085, "eval_runtime": 1.1555, "eval_samples_per_second": 135.003, "eval_steps_per_second": 6.923, "step": 250 }, { "epoch": 0.8, "grad_norm": 3.0080971717834473, "learning_rate": 1.9987893300564186e-05, "loss": 0.762, "step": 300 }, { "epoch": 0.8, "eval_loss": 0.7343817949295044, "eval_runtime": 1.1531, "eval_samples_per_second": 135.293, "eval_steps_per_second": 6.938, "step": 300 }, { "epoch": 0.9333333333333333, "grad_norm": 2.46988844871521, "learning_rate": 1.993312499670606e-05, "loss": 0.7377, "step": 350 }, { "epoch": 0.9333333333333333, "eval_loss": 0.7465369701385498, "eval_runtime": 1.1567, "eval_samples_per_second": 134.864, "eval_steps_per_second": 6.916, "step": 350 }, { "epoch": 1.0666666666666667, "grad_norm": 2.265070676803589, "learning_rate": 1.983444240926042e-05, "loss": 0.5975, "step": 400 }, { "epoch": 1.0666666666666667, "eval_loss": 0.7718733549118042, "eval_runtime": 1.155, "eval_samples_per_second": 135.065, "eval_steps_per_second": 6.926, "step": 400 }, { "epoch": 1.2, "grad_norm": 2.6679139137268066, "learning_rate": 1.9692281813330186e-05, "loss": 0.4394, "step": 450 }, { "epoch": 1.2, "eval_loss": 0.7984455823898315, "eval_runtime": 1.1567, "eval_samples_per_second": 134.871, "eval_steps_per_second": 6.916, "step": 450 }, { "epoch": 1.3333333333333333, "grad_norm": 2.2566981315612793, "learning_rate": 1.9507271700022308e-05, "loss": 0.4371, "step": 500 }, { "epoch": 1.3333333333333333, "eval_loss": 0.7871562242507935, "eval_runtime": 1.1615, "eval_samples_per_second": 134.306, "eval_steps_per_second": 6.887, "step": 500 }, { "epoch": 1.4666666666666668, "grad_norm": 2.3121838569641113, "learning_rate": 1.9280229997892505e-05, "loss": 0.4348, "step": 550 }, { "epoch": 1.4666666666666668, "eval_loss": 0.7885589003562927, "eval_runtime": 1.1634, "eval_samples_per_second": 134.095, "eval_steps_per_second": 6.877, "step": 550 }, { "epoch": 1.6, "grad_norm": 2.280371904373169, "learning_rate": 1.9012160456888235e-05, "loss": 0.4362, "step": 600 }, { "epoch": 1.6, "eval_loss": 0.7835204005241394, "eval_runtime": 1.1606, "eval_samples_per_second": 134.41, "eval_steps_per_second": 6.893, "step": 600 }, { "epoch": 1.7333333333333334, "grad_norm": 2.385469675064087, "learning_rate": 1.8704248210776442e-05, "loss": 0.4429, "step": 650 }, { "epoch": 1.7333333333333334, "eval_loss": 0.7807101607322693, "eval_runtime": 1.1644, "eval_samples_per_second": 133.97, "eval_steps_per_second": 6.87, "step": 650 }, { "epoch": 1.8666666666666667, "grad_norm": 2.458850145339966, "learning_rate": 1.8357854537674556e-05, "loss": 0.4554, "step": 700 }, { "epoch": 1.8666666666666667, "eval_loss": 0.7672913670539856, "eval_runtime": 1.1585, "eval_samples_per_second": 134.659, "eval_steps_per_second": 6.906, "step": 700 }, { "epoch": 2.0, "grad_norm": 1.5124437808990479, "learning_rate": 1.7974510841848475e-05, "loss": 0.4402, "step": 750 }, { "epoch": 2.0, "eval_loss": 0.7685139775276184, "eval_runtime": 1.1599, "eval_samples_per_second": 134.494, "eval_steps_per_second": 6.897, "step": 750 }, { "epoch": 2.1333333333333333, "grad_norm": 1.5960251092910767, "learning_rate": 1.7555911883383823e-05, "loss": 0.2169, "step": 800 }, { "epoch": 2.1333333333333333, "eval_loss": 0.8784275650978088, "eval_runtime": 1.1629, "eval_samples_per_second": 134.142, "eval_steps_per_second": 6.879, "step": 800 }, { "epoch": 2.2666666666666666, "grad_norm": 1.429960012435913, "learning_rate": 1.7103908285662216e-05, "loss": 0.2203, "step": 850 }, { "epoch": 2.2666666666666666, "eval_loss": 0.8770997524261475, "eval_runtime": 1.1589, "eval_samples_per_second": 134.609, "eval_steps_per_second": 6.903, "step": 850 }, { "epoch": 2.4, "grad_norm": 1.7792383432388306, "learning_rate": 1.6620498353766853e-05, "loss": 0.2227, "step": 900 }, { "epoch": 2.4, "eval_loss": 0.8881720304489136, "eval_runtime": 1.1619, "eval_samples_per_second": 134.261, "eval_steps_per_second": 6.885, "step": 900 }, { "epoch": 2.533333333333333, "grad_norm": 1.518776535987854, "learning_rate": 1.6107819239988206e-05, "loss": 0.2182, "step": 950 }, { "epoch": 2.533333333333333, "eval_loss": 0.8789505362510681, "eval_runtime": 1.1609, "eval_samples_per_second": 134.373, "eval_steps_per_second": 6.891, "step": 950 }, { "epoch": 2.6666666666666665, "grad_norm": 1.5678354501724243, "learning_rate": 1.55681374954871e-05, "loss": 0.2245, "step": 1000 }, { "epoch": 2.6666666666666665, "eval_loss": 0.8829083442687988, "eval_runtime": 1.1629, "eval_samples_per_second": 134.142, "eval_steps_per_second": 6.879, "step": 1000 }, { "epoch": 2.8, "grad_norm": 1.6816725730895996, "learning_rate": 1.5003839049886168e-05, "loss": 0.2232, "step": 1050 }, { "epoch": 2.8, "eval_loss": 0.8641273379325867, "eval_runtime": 1.1663, "eval_samples_per_second": 133.759, "eval_steps_per_second": 6.859, "step": 1050 }, { "epoch": 2.9333333333333336, "grad_norm": 1.2660926580429077, "learning_rate": 1.4417418663089908e-05, "loss": 0.225, "step": 1100 }, { "epoch": 2.9333333333333336, "eval_loss": 0.8774051070213318, "eval_runtime": 1.1628, "eval_samples_per_second": 134.156, "eval_steps_per_second": 6.88, "step": 1100 }, { "epoch": 3.066666666666667, "grad_norm": 1.2104500532150269, "learning_rate": 1.381146889596671e-05, "loss": 0.1792, "step": 1150 }, { "epoch": 3.066666666666667, "eval_loss": 0.9548905491828918, "eval_runtime": 1.1626, "eval_samples_per_second": 134.18, "eval_steps_per_second": 6.881, "step": 1150 }, { "epoch": 3.2, "grad_norm": 1.0138744115829468, "learning_rate": 1.3188668648653447e-05, "loss": 0.1357, "step": 1200 }, { "epoch": 3.2, "eval_loss": 0.9454194903373718, "eval_runtime": 1.1638, "eval_samples_per_second": 134.046, "eval_steps_per_second": 6.874, "step": 1200 }, { "epoch": 3.3333333333333335, "grad_norm": 1.2832611799240112, "learning_rate": 1.2551771317154687e-05, "loss": 0.1411, "step": 1250 }, { "epoch": 3.3333333333333335, "eval_loss": 0.9485148787498474, "eval_runtime": 1.1531, "eval_samples_per_second": 135.288, "eval_steps_per_second": 6.938, "step": 1250 }, { "epoch": 3.466666666666667, "grad_norm": 1.1830838918685913, "learning_rate": 1.1903592620596175e-05, "loss": 0.1449, "step": 1300 }, { "epoch": 3.466666666666667, "eval_loss": 0.9498122930526733, "eval_runtime": 1.155, "eval_samples_per_second": 135.066, "eval_steps_per_second": 6.926, "step": 1300 }, { "epoch": 3.6, "grad_norm": 0.8358858227729797, "learning_rate": 1.1246998152948137e-05, "loss": 0.1373, "step": 1350 }, { "epoch": 3.6, "eval_loss": 0.9596496224403381, "eval_runtime": 1.1552, "eval_samples_per_second": 135.046, "eval_steps_per_second": 6.925, "step": 1350 }, { "epoch": 3.7333333333333334, "grad_norm": 0.9525027871131897, "learning_rate": 1.0584890714252229e-05, "loss": 0.1457, "step": 1400 }, { "epoch": 3.7333333333333334, "eval_loss": 0.9405192732810974, "eval_runtime": 1.1584, "eval_samples_per_second": 134.667, "eval_steps_per_second": 6.906, "step": 1400 }, { "epoch": 3.8666666666666667, "grad_norm": 1.125769853591919, "learning_rate": 9.920197477360702e-06, "loss": 0.1432, "step": 1450 }, { "epoch": 3.8666666666666667, "eval_loss": 0.9467251300811768, "eval_runtime": 1.1558, "eval_samples_per_second": 134.97, "eval_steps_per_second": 6.922, "step": 1450 }, { "epoch": 4.0, "grad_norm": 1.604612946510315, "learning_rate": 9.255857046923467e-06, "loss": 0.1379, "step": 1500 }, { "epoch": 4.0, "eval_loss": 0.9503706097602844, "eval_runtime": 1.1579, "eval_samples_per_second": 134.731, "eval_steps_per_second": 6.909, "step": 1500 }, { "epoch": 4.133333333333334, "grad_norm": 0.9764025211334229, "learning_rate": 8.594806467835322e-06, "loss": 0.0917, "step": 1550 }, { "epoch": 4.133333333333334, "eval_loss": 0.989634096622467, "eval_runtime": 1.1574, "eval_samples_per_second": 134.787, "eval_steps_per_second": 6.912, "step": 1550 }, { "epoch": 4.266666666666667, "grad_norm": 0.8189386129379272, "learning_rate": 7.939968240578778e-06, "loss": 0.0944, "step": 1600 }, { "epoch": 4.266666666666667, "eval_loss": 1.0014750957489014, "eval_runtime": 1.1563, "eval_samples_per_second": 134.914, "eval_steps_per_second": 6.919, "step": 1600 }, { "epoch": 4.4, "grad_norm": 0.6856206655502319, "learning_rate": 7.294237400867696e-06, "loss": 0.092, "step": 1650 }, { "epoch": 4.4, "eval_loss": 1.0134879350662231, "eval_runtime": 1.1557, "eval_samples_per_second": 134.983, "eval_steps_per_second": 6.922, "step": 1650 }, { "epoch": 4.533333333333333, "grad_norm": 0.9093407392501831, "learning_rate": 6.660468720712463e-06, "loss": 0.092, "step": 1700 }, { "epoch": 4.533333333333333, "eval_loss": 1.0173557996749878, "eval_runtime": 1.1541, "eval_samples_per_second": 135.169, "eval_steps_per_second": 6.932, "step": 1700 }, { "epoch": 4.666666666666667, "grad_norm": 0.6318963766098022, "learning_rate": 6.041464087490756e-06, "loss": 0.0919, "step": 1750 }, { "epoch": 4.666666666666667, "eval_loss": 1.0165729522705078, "eval_runtime": 1.1556, "eval_samples_per_second": 134.995, "eval_steps_per_second": 6.923, "step": 1750 }, { "epoch": 4.8, "grad_norm": 0.852830708026886, "learning_rate": 5.4399601168209614e-06, "loss": 0.0912, "step": 1800 }, { "epoch": 4.8, "eval_loss": 1.0123897790908813, "eval_runtime": 1.1587, "eval_samples_per_second": 134.635, "eval_steps_per_second": 6.904, "step": 1800 } ], "logging_steps": 50, "max_steps": 2625, "num_input_tokens_seen": 0, "num_train_epochs": 7, "save_steps": 200, "total_flos": 8.743935556766925e+16, "train_batch_size": 4, "trial_name": null, "trial_params": null }