|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 4.8, |
|
"eval_steps": 50, |
|
"global_step": 1800, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.13333333333333333, |
|
"grad_norm": 7.388608455657959, |
|
"learning_rate": 3.8022813688212926e-06, |
|
"loss": 1.4202, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.13333333333333333, |
|
"eval_loss": 0.725118100643158, |
|
"eval_runtime": 1.1532, |
|
"eval_samples_per_second": 135.28, |
|
"eval_steps_per_second": 6.937, |
|
"step": 50 |
|
}, |
|
{ |
|
"epoch": 0.26666666666666666, |
|
"grad_norm": 4.093813896179199, |
|
"learning_rate": 7.604562737642585e-06, |
|
"loss": 0.7254, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.26666666666666666, |
|
"eval_loss": 0.6901488900184631, |
|
"eval_runtime": 1.1541, |
|
"eval_samples_per_second": 135.176, |
|
"eval_steps_per_second": 6.932, |
|
"step": 100 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"grad_norm": 10.369660377502441, |
|
"learning_rate": 1.1406844106463879e-05, |
|
"loss": 0.6961, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 0.4, |
|
"eval_loss": 0.7221754789352417, |
|
"eval_runtime": 1.1586, |
|
"eval_samples_per_second": 134.64, |
|
"eval_steps_per_second": 6.905, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 0.5333333333333333, |
|
"grad_norm": 3.4792988300323486, |
|
"learning_rate": 1.520912547528517e-05, |
|
"loss": 0.7128, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.5333333333333333, |
|
"eval_loss": 0.7042415142059326, |
|
"eval_runtime": 1.1575, |
|
"eval_samples_per_second": 134.768, |
|
"eval_steps_per_second": 6.911, |
|
"step": 200 |
|
}, |
|
{ |
|
"epoch": 0.6666666666666666, |
|
"grad_norm": 2.5701582431793213, |
|
"learning_rate": 1.9011406844106467e-05, |
|
"loss": 0.7534, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 0.6666666666666666, |
|
"eval_loss": 0.731088399887085, |
|
"eval_runtime": 1.1555, |
|
"eval_samples_per_second": 135.003, |
|
"eval_steps_per_second": 6.923, |
|
"step": 250 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"grad_norm": 3.0080971717834473, |
|
"learning_rate": 1.9987893300564186e-05, |
|
"loss": 0.762, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 0.8, |
|
"eval_loss": 0.7343817949295044, |
|
"eval_runtime": 1.1531, |
|
"eval_samples_per_second": 135.293, |
|
"eval_steps_per_second": 6.938, |
|
"step": 300 |
|
}, |
|
{ |
|
"epoch": 0.9333333333333333, |
|
"grad_norm": 2.46988844871521, |
|
"learning_rate": 1.993312499670606e-05, |
|
"loss": 0.7377, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 0.9333333333333333, |
|
"eval_loss": 0.7465369701385498, |
|
"eval_runtime": 1.1567, |
|
"eval_samples_per_second": 134.864, |
|
"eval_steps_per_second": 6.916, |
|
"step": 350 |
|
}, |
|
{ |
|
"epoch": 1.0666666666666667, |
|
"grad_norm": 2.265070676803589, |
|
"learning_rate": 1.983444240926042e-05, |
|
"loss": 0.5975, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 1.0666666666666667, |
|
"eval_loss": 0.7718733549118042, |
|
"eval_runtime": 1.155, |
|
"eval_samples_per_second": 135.065, |
|
"eval_steps_per_second": 6.926, |
|
"step": 400 |
|
}, |
|
{ |
|
"epoch": 1.2, |
|
"grad_norm": 2.6679139137268066, |
|
"learning_rate": 1.9692281813330186e-05, |
|
"loss": 0.4394, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 1.2, |
|
"eval_loss": 0.7984455823898315, |
|
"eval_runtime": 1.1567, |
|
"eval_samples_per_second": 134.871, |
|
"eval_steps_per_second": 6.916, |
|
"step": 450 |
|
}, |
|
{ |
|
"epoch": 1.3333333333333333, |
|
"grad_norm": 2.2566981315612793, |
|
"learning_rate": 1.9507271700022308e-05, |
|
"loss": 0.4371, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 1.3333333333333333, |
|
"eval_loss": 0.7871562242507935, |
|
"eval_runtime": 1.1615, |
|
"eval_samples_per_second": 134.306, |
|
"eval_steps_per_second": 6.887, |
|
"step": 500 |
|
}, |
|
{ |
|
"epoch": 1.4666666666666668, |
|
"grad_norm": 2.3121838569641113, |
|
"learning_rate": 1.9280229997892505e-05, |
|
"loss": 0.4348, |
|
"step": 550 |
|
}, |
|
{ |
|
"epoch": 1.4666666666666668, |
|
"eval_loss": 0.7885589003562927, |
|
"eval_runtime": 1.1634, |
|
"eval_samples_per_second": 134.095, |
|
"eval_steps_per_second": 6.877, |
|
"step": 550 |
|
}, |
|
{ |
|
"epoch": 1.6, |
|
"grad_norm": 2.280371904373169, |
|
"learning_rate": 1.9012160456888235e-05, |
|
"loss": 0.4362, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 1.6, |
|
"eval_loss": 0.7835204005241394, |
|
"eval_runtime": 1.1606, |
|
"eval_samples_per_second": 134.41, |
|
"eval_steps_per_second": 6.893, |
|
"step": 600 |
|
}, |
|
{ |
|
"epoch": 1.7333333333333334, |
|
"grad_norm": 2.385469675064087, |
|
"learning_rate": 1.8704248210776442e-05, |
|
"loss": 0.4429, |
|
"step": 650 |
|
}, |
|
{ |
|
"epoch": 1.7333333333333334, |
|
"eval_loss": 0.7807101607322693, |
|
"eval_runtime": 1.1644, |
|
"eval_samples_per_second": 133.97, |
|
"eval_steps_per_second": 6.87, |
|
"step": 650 |
|
}, |
|
{ |
|
"epoch": 1.8666666666666667, |
|
"grad_norm": 2.458850145339966, |
|
"learning_rate": 1.8357854537674556e-05, |
|
"loss": 0.4554, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 1.8666666666666667, |
|
"eval_loss": 0.7672913670539856, |
|
"eval_runtime": 1.1585, |
|
"eval_samples_per_second": 134.659, |
|
"eval_steps_per_second": 6.906, |
|
"step": 700 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"grad_norm": 1.5124437808990479, |
|
"learning_rate": 1.7974510841848475e-05, |
|
"loss": 0.4402, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 2.0, |
|
"eval_loss": 0.7685139775276184, |
|
"eval_runtime": 1.1599, |
|
"eval_samples_per_second": 134.494, |
|
"eval_steps_per_second": 6.897, |
|
"step": 750 |
|
}, |
|
{ |
|
"epoch": 2.1333333333333333, |
|
"grad_norm": 1.5960251092910767, |
|
"learning_rate": 1.7555911883383823e-05, |
|
"loss": 0.2169, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 2.1333333333333333, |
|
"eval_loss": 0.8784275650978088, |
|
"eval_runtime": 1.1629, |
|
"eval_samples_per_second": 134.142, |
|
"eval_steps_per_second": 6.879, |
|
"step": 800 |
|
}, |
|
{ |
|
"epoch": 2.2666666666666666, |
|
"grad_norm": 1.429960012435913, |
|
"learning_rate": 1.7103908285662216e-05, |
|
"loss": 0.2203, |
|
"step": 850 |
|
}, |
|
{ |
|
"epoch": 2.2666666666666666, |
|
"eval_loss": 0.8770997524261475, |
|
"eval_runtime": 1.1589, |
|
"eval_samples_per_second": 134.609, |
|
"eval_steps_per_second": 6.903, |
|
"step": 850 |
|
}, |
|
{ |
|
"epoch": 2.4, |
|
"grad_norm": 1.7792383432388306, |
|
"learning_rate": 1.6620498353766853e-05, |
|
"loss": 0.2227, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 2.4, |
|
"eval_loss": 0.8881720304489136, |
|
"eval_runtime": 1.1619, |
|
"eval_samples_per_second": 134.261, |
|
"eval_steps_per_second": 6.885, |
|
"step": 900 |
|
}, |
|
{ |
|
"epoch": 2.533333333333333, |
|
"grad_norm": 1.518776535987854, |
|
"learning_rate": 1.6107819239988206e-05, |
|
"loss": 0.2182, |
|
"step": 950 |
|
}, |
|
{ |
|
"epoch": 2.533333333333333, |
|
"eval_loss": 0.8789505362510681, |
|
"eval_runtime": 1.1609, |
|
"eval_samples_per_second": 134.373, |
|
"eval_steps_per_second": 6.891, |
|
"step": 950 |
|
}, |
|
{ |
|
"epoch": 2.6666666666666665, |
|
"grad_norm": 1.5678354501724243, |
|
"learning_rate": 1.55681374954871e-05, |
|
"loss": 0.2245, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 2.6666666666666665, |
|
"eval_loss": 0.8829083442687988, |
|
"eval_runtime": 1.1629, |
|
"eval_samples_per_second": 134.142, |
|
"eval_steps_per_second": 6.879, |
|
"step": 1000 |
|
}, |
|
{ |
|
"epoch": 2.8, |
|
"grad_norm": 1.6816725730895996, |
|
"learning_rate": 1.5003839049886168e-05, |
|
"loss": 0.2232, |
|
"step": 1050 |
|
}, |
|
{ |
|
"epoch": 2.8, |
|
"eval_loss": 0.8641273379325867, |
|
"eval_runtime": 1.1663, |
|
"eval_samples_per_second": 133.759, |
|
"eval_steps_per_second": 6.859, |
|
"step": 1050 |
|
}, |
|
{ |
|
"epoch": 2.9333333333333336, |
|
"grad_norm": 1.2660926580429077, |
|
"learning_rate": 1.4417418663089908e-05, |
|
"loss": 0.225, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 2.9333333333333336, |
|
"eval_loss": 0.8774051070213318, |
|
"eval_runtime": 1.1628, |
|
"eval_samples_per_second": 134.156, |
|
"eval_steps_per_second": 6.88, |
|
"step": 1100 |
|
}, |
|
{ |
|
"epoch": 3.066666666666667, |
|
"grad_norm": 1.2104500532150269, |
|
"learning_rate": 1.381146889596671e-05, |
|
"loss": 0.1792, |
|
"step": 1150 |
|
}, |
|
{ |
|
"epoch": 3.066666666666667, |
|
"eval_loss": 0.9548905491828918, |
|
"eval_runtime": 1.1626, |
|
"eval_samples_per_second": 134.18, |
|
"eval_steps_per_second": 6.881, |
|
"step": 1150 |
|
}, |
|
{ |
|
"epoch": 3.2, |
|
"grad_norm": 1.0138744115829468, |
|
"learning_rate": 1.3188668648653447e-05, |
|
"loss": 0.1357, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 3.2, |
|
"eval_loss": 0.9454194903373718, |
|
"eval_runtime": 1.1638, |
|
"eval_samples_per_second": 134.046, |
|
"eval_steps_per_second": 6.874, |
|
"step": 1200 |
|
}, |
|
{ |
|
"epoch": 3.3333333333333335, |
|
"grad_norm": 1.2832611799240112, |
|
"learning_rate": 1.2551771317154687e-05, |
|
"loss": 0.1411, |
|
"step": 1250 |
|
}, |
|
{ |
|
"epoch": 3.3333333333333335, |
|
"eval_loss": 0.9485148787498474, |
|
"eval_runtime": 1.1531, |
|
"eval_samples_per_second": 135.288, |
|
"eval_steps_per_second": 6.938, |
|
"step": 1250 |
|
}, |
|
{ |
|
"epoch": 3.466666666666667, |
|
"grad_norm": 1.1830838918685913, |
|
"learning_rate": 1.1903592620596175e-05, |
|
"loss": 0.1449, |
|
"step": 1300 |
|
}, |
|
{ |
|
"epoch": 3.466666666666667, |
|
"eval_loss": 0.9498122930526733, |
|
"eval_runtime": 1.155, |
|
"eval_samples_per_second": 135.066, |
|
"eval_steps_per_second": 6.926, |
|
"step": 1300 |
|
}, |
|
{ |
|
"epoch": 3.6, |
|
"grad_norm": 0.8358858227729797, |
|
"learning_rate": 1.1246998152948137e-05, |
|
"loss": 0.1373, |
|
"step": 1350 |
|
}, |
|
{ |
|
"epoch": 3.6, |
|
"eval_loss": 0.9596496224403381, |
|
"eval_runtime": 1.1552, |
|
"eval_samples_per_second": 135.046, |
|
"eval_steps_per_second": 6.925, |
|
"step": 1350 |
|
}, |
|
{ |
|
"epoch": 3.7333333333333334, |
|
"grad_norm": 0.9525027871131897, |
|
"learning_rate": 1.0584890714252229e-05, |
|
"loss": 0.1457, |
|
"step": 1400 |
|
}, |
|
{ |
|
"epoch": 3.7333333333333334, |
|
"eval_loss": 0.9405192732810974, |
|
"eval_runtime": 1.1584, |
|
"eval_samples_per_second": 134.667, |
|
"eval_steps_per_second": 6.906, |
|
"step": 1400 |
|
}, |
|
{ |
|
"epoch": 3.8666666666666667, |
|
"grad_norm": 1.125769853591919, |
|
"learning_rate": 9.920197477360702e-06, |
|
"loss": 0.1432, |
|
"step": 1450 |
|
}, |
|
{ |
|
"epoch": 3.8666666666666667, |
|
"eval_loss": 0.9467251300811768, |
|
"eval_runtime": 1.1558, |
|
"eval_samples_per_second": 134.97, |
|
"eval_steps_per_second": 6.922, |
|
"step": 1450 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"grad_norm": 1.604612946510315, |
|
"learning_rate": 9.255857046923467e-06, |
|
"loss": 0.1379, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 4.0, |
|
"eval_loss": 0.9503706097602844, |
|
"eval_runtime": 1.1579, |
|
"eval_samples_per_second": 134.731, |
|
"eval_steps_per_second": 6.909, |
|
"step": 1500 |
|
}, |
|
{ |
|
"epoch": 4.133333333333334, |
|
"grad_norm": 0.9764025211334229, |
|
"learning_rate": 8.594806467835322e-06, |
|
"loss": 0.0917, |
|
"step": 1550 |
|
}, |
|
{ |
|
"epoch": 4.133333333333334, |
|
"eval_loss": 0.989634096622467, |
|
"eval_runtime": 1.1574, |
|
"eval_samples_per_second": 134.787, |
|
"eval_steps_per_second": 6.912, |
|
"step": 1550 |
|
}, |
|
{ |
|
"epoch": 4.266666666666667, |
|
"grad_norm": 0.8189386129379272, |
|
"learning_rate": 7.939968240578778e-06, |
|
"loss": 0.0944, |
|
"step": 1600 |
|
}, |
|
{ |
|
"epoch": 4.266666666666667, |
|
"eval_loss": 1.0014750957489014, |
|
"eval_runtime": 1.1563, |
|
"eval_samples_per_second": 134.914, |
|
"eval_steps_per_second": 6.919, |
|
"step": 1600 |
|
}, |
|
{ |
|
"epoch": 4.4, |
|
"grad_norm": 0.6856206655502319, |
|
"learning_rate": 7.294237400867696e-06, |
|
"loss": 0.092, |
|
"step": 1650 |
|
}, |
|
{ |
|
"epoch": 4.4, |
|
"eval_loss": 1.0134879350662231, |
|
"eval_runtime": 1.1557, |
|
"eval_samples_per_second": 134.983, |
|
"eval_steps_per_second": 6.922, |
|
"step": 1650 |
|
}, |
|
{ |
|
"epoch": 4.533333333333333, |
|
"grad_norm": 0.9093407392501831, |
|
"learning_rate": 6.660468720712463e-06, |
|
"loss": 0.092, |
|
"step": 1700 |
|
}, |
|
{ |
|
"epoch": 4.533333333333333, |
|
"eval_loss": 1.0173557996749878, |
|
"eval_runtime": 1.1541, |
|
"eval_samples_per_second": 135.169, |
|
"eval_steps_per_second": 6.932, |
|
"step": 1700 |
|
}, |
|
{ |
|
"epoch": 4.666666666666667, |
|
"grad_norm": 0.6318963766098022, |
|
"learning_rate": 6.041464087490756e-06, |
|
"loss": 0.0919, |
|
"step": 1750 |
|
}, |
|
{ |
|
"epoch": 4.666666666666667, |
|
"eval_loss": 1.0165729522705078, |
|
"eval_runtime": 1.1556, |
|
"eval_samples_per_second": 134.995, |
|
"eval_steps_per_second": 6.923, |
|
"step": 1750 |
|
}, |
|
{ |
|
"epoch": 4.8, |
|
"grad_norm": 0.852830708026886, |
|
"learning_rate": 5.4399601168209614e-06, |
|
"loss": 0.0912, |
|
"step": 1800 |
|
}, |
|
{ |
|
"epoch": 4.8, |
|
"eval_loss": 1.0123897790908813, |
|
"eval_runtime": 1.1587, |
|
"eval_samples_per_second": 134.635, |
|
"eval_steps_per_second": 6.904, |
|
"step": 1800 |
|
} |
|
], |
|
"logging_steps": 50, |
|
"max_steps": 2625, |
|
"num_input_tokens_seen": 0, |
|
"num_train_epochs": 7, |
|
"save_steps": 200, |
|
"total_flos": 8.743935556766925e+16, |
|
"train_batch_size": 4, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|