“Sara
adding models
92bc97b
{
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 4.8,
"eval_steps": 50,
"global_step": 1800,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.13333333333333333,
"grad_norm": 7.388608455657959,
"learning_rate": 3.8022813688212926e-06,
"loss": 1.4202,
"step": 50
},
{
"epoch": 0.13333333333333333,
"eval_loss": 0.725118100643158,
"eval_runtime": 1.1532,
"eval_samples_per_second": 135.28,
"eval_steps_per_second": 6.937,
"step": 50
},
{
"epoch": 0.26666666666666666,
"grad_norm": 4.093813896179199,
"learning_rate": 7.604562737642585e-06,
"loss": 0.7254,
"step": 100
},
{
"epoch": 0.26666666666666666,
"eval_loss": 0.6901488900184631,
"eval_runtime": 1.1541,
"eval_samples_per_second": 135.176,
"eval_steps_per_second": 6.932,
"step": 100
},
{
"epoch": 0.4,
"grad_norm": 10.369660377502441,
"learning_rate": 1.1406844106463879e-05,
"loss": 0.6961,
"step": 150
},
{
"epoch": 0.4,
"eval_loss": 0.7221754789352417,
"eval_runtime": 1.1586,
"eval_samples_per_second": 134.64,
"eval_steps_per_second": 6.905,
"step": 150
},
{
"epoch": 0.5333333333333333,
"grad_norm": 3.4792988300323486,
"learning_rate": 1.520912547528517e-05,
"loss": 0.7128,
"step": 200
},
{
"epoch": 0.5333333333333333,
"eval_loss": 0.7042415142059326,
"eval_runtime": 1.1575,
"eval_samples_per_second": 134.768,
"eval_steps_per_second": 6.911,
"step": 200
},
{
"epoch": 0.6666666666666666,
"grad_norm": 2.5701582431793213,
"learning_rate": 1.9011406844106467e-05,
"loss": 0.7534,
"step": 250
},
{
"epoch": 0.6666666666666666,
"eval_loss": 0.731088399887085,
"eval_runtime": 1.1555,
"eval_samples_per_second": 135.003,
"eval_steps_per_second": 6.923,
"step": 250
},
{
"epoch": 0.8,
"grad_norm": 3.0080971717834473,
"learning_rate": 1.9987893300564186e-05,
"loss": 0.762,
"step": 300
},
{
"epoch": 0.8,
"eval_loss": 0.7343817949295044,
"eval_runtime": 1.1531,
"eval_samples_per_second": 135.293,
"eval_steps_per_second": 6.938,
"step": 300
},
{
"epoch": 0.9333333333333333,
"grad_norm": 2.46988844871521,
"learning_rate": 1.993312499670606e-05,
"loss": 0.7377,
"step": 350
},
{
"epoch": 0.9333333333333333,
"eval_loss": 0.7465369701385498,
"eval_runtime": 1.1567,
"eval_samples_per_second": 134.864,
"eval_steps_per_second": 6.916,
"step": 350
},
{
"epoch": 1.0666666666666667,
"grad_norm": 2.265070676803589,
"learning_rate": 1.983444240926042e-05,
"loss": 0.5975,
"step": 400
},
{
"epoch": 1.0666666666666667,
"eval_loss": 0.7718733549118042,
"eval_runtime": 1.155,
"eval_samples_per_second": 135.065,
"eval_steps_per_second": 6.926,
"step": 400
},
{
"epoch": 1.2,
"grad_norm": 2.6679139137268066,
"learning_rate": 1.9692281813330186e-05,
"loss": 0.4394,
"step": 450
},
{
"epoch": 1.2,
"eval_loss": 0.7984455823898315,
"eval_runtime": 1.1567,
"eval_samples_per_second": 134.871,
"eval_steps_per_second": 6.916,
"step": 450
},
{
"epoch": 1.3333333333333333,
"grad_norm": 2.2566981315612793,
"learning_rate": 1.9507271700022308e-05,
"loss": 0.4371,
"step": 500
},
{
"epoch": 1.3333333333333333,
"eval_loss": 0.7871562242507935,
"eval_runtime": 1.1615,
"eval_samples_per_second": 134.306,
"eval_steps_per_second": 6.887,
"step": 500
},
{
"epoch": 1.4666666666666668,
"grad_norm": 2.3121838569641113,
"learning_rate": 1.9280229997892505e-05,
"loss": 0.4348,
"step": 550
},
{
"epoch": 1.4666666666666668,
"eval_loss": 0.7885589003562927,
"eval_runtime": 1.1634,
"eval_samples_per_second": 134.095,
"eval_steps_per_second": 6.877,
"step": 550
},
{
"epoch": 1.6,
"grad_norm": 2.280371904373169,
"learning_rate": 1.9012160456888235e-05,
"loss": 0.4362,
"step": 600
},
{
"epoch": 1.6,
"eval_loss": 0.7835204005241394,
"eval_runtime": 1.1606,
"eval_samples_per_second": 134.41,
"eval_steps_per_second": 6.893,
"step": 600
},
{
"epoch": 1.7333333333333334,
"grad_norm": 2.385469675064087,
"learning_rate": 1.8704248210776442e-05,
"loss": 0.4429,
"step": 650
},
{
"epoch": 1.7333333333333334,
"eval_loss": 0.7807101607322693,
"eval_runtime": 1.1644,
"eval_samples_per_second": 133.97,
"eval_steps_per_second": 6.87,
"step": 650
},
{
"epoch": 1.8666666666666667,
"grad_norm": 2.458850145339966,
"learning_rate": 1.8357854537674556e-05,
"loss": 0.4554,
"step": 700
},
{
"epoch": 1.8666666666666667,
"eval_loss": 0.7672913670539856,
"eval_runtime": 1.1585,
"eval_samples_per_second": 134.659,
"eval_steps_per_second": 6.906,
"step": 700
},
{
"epoch": 2.0,
"grad_norm": 1.5124437808990479,
"learning_rate": 1.7974510841848475e-05,
"loss": 0.4402,
"step": 750
},
{
"epoch": 2.0,
"eval_loss": 0.7685139775276184,
"eval_runtime": 1.1599,
"eval_samples_per_second": 134.494,
"eval_steps_per_second": 6.897,
"step": 750
},
{
"epoch": 2.1333333333333333,
"grad_norm": 1.5960251092910767,
"learning_rate": 1.7555911883383823e-05,
"loss": 0.2169,
"step": 800
},
{
"epoch": 2.1333333333333333,
"eval_loss": 0.8784275650978088,
"eval_runtime": 1.1629,
"eval_samples_per_second": 134.142,
"eval_steps_per_second": 6.879,
"step": 800
},
{
"epoch": 2.2666666666666666,
"grad_norm": 1.429960012435913,
"learning_rate": 1.7103908285662216e-05,
"loss": 0.2203,
"step": 850
},
{
"epoch": 2.2666666666666666,
"eval_loss": 0.8770997524261475,
"eval_runtime": 1.1589,
"eval_samples_per_second": 134.609,
"eval_steps_per_second": 6.903,
"step": 850
},
{
"epoch": 2.4,
"grad_norm": 1.7792383432388306,
"learning_rate": 1.6620498353766853e-05,
"loss": 0.2227,
"step": 900
},
{
"epoch": 2.4,
"eval_loss": 0.8881720304489136,
"eval_runtime": 1.1619,
"eval_samples_per_second": 134.261,
"eval_steps_per_second": 6.885,
"step": 900
},
{
"epoch": 2.533333333333333,
"grad_norm": 1.518776535987854,
"learning_rate": 1.6107819239988206e-05,
"loss": 0.2182,
"step": 950
},
{
"epoch": 2.533333333333333,
"eval_loss": 0.8789505362510681,
"eval_runtime": 1.1609,
"eval_samples_per_second": 134.373,
"eval_steps_per_second": 6.891,
"step": 950
},
{
"epoch": 2.6666666666666665,
"grad_norm": 1.5678354501724243,
"learning_rate": 1.55681374954871e-05,
"loss": 0.2245,
"step": 1000
},
{
"epoch": 2.6666666666666665,
"eval_loss": 0.8829083442687988,
"eval_runtime": 1.1629,
"eval_samples_per_second": 134.142,
"eval_steps_per_second": 6.879,
"step": 1000
},
{
"epoch": 2.8,
"grad_norm": 1.6816725730895996,
"learning_rate": 1.5003839049886168e-05,
"loss": 0.2232,
"step": 1050
},
{
"epoch": 2.8,
"eval_loss": 0.8641273379325867,
"eval_runtime": 1.1663,
"eval_samples_per_second": 133.759,
"eval_steps_per_second": 6.859,
"step": 1050
},
{
"epoch": 2.9333333333333336,
"grad_norm": 1.2660926580429077,
"learning_rate": 1.4417418663089908e-05,
"loss": 0.225,
"step": 1100
},
{
"epoch": 2.9333333333333336,
"eval_loss": 0.8774051070213318,
"eval_runtime": 1.1628,
"eval_samples_per_second": 134.156,
"eval_steps_per_second": 6.88,
"step": 1100
},
{
"epoch": 3.066666666666667,
"grad_norm": 1.2104500532150269,
"learning_rate": 1.381146889596671e-05,
"loss": 0.1792,
"step": 1150
},
{
"epoch": 3.066666666666667,
"eval_loss": 0.9548905491828918,
"eval_runtime": 1.1626,
"eval_samples_per_second": 134.18,
"eval_steps_per_second": 6.881,
"step": 1150
},
{
"epoch": 3.2,
"grad_norm": 1.0138744115829468,
"learning_rate": 1.3188668648653447e-05,
"loss": 0.1357,
"step": 1200
},
{
"epoch": 3.2,
"eval_loss": 0.9454194903373718,
"eval_runtime": 1.1638,
"eval_samples_per_second": 134.046,
"eval_steps_per_second": 6.874,
"step": 1200
},
{
"epoch": 3.3333333333333335,
"grad_norm": 1.2832611799240112,
"learning_rate": 1.2551771317154687e-05,
"loss": 0.1411,
"step": 1250
},
{
"epoch": 3.3333333333333335,
"eval_loss": 0.9485148787498474,
"eval_runtime": 1.1531,
"eval_samples_per_second": 135.288,
"eval_steps_per_second": 6.938,
"step": 1250
},
{
"epoch": 3.466666666666667,
"grad_norm": 1.1830838918685913,
"learning_rate": 1.1903592620596175e-05,
"loss": 0.1449,
"step": 1300
},
{
"epoch": 3.466666666666667,
"eval_loss": 0.9498122930526733,
"eval_runtime": 1.155,
"eval_samples_per_second": 135.066,
"eval_steps_per_second": 6.926,
"step": 1300
},
{
"epoch": 3.6,
"grad_norm": 0.8358858227729797,
"learning_rate": 1.1246998152948137e-05,
"loss": 0.1373,
"step": 1350
},
{
"epoch": 3.6,
"eval_loss": 0.9596496224403381,
"eval_runtime": 1.1552,
"eval_samples_per_second": 135.046,
"eval_steps_per_second": 6.925,
"step": 1350
},
{
"epoch": 3.7333333333333334,
"grad_norm": 0.9525027871131897,
"learning_rate": 1.0584890714252229e-05,
"loss": 0.1457,
"step": 1400
},
{
"epoch": 3.7333333333333334,
"eval_loss": 0.9405192732810974,
"eval_runtime": 1.1584,
"eval_samples_per_second": 134.667,
"eval_steps_per_second": 6.906,
"step": 1400
},
{
"epoch": 3.8666666666666667,
"grad_norm": 1.125769853591919,
"learning_rate": 9.920197477360702e-06,
"loss": 0.1432,
"step": 1450
},
{
"epoch": 3.8666666666666667,
"eval_loss": 0.9467251300811768,
"eval_runtime": 1.1558,
"eval_samples_per_second": 134.97,
"eval_steps_per_second": 6.922,
"step": 1450
},
{
"epoch": 4.0,
"grad_norm": 1.604612946510315,
"learning_rate": 9.255857046923467e-06,
"loss": 0.1379,
"step": 1500
},
{
"epoch": 4.0,
"eval_loss": 0.9503706097602844,
"eval_runtime": 1.1579,
"eval_samples_per_second": 134.731,
"eval_steps_per_second": 6.909,
"step": 1500
},
{
"epoch": 4.133333333333334,
"grad_norm": 0.9764025211334229,
"learning_rate": 8.594806467835322e-06,
"loss": 0.0917,
"step": 1550
},
{
"epoch": 4.133333333333334,
"eval_loss": 0.989634096622467,
"eval_runtime": 1.1574,
"eval_samples_per_second": 134.787,
"eval_steps_per_second": 6.912,
"step": 1550
},
{
"epoch": 4.266666666666667,
"grad_norm": 0.8189386129379272,
"learning_rate": 7.939968240578778e-06,
"loss": 0.0944,
"step": 1600
},
{
"epoch": 4.266666666666667,
"eval_loss": 1.0014750957489014,
"eval_runtime": 1.1563,
"eval_samples_per_second": 134.914,
"eval_steps_per_second": 6.919,
"step": 1600
},
{
"epoch": 4.4,
"grad_norm": 0.6856206655502319,
"learning_rate": 7.294237400867696e-06,
"loss": 0.092,
"step": 1650
},
{
"epoch": 4.4,
"eval_loss": 1.0134879350662231,
"eval_runtime": 1.1557,
"eval_samples_per_second": 134.983,
"eval_steps_per_second": 6.922,
"step": 1650
},
{
"epoch": 4.533333333333333,
"grad_norm": 0.9093407392501831,
"learning_rate": 6.660468720712463e-06,
"loss": 0.092,
"step": 1700
},
{
"epoch": 4.533333333333333,
"eval_loss": 1.0173557996749878,
"eval_runtime": 1.1541,
"eval_samples_per_second": 135.169,
"eval_steps_per_second": 6.932,
"step": 1700
},
{
"epoch": 4.666666666666667,
"grad_norm": 0.6318963766098022,
"learning_rate": 6.041464087490756e-06,
"loss": 0.0919,
"step": 1750
},
{
"epoch": 4.666666666666667,
"eval_loss": 1.0165729522705078,
"eval_runtime": 1.1556,
"eval_samples_per_second": 134.995,
"eval_steps_per_second": 6.923,
"step": 1750
},
{
"epoch": 4.8,
"grad_norm": 0.852830708026886,
"learning_rate": 5.4399601168209614e-06,
"loss": 0.0912,
"step": 1800
},
{
"epoch": 4.8,
"eval_loss": 1.0123897790908813,
"eval_runtime": 1.1587,
"eval_samples_per_second": 134.635,
"eval_steps_per_second": 6.904,
"step": 1800
}
],
"logging_steps": 50,
"max_steps": 2625,
"num_input_tokens_seen": 0,
"num_train_epochs": 7,
"save_steps": 200,
"total_flos": 8.743935556766925e+16,
"train_batch_size": 4,
"trial_name": null,
"trial_params": null
}