“Sara

adding models

92bc97b 6 months ago

14.1 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 4.8,
	"eval_steps": 50,
	"global_step": 1800,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 7.388608455657959,
	"learning_rate": 3.8022813688212926e-06,
	"loss": 1.4202,
	"step": 50
	},
	{
	"epoch": 0.13333333333333333,
	"eval_loss": 0.725118100643158,
	"eval_runtime": 1.1532,
	"eval_samples_per_second": 135.28,
	"eval_steps_per_second": 6.937,
	"step": 50
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 4.093813896179199,
	"learning_rate": 7.604562737642585e-06,
	"loss": 0.7254,
	"step": 100
	},
	{
	"epoch": 0.26666666666666666,
	"eval_loss": 0.6901488900184631,
	"eval_runtime": 1.1541,
	"eval_samples_per_second": 135.176,
	"eval_steps_per_second": 6.932,
	"step": 100
	},
	{
	"epoch": 0.4,
	"grad_norm": 10.369660377502441,
	"learning_rate": 1.1406844106463879e-05,
	"loss": 0.6961,
	"step": 150
	},
	{
	"epoch": 0.4,
	"eval_loss": 0.7221754789352417,
	"eval_runtime": 1.1586,
	"eval_samples_per_second": 134.64,
	"eval_steps_per_second": 6.905,
	"step": 150
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 3.4792988300323486,
	"learning_rate": 1.520912547528517e-05,
	"loss": 0.7128,
	"step": 200
	},
	{
	"epoch": 0.5333333333333333,
	"eval_loss": 0.7042415142059326,
	"eval_runtime": 1.1575,
	"eval_samples_per_second": 134.768,
	"eval_steps_per_second": 6.911,
	"step": 200
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 2.5701582431793213,
	"learning_rate": 1.9011406844106467e-05,
	"loss": 0.7534,
	"step": 250
	},
	{
	"epoch": 0.6666666666666666,
	"eval_loss": 0.731088399887085,
	"eval_runtime": 1.1555,
	"eval_samples_per_second": 135.003,
	"eval_steps_per_second": 6.923,
	"step": 250
	},
	{
	"epoch": 0.8,
	"grad_norm": 3.0080971717834473,
	"learning_rate": 1.9987893300564186e-05,
	"loss": 0.762,
	"step": 300
	},
	{
	"epoch": 0.8,
	"eval_loss": 0.7343817949295044,
	"eval_runtime": 1.1531,
	"eval_samples_per_second": 135.293,
	"eval_steps_per_second": 6.938,
	"step": 300
	},
	{
	"epoch": 0.9333333333333333,
	"grad_norm": 2.46988844871521,
	"learning_rate": 1.993312499670606e-05,
	"loss": 0.7377,
	"step": 350
	},
	{
	"epoch": 0.9333333333333333,
	"eval_loss": 0.7465369701385498,
	"eval_runtime": 1.1567,
	"eval_samples_per_second": 134.864,
	"eval_steps_per_second": 6.916,
	"step": 350
	},
	{
	"epoch": 1.0666666666666667,
	"grad_norm": 2.265070676803589,
	"learning_rate": 1.983444240926042e-05,
	"loss": 0.5975,
	"step": 400
	},
	{
	"epoch": 1.0666666666666667,
	"eval_loss": 0.7718733549118042,
	"eval_runtime": 1.155,
	"eval_samples_per_second": 135.065,
	"eval_steps_per_second": 6.926,
	"step": 400
	},
	{
	"epoch": 1.2,
	"grad_norm": 2.6679139137268066,
	"learning_rate": 1.9692281813330186e-05,
	"loss": 0.4394,
	"step": 450
	},
	{
	"epoch": 1.2,
	"eval_loss": 0.7984455823898315,
	"eval_runtime": 1.1567,
	"eval_samples_per_second": 134.871,
	"eval_steps_per_second": 6.916,
	"step": 450
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 2.2566981315612793,
	"learning_rate": 1.9507271700022308e-05,
	"loss": 0.4371,
	"step": 500
	},
	{
	"epoch": 1.3333333333333333,
	"eval_loss": 0.7871562242507935,
	"eval_runtime": 1.1615,
	"eval_samples_per_second": 134.306,
	"eval_steps_per_second": 6.887,
	"step": 500
	},
	{
	"epoch": 1.4666666666666668,
	"grad_norm": 2.3121838569641113,
	"learning_rate": 1.9280229997892505e-05,
	"loss": 0.4348,
	"step": 550
	},
	{
	"epoch": 1.4666666666666668,
	"eval_loss": 0.7885589003562927,
	"eval_runtime": 1.1634,
	"eval_samples_per_second": 134.095,
	"eval_steps_per_second": 6.877,
	"step": 550
	},
	{
	"epoch": 1.6,
	"grad_norm": 2.280371904373169,
	"learning_rate": 1.9012160456888235e-05,
	"loss": 0.4362,
	"step": 600
	},
	{
	"epoch": 1.6,
	"eval_loss": 0.7835204005241394,
	"eval_runtime": 1.1606,
	"eval_samples_per_second": 134.41,
	"eval_steps_per_second": 6.893,
	"step": 600
	},
	{
	"epoch": 1.7333333333333334,
	"grad_norm": 2.385469675064087,
	"learning_rate": 1.8704248210776442e-05,
	"loss": 0.4429,
	"step": 650
	},
	{
	"epoch": 1.7333333333333334,
	"eval_loss": 0.7807101607322693,
	"eval_runtime": 1.1644,
	"eval_samples_per_second": 133.97,
	"eval_steps_per_second": 6.87,
	"step": 650
	},
	{
	"epoch": 1.8666666666666667,
	"grad_norm": 2.458850145339966,
	"learning_rate": 1.8357854537674556e-05,
	"loss": 0.4554,
	"step": 700
	},
	{
	"epoch": 1.8666666666666667,
	"eval_loss": 0.7672913670539856,
	"eval_runtime": 1.1585,
	"eval_samples_per_second": 134.659,
	"eval_steps_per_second": 6.906,
	"step": 700
	},
	{
	"epoch": 2.0,
	"grad_norm": 1.5124437808990479,
	"learning_rate": 1.7974510841848475e-05,
	"loss": 0.4402,
	"step": 750
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.7685139775276184,
	"eval_runtime": 1.1599,
	"eval_samples_per_second": 134.494,
	"eval_steps_per_second": 6.897,
	"step": 750
	},
	{
	"epoch": 2.1333333333333333,
	"grad_norm": 1.5960251092910767,
	"learning_rate": 1.7555911883383823e-05,
	"loss": 0.2169,
	"step": 800
	},
	{
	"epoch": 2.1333333333333333,
	"eval_loss": 0.8784275650978088,
	"eval_runtime": 1.1629,
	"eval_samples_per_second": 134.142,
	"eval_steps_per_second": 6.879,
	"step": 800
	},
	{
	"epoch": 2.2666666666666666,
	"grad_norm": 1.429960012435913,
	"learning_rate": 1.7103908285662216e-05,
	"loss": 0.2203,
	"step": 850
	},
	{
	"epoch": 2.2666666666666666,
	"eval_loss": 0.8770997524261475,
	"eval_runtime": 1.1589,
	"eval_samples_per_second": 134.609,
	"eval_steps_per_second": 6.903,
	"step": 850
	},
	{
	"epoch": 2.4,
	"grad_norm": 1.7792383432388306,
	"learning_rate": 1.6620498353766853e-05,
	"loss": 0.2227,
	"step": 900
	},
	{
	"epoch": 2.4,
	"eval_loss": 0.8881720304489136,
	"eval_runtime": 1.1619,
	"eval_samples_per_second": 134.261,
	"eval_steps_per_second": 6.885,
	"step": 900
	},
	{
	"epoch": 2.533333333333333,
	"grad_norm": 1.518776535987854,
	"learning_rate": 1.6107819239988206e-05,
	"loss": 0.2182,
	"step": 950
	},
	{
	"epoch": 2.533333333333333,
	"eval_loss": 0.8789505362510681,
	"eval_runtime": 1.1609,
	"eval_samples_per_second": 134.373,
	"eval_steps_per_second": 6.891,
	"step": 950
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 1.5678354501724243,
	"learning_rate": 1.55681374954871e-05,
	"loss": 0.2245,
	"step": 1000
	},
	{
	"epoch": 2.6666666666666665,
	"eval_loss": 0.8829083442687988,
	"eval_runtime": 1.1629,
	"eval_samples_per_second": 134.142,
	"eval_steps_per_second": 6.879,
	"step": 1000
	},
	{
	"epoch": 2.8,
	"grad_norm": 1.6816725730895996,
	"learning_rate": 1.5003839049886168e-05,
	"loss": 0.2232,
	"step": 1050
	},
	{
	"epoch": 2.8,
	"eval_loss": 0.8641273379325867,
	"eval_runtime": 1.1663,
	"eval_samples_per_second": 133.759,
	"eval_steps_per_second": 6.859,
	"step": 1050
	},
	{
	"epoch": 2.9333333333333336,
	"grad_norm": 1.2660926580429077,
	"learning_rate": 1.4417418663089908e-05,
	"loss": 0.225,
	"step": 1100
	},
	{
	"epoch": 2.9333333333333336,
	"eval_loss": 0.8774051070213318,
	"eval_runtime": 1.1628,
	"eval_samples_per_second": 134.156,
	"eval_steps_per_second": 6.88,
	"step": 1100
	},
	{
	"epoch": 3.066666666666667,
	"grad_norm": 1.2104500532150269,
	"learning_rate": 1.381146889596671e-05,
	"loss": 0.1792,
	"step": 1150
	},
	{
	"epoch": 3.066666666666667,
	"eval_loss": 0.9548905491828918,
	"eval_runtime": 1.1626,
	"eval_samples_per_second": 134.18,
	"eval_steps_per_second": 6.881,
	"step": 1150
	},
	{
	"epoch": 3.2,
	"grad_norm": 1.0138744115829468,
	"learning_rate": 1.3188668648653447e-05,
	"loss": 0.1357,
	"step": 1200
	},
	{
	"epoch": 3.2,
	"eval_loss": 0.9454194903373718,
	"eval_runtime": 1.1638,
	"eval_samples_per_second": 134.046,
	"eval_steps_per_second": 6.874,
	"step": 1200
	},
	{
	"epoch": 3.3333333333333335,
	"grad_norm": 1.2832611799240112,
	"learning_rate": 1.2551771317154687e-05,
	"loss": 0.1411,
	"step": 1250
	},
	{
	"epoch": 3.3333333333333335,
	"eval_loss": 0.9485148787498474,
	"eval_runtime": 1.1531,
	"eval_samples_per_second": 135.288,
	"eval_steps_per_second": 6.938,
	"step": 1250
	},
	{
	"epoch": 3.466666666666667,
	"grad_norm": 1.1830838918685913,
	"learning_rate": 1.1903592620596175e-05,
	"loss": 0.1449,
	"step": 1300
	},
	{
	"epoch": 3.466666666666667,
	"eval_loss": 0.9498122930526733,
	"eval_runtime": 1.155,
	"eval_samples_per_second": 135.066,
	"eval_steps_per_second": 6.926,
	"step": 1300
	},
	{
	"epoch": 3.6,
	"grad_norm": 0.8358858227729797,
	"learning_rate": 1.1246998152948137e-05,
	"loss": 0.1373,
	"step": 1350
	},
	{
	"epoch": 3.6,
	"eval_loss": 0.9596496224403381,
	"eval_runtime": 1.1552,
	"eval_samples_per_second": 135.046,
	"eval_steps_per_second": 6.925,
	"step": 1350
	},
	{
	"epoch": 3.7333333333333334,
	"grad_norm": 0.9525027871131897,
	"learning_rate": 1.0584890714252229e-05,
	"loss": 0.1457,
	"step": 1400
	},
	{
	"epoch": 3.7333333333333334,
	"eval_loss": 0.9405192732810974,
	"eval_runtime": 1.1584,
	"eval_samples_per_second": 134.667,
	"eval_steps_per_second": 6.906,
	"step": 1400
	},
	{
	"epoch": 3.8666666666666667,
	"grad_norm": 1.125769853591919,
	"learning_rate": 9.920197477360702e-06,
	"loss": 0.1432,
	"step": 1450
	},
	{
	"epoch": 3.8666666666666667,
	"eval_loss": 0.9467251300811768,
	"eval_runtime": 1.1558,
	"eval_samples_per_second": 134.97,
	"eval_steps_per_second": 6.922,
	"step": 1450
	},
	{
	"epoch": 4.0,
	"grad_norm": 1.604612946510315,
	"learning_rate": 9.255857046923467e-06,
	"loss": 0.1379,
	"step": 1500
	},
	{
	"epoch": 4.0,
	"eval_loss": 0.9503706097602844,
	"eval_runtime": 1.1579,
	"eval_samples_per_second": 134.731,
	"eval_steps_per_second": 6.909,
	"step": 1500
	},
	{
	"epoch": 4.133333333333334,
	"grad_norm": 0.9764025211334229,
	"learning_rate": 8.594806467835322e-06,
	"loss": 0.0917,
	"step": 1550
	},
	{
	"epoch": 4.133333333333334,
	"eval_loss": 0.989634096622467,
	"eval_runtime": 1.1574,
	"eval_samples_per_second": 134.787,
	"eval_steps_per_second": 6.912,
	"step": 1550
	},
	{
	"epoch": 4.266666666666667,
	"grad_norm": 0.8189386129379272,
	"learning_rate": 7.939968240578778e-06,
	"loss": 0.0944,
	"step": 1600
	},
	{
	"epoch": 4.266666666666667,
	"eval_loss": 1.0014750957489014,
	"eval_runtime": 1.1563,
	"eval_samples_per_second": 134.914,
	"eval_steps_per_second": 6.919,
	"step": 1600
	},
	{
	"epoch": 4.4,
	"grad_norm": 0.6856206655502319,
	"learning_rate": 7.294237400867696e-06,
	"loss": 0.092,
	"step": 1650
	},
	{
	"epoch": 4.4,
	"eval_loss": 1.0134879350662231,
	"eval_runtime": 1.1557,
	"eval_samples_per_second": 134.983,
	"eval_steps_per_second": 6.922,
	"step": 1650
	},
	{
	"epoch": 4.533333333333333,
	"grad_norm": 0.9093407392501831,
	"learning_rate": 6.660468720712463e-06,
	"loss": 0.092,
	"step": 1700
	},
	{
	"epoch": 4.533333333333333,
	"eval_loss": 1.0173557996749878,
	"eval_runtime": 1.1541,
	"eval_samples_per_second": 135.169,
	"eval_steps_per_second": 6.932,
	"step": 1700
	},
	{
	"epoch": 4.666666666666667,
	"grad_norm": 0.6318963766098022,
	"learning_rate": 6.041464087490756e-06,
	"loss": 0.0919,
	"step": 1750
	},
	{
	"epoch": 4.666666666666667,
	"eval_loss": 1.0165729522705078,
	"eval_runtime": 1.1556,
	"eval_samples_per_second": 134.995,
	"eval_steps_per_second": 6.923,
	"step": 1750
	},
	{
	"epoch": 4.8,
	"grad_norm": 0.852830708026886,
	"learning_rate": 5.4399601168209614e-06,
	"loss": 0.0912,
	"step": 1800
	},
	{
	"epoch": 4.8,
	"eval_loss": 1.0123897790908813,
	"eval_runtime": 1.1587,
	"eval_samples_per_second": 134.635,
	"eval_steps_per_second": 6.904,
	"step": 1800
	}
	],
	"logging_steps": 50,
	"max_steps": 2625,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 7,
	"save_steps": 200,
	"total_flos": 8.743935556766925e+16,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}