colqwen2-2b-v1.0 / checkpoint-1516 /trainer_state.json

Upload 57 files

7e6afe8 verified 21 days ago

19.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 4.0,
	"eval_steps": 50,
	"global_step": 1516,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.002638522427440633,
	"eval_loss": 0.3697243332862854,
	"eval_runtime": 31.4109,
	"eval_samples_per_second": 63.672,
	"eval_steps_per_second": 0.255,
	"step": 1
	},
	{
	"epoch": 0.052770448548812667,
	"grad_norm": 0.26953125,
	"learning_rate": 0.00010526315789473685,
	"loss": 0.3823,
	"step": 20
	},
	{
	"epoch": 0.10554089709762533,
	"grad_norm": 0.201171875,
	"learning_rate": 0.0001997845988152935,
	"loss": 0.2239,
	"step": 40
	},
	{
	"epoch": 0.13192612137203166,
	"eval_loss": 0.11808302253484726,
	"eval_runtime": 29.4538,
	"eval_samples_per_second": 67.903,
	"eval_steps_per_second": 0.272,
	"step": 50
	},
	{
	"epoch": 0.158311345646438,
	"grad_norm": 0.1962890625,
	"learning_rate": 0.00019763058696822833,
	"loss": 0.1799,
	"step": 60
	},
	{
	"epoch": 0.21108179419525067,
	"grad_norm": 0.1943359375,
	"learning_rate": 0.0001954765751211632,
	"loss": 0.1651,
	"step": 80
	},
	{
	"epoch": 0.2638522427440633,
	"grad_norm": 0.2255859375,
	"learning_rate": 0.00019332256327409802,
	"loss": 0.1571,
	"step": 100
	},
	{
	"epoch": 0.2638522427440633,
	"eval_loss": 0.09250890463590622,
	"eval_runtime": 28.2273,
	"eval_samples_per_second": 70.853,
	"eval_steps_per_second": 0.283,
	"step": 100
	},
	{
	"epoch": 0.316622691292876,
	"grad_norm": 0.2333984375,
	"learning_rate": 0.00019116855142703286,
	"loss": 0.1535,
	"step": 120
	},
	{
	"epoch": 0.36939313984168864,
	"grad_norm": 0.1611328125,
	"learning_rate": 0.00018901453957996772,
	"loss": 0.1456,
	"step": 140
	},
	{
	"epoch": 0.39577836411609496,
	"eval_loss": 0.08707328885793686,
	"eval_runtime": 27.6259,
	"eval_samples_per_second": 72.396,
	"eval_steps_per_second": 0.29,
	"step": 150
	},
	{
	"epoch": 0.42216358839050133,
	"grad_norm": 0.1884765625,
	"learning_rate": 0.00018686052773290255,
	"loss": 0.1402,
	"step": 160
	},
	{
	"epoch": 0.47493403693931396,
	"grad_norm": 0.2109375,
	"learning_rate": 0.0001847065158858374,
	"loss": 0.142,
	"step": 180
	},
	{
	"epoch": 0.5277044854881267,
	"grad_norm": 0.1533203125,
	"learning_rate": 0.00018255250403877222,
	"loss": 0.1318,
	"step": 200
	},
	{
	"epoch": 0.5277044854881267,
	"eval_loss": 0.080934077501297,
	"eval_runtime": 27.3743,
	"eval_samples_per_second": 73.061,
	"eval_steps_per_second": 0.292,
	"step": 200
	},
	{
	"epoch": 0.5804749340369393,
	"grad_norm": 0.216796875,
	"learning_rate": 0.00018039849219170706,
	"loss": 0.1301,
	"step": 220
	},
	{
	"epoch": 0.633245382585752,
	"grad_norm": 0.162109375,
	"learning_rate": 0.0001782444803446419,
	"loss": 0.1317,
	"step": 240
	},
	{
	"epoch": 0.6596306068601583,
	"eval_loss": 0.0750429555773735,
	"eval_runtime": 27.7505,
	"eval_samples_per_second": 72.071,
	"eval_steps_per_second": 0.288,
	"step": 250
	},
	{
	"epoch": 0.6860158311345647,
	"grad_norm": 0.185546875,
	"learning_rate": 0.00017609046849757676,
	"loss": 0.1269,
	"step": 260
	},
	{
	"epoch": 0.7387862796833773,
	"grad_norm": 0.203125,
	"learning_rate": 0.0001739364566505116,
	"loss": 0.1267,
	"step": 280
	},
	{
	"epoch": 0.7915567282321899,
	"grad_norm": 0.1455078125,
	"learning_rate": 0.00017178244480344642,
	"loss": 0.1226,
	"step": 300
	},
	{
	"epoch": 0.7915567282321899,
	"eval_loss": 0.07792137563228607,
	"eval_runtime": 27.3248,
	"eval_samples_per_second": 73.194,
	"eval_steps_per_second": 0.293,
	"step": 300
	},
	{
	"epoch": 0.8443271767810027,
	"grad_norm": 0.1630859375,
	"learning_rate": 0.00016962843295638126,
	"loss": 0.1222,
	"step": 320
	},
	{
	"epoch": 0.8970976253298153,
	"grad_norm": 0.173828125,
	"learning_rate": 0.0001674744211093161,
	"loss": 0.1254,
	"step": 340
	},
	{
	"epoch": 0.9234828496042217,
	"eval_loss": 0.07484881579875946,
	"eval_runtime": 27.8135,
	"eval_samples_per_second": 71.907,
	"eval_steps_per_second": 0.288,
	"step": 350
	},
	{
	"epoch": 0.9498680738786279,
	"grad_norm": 0.1728515625,
	"learning_rate": 0.00016532040926225093,
	"loss": 0.1177,
	"step": 360
	},
	{
	"epoch": 1.0026385224274406,
	"grad_norm": 0.1220703125,
	"learning_rate": 0.0001631663974151858,
	"loss": 0.1207,
	"step": 380
	},
	{
	"epoch": 1.0554089709762533,
	"grad_norm": 0.1591796875,
	"learning_rate": 0.00016101238556812063,
	"loss": 0.1046,
	"step": 400
	},
	{
	"epoch": 1.0554089709762533,
	"eval_loss": 0.0715707540512085,
	"eval_runtime": 27.7758,
	"eval_samples_per_second": 72.005,
	"eval_steps_per_second": 0.288,
	"step": 400
	},
	{
	"epoch": 1.108179419525066,
	"grad_norm": 0.1142578125,
	"learning_rate": 0.0001588583737210555,
	"loss": 0.1041,
	"step": 420
	},
	{
	"epoch": 1.1609498680738786,
	"grad_norm": 0.177734375,
	"learning_rate": 0.00015670436187399032,
	"loss": 0.1034,
	"step": 440
	},
	{
	"epoch": 1.187335092348285,
	"eval_loss": 0.0693235993385315,
	"eval_runtime": 27.7658,
	"eval_samples_per_second": 72.031,
	"eval_steps_per_second": 0.288,
	"step": 450
	},
	{
	"epoch": 1.2137203166226913,
	"grad_norm": 0.1630859375,
	"learning_rate": 0.00015455035002692516,
	"loss": 0.1042,
	"step": 460
	},
	{
	"epoch": 1.266490765171504,
	"grad_norm": 0.1611328125,
	"learning_rate": 0.00015239633817986,
	"loss": 0.1032,
	"step": 480
	},
	{
	"epoch": 1.3192612137203166,
	"grad_norm": 0.169921875,
	"learning_rate": 0.00015024232633279485,
	"loss": 0.1021,
	"step": 500
	},
	{
	"epoch": 1.3192612137203166,
	"eval_loss": 0.06579812616109848,
	"eval_runtime": 27.42,
	"eval_samples_per_second": 72.939,
	"eval_steps_per_second": 0.292,
	"step": 500
	},
	{
	"epoch": 1.3720316622691293,
	"grad_norm": 0.1611328125,
	"learning_rate": 0.0001480883144857297,
	"loss": 0.1041,
	"step": 520
	},
	{
	"epoch": 1.424802110817942,
	"grad_norm": 0.11474609375,
	"learning_rate": 0.00014593430263866452,
	"loss": 0.1006,
	"step": 540
	},
	{
	"epoch": 1.4511873350923483,
	"eval_loss": 0.06417644023895264,
	"eval_runtime": 27.5371,
	"eval_samples_per_second": 72.629,
	"eval_steps_per_second": 0.291,
	"step": 550
	},
	{
	"epoch": 1.4775725593667546,
	"grad_norm": 0.1259765625,
	"learning_rate": 0.00014378029079159936,
	"loss": 0.1001,
	"step": 560
	},
	{
	"epoch": 1.5303430079155673,
	"grad_norm": 0.146484375,
	"learning_rate": 0.0001416262789445342,
	"loss": 0.1013,
	"step": 580
	},
	{
	"epoch": 1.58311345646438,
	"grad_norm": 0.1591796875,
	"learning_rate": 0.00013947226709746903,
	"loss": 0.1,
	"step": 600
	},
	{
	"epoch": 1.58311345646438,
	"eval_loss": 0.06583409756422043,
	"eval_runtime": 28.0223,
	"eval_samples_per_second": 71.372,
	"eval_steps_per_second": 0.285,
	"step": 600
	},
	{
	"epoch": 1.6358839050131926,
	"grad_norm": 0.1611328125,
	"learning_rate": 0.0001373182552504039,
	"loss": 0.1021,
	"step": 620
	},
	{
	"epoch": 1.6886543535620053,
	"grad_norm": 0.14453125,
	"learning_rate": 0.00013516424340333873,
	"loss": 0.1002,
	"step": 640
	},
	{
	"epoch": 1.7150395778364116,
	"eval_loss": 0.06498919427394867,
	"eval_runtime": 28.3581,
	"eval_samples_per_second": 70.527,
	"eval_steps_per_second": 0.282,
	"step": 650
	},
	{
	"epoch": 1.741424802110818,
	"grad_norm": 0.111328125,
	"learning_rate": 0.00013301023155627356,
	"loss": 0.0967,
	"step": 660
	},
	{
	"epoch": 1.7941952506596306,
	"grad_norm": 0.1884765625,
	"learning_rate": 0.0001308562197092084,
	"loss": 0.1004,
	"step": 680
	},
	{
	"epoch": 1.8469656992084431,
	"grad_norm": 0.13671875,
	"learning_rate": 0.00012870220786214323,
	"loss": 0.0992,
	"step": 700
	},
	{
	"epoch": 1.8469656992084431,
	"eval_loss": 0.06491042673587799,
	"eval_runtime": 27.748,
	"eval_samples_per_second": 72.077,
	"eval_steps_per_second": 0.288,
	"step": 700
	},
	{
	"epoch": 1.899736147757256,
	"grad_norm": 0.15234375,
	"learning_rate": 0.0001265481960150781,
	"loss": 0.0967,
	"step": 720
	},
	{
	"epoch": 1.9525065963060686,
	"grad_norm": 0.12451171875,
	"learning_rate": 0.00012439418416801293,
	"loss": 0.0956,
	"step": 740
	},
	{
	"epoch": 1.978891820580475,
	"eval_loss": 0.06425958126783371,
	"eval_runtime": 27.654,
	"eval_samples_per_second": 72.322,
	"eval_steps_per_second": 0.289,
	"step": 750
	},
	{
	"epoch": 2.005277044854881,
	"grad_norm": 0.12060546875,
	"learning_rate": 0.0001222401723209478,
	"loss": 0.0934,
	"step": 760
	},
	{
	"epoch": 2.058047493403694,
	"grad_norm": 0.171875,
	"learning_rate": 0.00012008616047388261,
	"loss": 0.0907,
	"step": 780
	},
	{
	"epoch": 2.1108179419525066,
	"grad_norm": 0.16796875,
	"learning_rate": 0.00011793214862681745,
	"loss": 0.0861,
	"step": 800
	},
	{
	"epoch": 2.1108179419525066,
	"eval_loss": 0.06223862245678902,
	"eval_runtime": 27.4046,
	"eval_samples_per_second": 72.981,
	"eval_steps_per_second": 0.292,
	"step": 800
	},
	{
	"epoch": 2.163588390501319,
	"grad_norm": 0.134765625,
	"learning_rate": 0.0001157781367797523,
	"loss": 0.0864,
	"step": 820
	},
	{
	"epoch": 2.216358839050132,
	"grad_norm": 0.123046875,
	"learning_rate": 0.00011362412493268713,
	"loss": 0.0842,
	"step": 840
	},
	{
	"epoch": 2.242744063324538,
	"eval_loss": 0.060463495552539825,
	"eval_runtime": 27.4597,
	"eval_samples_per_second": 72.834,
	"eval_steps_per_second": 0.291,
	"step": 850
	},
	{
	"epoch": 2.2691292875989446,
	"grad_norm": 0.1435546875,
	"learning_rate": 0.00011147011308562199,
	"loss": 0.0863,
	"step": 860
	},
	{
	"epoch": 2.321899736147757,
	"grad_norm": 0.1494140625,
	"learning_rate": 0.00010931610123855683,
	"loss": 0.0858,
	"step": 880
	},
	{
	"epoch": 2.37467018469657,
	"grad_norm": 0.1259765625,
	"learning_rate": 0.00010716208939149166,
	"loss": 0.0866,
	"step": 900
	},
	{
	"epoch": 2.37467018469657,
	"eval_loss": 0.06099672615528107,
	"eval_runtime": 27.7635,
	"eval_samples_per_second": 72.037,
	"eval_steps_per_second": 0.288,
	"step": 900
	},
	{
	"epoch": 2.4274406332453826,
	"grad_norm": 0.1376953125,
	"learning_rate": 0.0001050080775444265,
	"loss": 0.0873,
	"step": 920
	},
	{
	"epoch": 2.480211081794195,
	"grad_norm": 0.158203125,
	"learning_rate": 0.00010285406569736133,
	"loss": 0.0853,
	"step": 940
	},
	{
	"epoch": 2.5065963060686016,
	"eval_loss": 0.06115744262933731,
	"eval_runtime": 27.8521,
	"eval_samples_per_second": 71.808,
	"eval_steps_per_second": 0.287,
	"step": 950
	},
	{
	"epoch": 2.532981530343008,
	"grad_norm": 0.1259765625,
	"learning_rate": 0.00010070005385029618,
	"loss": 0.0849,
	"step": 960
	},
	{
	"epoch": 2.5857519788918206,
	"grad_norm": 0.1318359375,
	"learning_rate": 9.854604200323103e-05,
	"loss": 0.0814,
	"step": 980
	},
	{
	"epoch": 2.638522427440633,
	"grad_norm": 0.1376953125,
	"learning_rate": 9.639203015616588e-05,
	"loss": 0.0864,
	"step": 1000
	},
	{
	"epoch": 2.638522427440633,
	"eval_loss": 0.05968466028571129,
	"eval_runtime": 27.6897,
	"eval_samples_per_second": 72.229,
	"eval_steps_per_second": 0.289,
	"step": 1000
	},
	{
	"epoch": 2.691292875989446,
	"grad_norm": 0.16015625,
	"learning_rate": 9.423801830910071e-05,
	"loss": 0.0869,
	"step": 1020
	},
	{
	"epoch": 2.7440633245382586,
	"grad_norm": 0.12890625,
	"learning_rate": 9.208400646203555e-05,
	"loss": 0.0821,
	"step": 1040
	},
	{
	"epoch": 2.7704485488126647,
	"eval_loss": 0.059157080948352814,
	"eval_runtime": 27.7435,
	"eval_samples_per_second": 72.089,
	"eval_steps_per_second": 0.288,
	"step": 1050
	},
	{
	"epoch": 2.796833773087071,
	"grad_norm": 0.1337890625,
	"learning_rate": 8.99299946149704e-05,
	"loss": 0.0842,
	"step": 1060
	},
	{
	"epoch": 2.849604221635884,
	"grad_norm": 0.1513671875,
	"learning_rate": 8.777598276790523e-05,
	"loss": 0.0846,
	"step": 1080
	},
	{
	"epoch": 2.9023746701846966,
	"grad_norm": 0.1328125,
	"learning_rate": 8.562197092084006e-05,
	"loss": 0.0841,
	"step": 1100
	},
	{
	"epoch": 2.9023746701846966,
	"eval_loss": 0.05879725515842438,
	"eval_runtime": 27.612,
	"eval_samples_per_second": 72.432,
	"eval_steps_per_second": 0.29,
	"step": 1100
	},
	{
	"epoch": 2.955145118733509,
	"grad_norm": 0.1455078125,
	"learning_rate": 8.346795907377491e-05,
	"loss": 0.0809,
	"step": 1120
	},
	{
	"epoch": 3.007915567282322,
	"grad_norm": 0.1259765625,
	"learning_rate": 8.131394722670975e-05,
	"loss": 0.0815,
	"step": 1140
	},
	{
	"epoch": 3.034300791556728,
	"eval_loss": 0.05831225588917732,
	"eval_runtime": 27.6258,
	"eval_samples_per_second": 72.396,
	"eval_steps_per_second": 0.29,
	"step": 1150
	},
	{
	"epoch": 3.0606860158311346,
	"grad_norm": 0.130859375,
	"learning_rate": 7.91599353796446e-05,
	"loss": 0.0793,
	"step": 1160
	},
	{
	"epoch": 3.113456464379947,
	"grad_norm": 0.1435546875,
	"learning_rate": 7.700592353257944e-05,
	"loss": 0.0775,
	"step": 1180
	},
	{
	"epoch": 3.16622691292876,
	"grad_norm": 0.1357421875,
	"learning_rate": 7.485191168551428e-05,
	"loss": 0.0795,
	"step": 1200
	},
	{
	"epoch": 3.16622691292876,
	"eval_loss": 0.0580158606171608,
	"eval_runtime": 27.9777,
	"eval_samples_per_second": 71.485,
	"eval_steps_per_second": 0.286,
	"step": 1200
	},
	{
	"epoch": 3.2189973614775726,
	"grad_norm": 0.1220703125,
	"learning_rate": 7.269789983844911e-05,
	"loss": 0.0766,
	"step": 1220
	},
	{
	"epoch": 3.271767810026385,
	"grad_norm": 0.1318359375,
	"learning_rate": 7.054388799138396e-05,
	"loss": 0.0732,
	"step": 1240
	},
	{
	"epoch": 3.2981530343007917,
	"eval_loss": 0.057783834636211395,
	"eval_runtime": 28.6683,
	"eval_samples_per_second": 69.763,
	"eval_steps_per_second": 0.279,
	"step": 1250
	},
	{
	"epoch": 3.324538258575198,
	"grad_norm": 0.130859375,
	"learning_rate": 6.83898761443188e-05,
	"loss": 0.0754,
	"step": 1260
	},
	{
	"epoch": 3.3773087071240107,
	"grad_norm": 0.1611328125,
	"learning_rate": 6.623586429725363e-05,
	"loss": 0.0793,
	"step": 1280
	},
	{
	"epoch": 3.430079155672823,
	"grad_norm": 0.1181640625,
	"learning_rate": 6.408185245018848e-05,
	"loss": 0.076,
	"step": 1300
	},
	{
	"epoch": 3.430079155672823,
	"eval_loss": 0.05801219865679741,
	"eval_runtime": 28.2125,
	"eval_samples_per_second": 70.891,
	"eval_steps_per_second": 0.284,
	"step": 1300
	},
	{
	"epoch": 3.4828496042216357,
	"grad_norm": 0.1611328125,
	"learning_rate": 6.192784060312333e-05,
	"loss": 0.0745,
	"step": 1320
	},
	{
	"epoch": 3.5356200527704487,
	"grad_norm": 0.1142578125,
	"learning_rate": 5.9773828756058156e-05,
	"loss": 0.0766,
	"step": 1340
	},
	{
	"epoch": 3.5620052770448547,
	"eval_loss": 0.05800151824951172,
	"eval_runtime": 27.919,
	"eval_samples_per_second": 71.636,
	"eval_steps_per_second": 0.287,
	"step": 1350
	},
	{
	"epoch": 3.588390501319261,
	"grad_norm": 0.140625,
	"learning_rate": 5.7619816908993005e-05,
	"loss": 0.0753,
	"step": 1360
	},
	{
	"epoch": 3.641160949868074,
	"grad_norm": 0.1328125,
	"learning_rate": 5.5465805061927846e-05,
	"loss": 0.0772,
	"step": 1380
	},
	{
	"epoch": 3.6939313984168867,
	"grad_norm": 0.1328125,
	"learning_rate": 5.331179321486268e-05,
	"loss": 0.0716,
	"step": 1400
	},
	{
	"epoch": 3.6939313984168867,
	"eval_loss": 0.057653266936540604,
	"eval_runtime": 28.2955,
	"eval_samples_per_second": 70.683,
	"eval_steps_per_second": 0.283,
	"step": 1400
	},
	{
	"epoch": 3.746701846965699,
	"grad_norm": 0.1513671875,
	"learning_rate": 5.115778136779753e-05,
	"loss": 0.0744,
	"step": 1420
	},
	{
	"epoch": 3.7994722955145117,
	"grad_norm": 0.1259765625,
	"learning_rate": 4.9003769520732365e-05,
	"loss": 0.0777,
	"step": 1440
	},
	{
	"epoch": 3.825857519788918,
	"eval_loss": 0.05697743222117424,
	"eval_runtime": 28.2563,
	"eval_samples_per_second": 70.781,
	"eval_steps_per_second": 0.283,
	"step": 1450
	},
	{
	"epoch": 3.8522427440633247,
	"grad_norm": 0.1640625,
	"learning_rate": 4.6849757673667206e-05,
	"loss": 0.0736,
	"step": 1460
	},
	{
	"epoch": 3.905013192612137,
	"grad_norm": 0.1318359375,
	"learning_rate": 4.469574582660205e-05,
	"loss": 0.0753,
	"step": 1480
	},
	{
	"epoch": 3.9577836411609497,
	"grad_norm": 0.12255859375,
	"learning_rate": 4.254173397953689e-05,
	"loss": 0.0745,
	"step": 1500
	},
	{
	"epoch": 3.9577836411609497,
	"eval_loss": 0.05676369369029999,
	"eval_runtime": 27.6767,
	"eval_samples_per_second": 72.263,
	"eval_steps_per_second": 0.289,
	"step": 1500
	}
	],
	"logging_steps": 20,
	"max_steps": 1895,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.03702605821971e+19,
	"train_batch_size": 128,
	"trial_name": null,
	"trial_params": null
	}