zephyr-7b-dpo-full / trainer_state.json

Model save

00dc39f verified 5 months ago

No virus

20.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 100,
	"global_step": 350,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"grad_norm": 3067.8628948133914,
	"learning_rate": 4.9998992904271775e-08,
	"logits/chosen": -4.185730934143066,
	"logits/rejected": -4.509836196899414,
	"logps/chosen": -274.000732421875,
	"logps/rejected": -205.8054962158203,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.03,
	"grad_norm": 3330.3974170986107,
	"learning_rate": 4.9899357349880975e-08,
	"logits/chosen": -4.211880207061768,
	"logits/rejected": -4.48573637008667,
	"logps/chosen": -318.31072998046875,
	"logps/rejected": -257.18267822265625,
	"loss": 0.7459,
	"rewards/accuracies": 0.5625,
	"rewards/chosen": 0.200405091047287,
	"rewards/margins": 0.10155472159385681,
	"rewards/rejected": 0.09885036945343018,
	"step": 10
	},
	{
	"epoch": 0.06,
	"grad_norm": 2932.727170813642,
	"learning_rate": 4.959823971496574e-08,
	"logits/chosen": -4.2464704513549805,
	"logits/rejected": -4.50115966796875,
	"logps/chosen": -304.53350830078125,
	"logps/rejected": -244.1282501220703,
	"loss": 0.6293,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": 0.7030802965164185,
	"rewards/margins": 0.6052380800247192,
	"rewards/rejected": 0.09784229844808578,
	"step": 20
	},
	{
	"epoch": 0.09,
	"grad_norm": 2159.097276891197,
	"learning_rate": 4.9099071517396326e-08,
	"logits/chosen": -4.3018364906311035,
	"logits/rejected": -4.5636820793151855,
	"logps/chosen": -305.11822509765625,
	"logps/rejected": -258.89215087890625,
	"loss": 0.5093,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": 1.3964869976043701,
	"rewards/margins": 0.9537334442138672,
	"rewards/rejected": 0.44275355339050293,
	"step": 30
	},
	{
	"epoch": 0.11,
	"grad_norm": 2233.10446662558,
	"learning_rate": 4.8405871765993426e-08,
	"logits/chosen": -4.304145812988281,
	"logits/rejected": -4.571420192718506,
	"logps/chosen": -293.4151916503906,
	"logps/rejected": -234.4054412841797,
	"loss": 0.4371,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": 2.119215488433838,
	"rewards/margins": 1.3193193674087524,
	"rewards/rejected": 0.7998961806297302,
	"step": 40
	},
	{
	"epoch": 0.14,
	"grad_norm": 1863.9092640792912,
	"learning_rate": 4.7524221697560474e-08,
	"logits/chosen": -4.298985481262207,
	"logits/rejected": -4.545313835144043,
	"logps/chosen": -299.71026611328125,
	"logps/rejected": -252.57339477539062,
	"loss": 0.4054,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": 3.015381336212158,
	"rewards/margins": 1.8283360004425049,
	"rewards/rejected": 1.1870452165603638,
	"step": 50
	},
	{
	"epoch": 0.17,
	"grad_norm": 1861.0742759245438,
	"learning_rate": 4.646121984004665e-08,
	"logits/chosen": -4.3018717765808105,
	"logits/rejected": -4.5299859046936035,
	"logps/chosen": -308.25457763671875,
	"logps/rejected": -261.1996154785156,
	"loss": 0.3815,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": 3.097055673599243,
	"rewards/margins": 1.6846046447753906,
	"rewards/rejected": 1.412451148033142,
	"step": 60
	},
	{
	"epoch": 0.2,
	"grad_norm": 2083.1341477087894,
	"learning_rate": 4.522542485937369e-08,
	"logits/chosen": -4.417206764221191,
	"logits/rejected": -4.548245429992676,
	"logps/chosen": -285.4747009277344,
	"logps/rejected": -236.24136352539062,
	"loss": 0.3773,
	"rewards/accuracies": 0.8062499761581421,
	"rewards/chosen": 3.4294419288635254,
	"rewards/margins": 2.4485509395599365,
	"rewards/rejected": 0.9808910489082336,
	"step": 70
	},
	{
	"epoch": 0.23,
	"grad_norm": 1999.1118673285923,
	"learning_rate": 4.3826786650090273e-08,
	"logits/chosen": -4.271725177764893,
	"logits/rejected": -4.525103569030762,
	"logps/chosen": -292.2157897949219,
	"logps/rejected": -239.5623321533203,
	"loss": 0.3663,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": 3.471898317337036,
	"rewards/margins": 2.5827386379241943,
	"rewards/rejected": 0.8891592025756836,
	"step": 80
	},
	{
	"epoch": 0.26,
	"grad_norm": 1543.0151245523064,
	"learning_rate": 4.2276566224671614e-08,
	"logits/chosen": -4.196888446807861,
	"logits/rejected": -4.430451393127441,
	"logps/chosen": -303.9364929199219,
	"logps/rejected": -258.19708251953125,
	"loss": 0.37,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": 3.6267776489257812,
	"rewards/margins": 2.5005435943603516,
	"rewards/rejected": 1.1262344121932983,
	"step": 90
	},
	{
	"epoch": 0.29,
	"grad_norm": 2558.2358091969077,
	"learning_rate": 4.058724504646834e-08,
	"logits/chosen": -4.298203468322754,
	"logits/rejected": -4.51765251159668,
	"logps/chosen": -291.99151611328125,
	"logps/rejected": -240.97909545898438,
	"loss": 0.3573,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": 3.8364264965057373,
	"rewards/margins": 2.6143250465393066,
	"rewards/rejected": 1.2221016883850098,
	"step": 100
	},
	{
	"epoch": 0.29,
	"eval_logits/chosen": -3.2259409427642822,
	"eval_logits/rejected": -3.2259409427642822,
	"eval_logps/chosen": -157.8415985107422,
	"eval_logps/rejected": -157.8415985107422,
	"eval_loss": 0.6931471824645996,
	"eval_rewards/accuracies": 0.0,
	"eval_rewards/chosen": -2.2645912170410156,
	"eval_rewards/margins": 0.0,
	"eval_rewards/rejected": -2.2645912170410156,
	"eval_runtime": 1.5044,
	"eval_samples_per_second": 0.665,
	"eval_steps_per_second": 0.665,
	"step": 100
	},
	{
	"epoch": 0.31,
	"grad_norm": 2075.8470964199623,
	"learning_rate": 3.8772424536302564e-08,
	"logits/chosen": -4.3160247802734375,
	"logits/rejected": -4.557186126708984,
	"logps/chosen": -299.556640625,
	"logps/rejected": -250.2120361328125,
	"loss": 0.3653,
	"rewards/accuracies": 0.8687499761581421,
	"rewards/chosen": 3.8744053840637207,
	"rewards/margins": 2.781764268875122,
	"rewards/rejected": 1.0926413536071777,
	"step": 110
	},
	{
	"epoch": 0.34,
	"grad_norm": 2129.2578794603846,
	"learning_rate": 3.6846716561824964e-08,
	"logits/chosen": -4.358242988586426,
	"logits/rejected": -4.6036834716796875,
	"logps/chosen": -288.9602966308594,
	"logps/rejected": -237.98257446289062,
	"loss": 0.346,
	"rewards/accuracies": 0.8687499761581421,
	"rewards/chosen": 3.973881959915161,
	"rewards/margins": 2.8389506340026855,
	"rewards/rejected": 1.1349313259124756,
	"step": 120
	},
	{
	"epoch": 0.37,
	"grad_norm": 1374.3088736284383,
	"learning_rate": 3.482562579134809e-08,
	"logits/chosen": -4.360684871673584,
	"logits/rejected": -4.608490467071533,
	"logps/chosen": -278.861572265625,
	"logps/rejected": -218.7367706298828,
	"loss": 0.3426,
	"rewards/accuracies": 0.8374999761581421,
	"rewards/chosen": 3.8384926319122314,
	"rewards/margins": 2.634833812713623,
	"rewards/rejected": 1.2036586999893188,
	"step": 130
	},
	{
	"epoch": 0.4,
	"grad_norm": 1741.7465783603645,
	"learning_rate": 3.272542485937369e-08,
	"logits/chosen": -4.276978969573975,
	"logits/rejected": -4.593733787536621,
	"logps/chosen": -296.0984191894531,
	"logps/rejected": -240.01248168945312,
	"loss": 0.3729,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": 3.785256862640381,
	"rewards/margins": 2.9941701889038086,
	"rewards/rejected": 0.79108726978302,
	"step": 140
	},
	{
	"epoch": 0.43,
	"grad_norm": 1837.7137132104272,
	"learning_rate": 3.056302334890786e-08,
	"logits/chosen": -4.245262622833252,
	"logits/rejected": -4.510401725769043,
	"logps/chosen": -295.3984680175781,
	"logps/rejected": -250.73580932617188,
	"loss": 0.3235,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": 4.011710166931152,
	"rewards/margins": 3.0462794303894043,
	"rewards/rejected": 0.9654304385185242,
	"step": 150
	},
	{
	"epoch": 0.46,
	"grad_norm": 1744.335126050233,
	"learning_rate": 2.8355831645441387e-08,
	"logits/chosen": -4.277425765991211,
	"logits/rejected": -4.570274829864502,
	"logps/chosen": -296.66839599609375,
	"logps/rejected": -235.6475372314453,
	"loss": 0.36,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": 4.259499549865723,
	"rewards/margins": 3.127065658569336,
	"rewards/rejected": 1.1324341297149658,
	"step": 160
	},
	{
	"epoch": 0.49,
	"grad_norm": 1875.319827037545,
	"learning_rate": 2.6121620758762875e-08,
	"logits/chosen": -4.229983329772949,
	"logits/rejected": -4.467092990875244,
	"logps/chosen": -296.31683349609375,
	"logps/rejected": -241.3401336669922,
	"loss": 0.3474,
	"rewards/accuracies": 0.8687499761581421,
	"rewards/chosen": 4.343829154968262,
	"rewards/margins": 3.233609437942505,
	"rewards/rejected": 1.1102204322814941,
	"step": 170
	},
	{
	"epoch": 0.51,
	"grad_norm": 2082.5003671787076,
	"learning_rate": 2.3878379241237133e-08,
	"logits/chosen": -4.364750862121582,
	"logits/rejected": -4.597868919372559,
	"logps/chosen": -285.72869873046875,
	"logps/rejected": -241.40652465820312,
	"loss": 0.3417,
	"rewards/accuracies": 0.8374999761581421,
	"rewards/chosen": 4.1484293937683105,
	"rewards/margins": 3.0738511085510254,
	"rewards/rejected": 1.074578046798706,
	"step": 180
	},
	{
	"epoch": 0.54,
	"grad_norm": 1597.9774938638957,
	"learning_rate": 2.164416835455862e-08,
	"logits/chosen": -4.3281121253967285,
	"logits/rejected": -4.498069763183594,
	"logps/chosen": -308.14776611328125,
	"logps/rejected": -257.7415466308594,
	"loss": 0.2852,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 4.146700859069824,
	"rewards/margins": 3.202249526977539,
	"rewards/rejected": 0.9444509744644165,
	"step": 190
	},
	{
	"epoch": 0.57,
	"grad_norm": 1601.8580723204816,
	"learning_rate": 1.943697665109214e-08,
	"logits/chosen": -4.358348846435547,
	"logits/rejected": -4.601215839385986,
	"logps/chosen": -292.93658447265625,
	"logps/rejected": -249.59469604492188,
	"loss": 0.3184,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": 4.194998741149902,
	"rewards/margins": 2.974621534347534,
	"rewards/rejected": 1.2203772068023682,
	"step": 200
	},
	{
	"epoch": 0.57,
	"eval_logits/chosen": -3.2195205688476562,
	"eval_logits/rejected": -3.2195205688476562,
	"eval_logps/chosen": -157.37933349609375,
	"eval_logps/rejected": -157.37933349609375,
	"eval_loss": 0.6931471824645996,
	"eval_rewards/accuracies": 0.0,
	"eval_rewards/chosen": -1.8023262023925781,
	"eval_rewards/margins": 0.0,
	"eval_rewards/rejected": -1.8023262023925781,
	"eval_runtime": 1.4741,
	"eval_samples_per_second": 0.678,
	"eval_steps_per_second": 0.678,
	"step": 200
	},
	{
	"epoch": 0.6,
	"grad_norm": 1818.1510653253358,
	"learning_rate": 1.7274575140626317e-08,
	"logits/chosen": -4.293700218200684,
	"logits/rejected": -4.587708473205566,
	"logps/chosen": -306.94647216796875,
	"logps/rejected": -254.83981323242188,
	"loss": 0.3169,
	"rewards/accuracies": 0.8374999761581421,
	"rewards/chosen": 4.274092674255371,
	"rewards/margins": 3.556690216064453,
	"rewards/rejected": 0.7174022793769836,
	"step": 210
	},
	{
	"epoch": 0.63,
	"grad_norm": 2084.9707047014217,
	"learning_rate": 1.517437420865191e-08,
	"logits/chosen": -4.2438554763793945,
	"logits/rejected": -4.590119361877441,
	"logps/chosen": -297.3277587890625,
	"logps/rejected": -225.09414672851562,
	"loss": 0.3117,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": 4.186089515686035,
	"rewards/margins": 3.6873459815979004,
	"rewards/rejected": 0.4987434446811676,
	"step": 220
	},
	{
	"epoch": 0.66,
	"grad_norm": 1793.5243127965375,
	"learning_rate": 1.3153283438175034e-08,
	"logits/chosen": -4.3719801902771,
	"logits/rejected": -4.563234806060791,
	"logps/chosen": -281.373779296875,
	"logps/rejected": -226.25576782226562,
	"loss": 0.2879,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": 3.584429979324341,
	"rewards/margins": 2.8807406425476074,
	"rewards/rejected": 0.7036892771720886,
	"step": 230
	},
	{
	"epoch": 0.69,
	"grad_norm": 1621.528952660571,
	"learning_rate": 1.1227575463697438e-08,
	"logits/chosen": -4.3936567306518555,
	"logits/rejected": -4.714280128479004,
	"logps/chosen": -258.6517639160156,
	"logps/rejected": -215.28759765625,
	"loss": 0.3042,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": 3.862626552581787,
	"rewards/margins": 3.0625431537628174,
	"rewards/rejected": 0.8000835180282593,
	"step": 240
	},
	{
	"epoch": 0.71,
	"grad_norm": 2231.5682374793205,
	"learning_rate": 9.412754953531663e-09,
	"logits/chosen": -4.34213924407959,
	"logits/rejected": -4.6162428855896,
	"logps/chosen": -278.9085388183594,
	"logps/rejected": -232.6056365966797,
	"loss": 0.3109,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": 3.6670002937316895,
	"rewards/margins": 2.8657121658325195,
	"rewards/rejected": 0.8012881278991699,
	"step": 250
	},
	{
	"epoch": 0.74,
	"grad_norm": 1668.5476234310504,
	"learning_rate": 7.723433775328384e-09,
	"logits/chosen": -4.386145114898682,
	"logits/rejected": -4.632050037384033,
	"logps/chosen": -271.8704833984375,
	"logps/rejected": -240.48257446289062,
	"loss": 0.3039,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": 3.5878806114196777,
	"rewards/margins": 2.9320101737976074,
	"rewards/rejected": 0.6558703184127808,
	"step": 260
	},
	{
	"epoch": 0.77,
	"grad_norm": 1726.7631750123023,
	"learning_rate": 6.173213349909728e-09,
	"logits/chosen": -4.517698764801025,
	"logits/rejected": -4.687317848205566,
	"logps/chosen": -273.4754943847656,
	"logps/rejected": -228.2833709716797,
	"loss": 0.3356,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": 3.6022744178771973,
	"rewards/margins": 2.6589503288269043,
	"rewards/rejected": 0.9433239698410034,
	"step": 270
	},
	{
	"epoch": 0.8,
	"grad_norm": 1197.1122441391342,
	"learning_rate": 4.7745751406263165e-09,
	"logits/chosen": -4.299304008483887,
	"logits/rejected": -4.589285850524902,
	"logps/chosen": -274.9901123046875,
	"logps/rejected": -229.76449584960938,
	"loss": 0.2791,
	"rewards/accuracies": 0.893750011920929,
	"rewards/chosen": 4.094995021820068,
	"rewards/margins": 3.0975327491760254,
	"rewards/rejected": 0.997462272644043,
	"step": 280
	},
	{
	"epoch": 0.83,
	"grad_norm": 2356.4193384705377,
	"learning_rate": 3.5387801599533474e-09,
	"logits/chosen": -4.320891857147217,
	"logits/rejected": -4.508334636688232,
	"logps/chosen": -282.45013427734375,
	"logps/rejected": -236.50424194335938,
	"loss": 0.3316,
	"rewards/accuracies": 0.8812500238418579,
	"rewards/chosen": 4.115664958953857,
	"rewards/margins": 3.2731566429138184,
	"rewards/rejected": 0.8425084948539734,
	"step": 290
	},
	{
	"epoch": 0.86,
	"grad_norm": 1485.14332328563,
	"learning_rate": 2.475778302439524e-09,
	"logits/chosen": -4.295617580413818,
	"logits/rejected": -4.5400543212890625,
	"logps/chosen": -298.4153137207031,
	"logps/rejected": -240.1478271484375,
	"loss": 0.3594,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": 4.416214942932129,
	"rewards/margins": 3.1984994411468506,
	"rewards/rejected": 1.2177152633666992,
	"step": 300
	},
	{
	"epoch": 0.86,
	"eval_logits/chosen": -3.220174551010132,
	"eval_logits/rejected": -3.220174551010132,
	"eval_logps/chosen": -157.367431640625,
	"eval_logps/rejected": -157.367431640625,
	"eval_loss": 0.6931471824645996,
	"eval_rewards/accuracies": 0.0,
	"eval_rewards/chosen": -1.7904319763183594,
	"eval_rewards/margins": 0.0,
	"eval_rewards/rejected": -1.7904319763183594,
	"eval_runtime": 1.47,
	"eval_samples_per_second": 0.68,
	"eval_steps_per_second": 0.68,
	"step": 300
	},
	{
	"epoch": 0.89,
	"grad_norm": 2625.0873445651387,
	"learning_rate": 1.5941282340065698e-09,
	"logits/chosen": -4.43851900100708,
	"logits/rejected": -4.580752372741699,
	"logps/chosen": -262.37445068359375,
	"logps/rejected": -226.46572875976562,
	"loss": 0.3007,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": 3.741738796234131,
	"rewards/margins": 2.9144444465637207,
	"rewards/rejected": 0.8272944688796997,
	"step": 310
	},
	{
	"epoch": 0.91,
	"grad_norm": 1589.6112135444553,
	"learning_rate": 9.009284826036689e-10,
	"logits/chosen": -4.277141094207764,
	"logits/rejected": -4.5314412117004395,
	"logps/chosen": -292.65875244140625,
	"logps/rejected": -243.8509063720703,
	"loss": 0.3277,
	"rewards/accuracies": 0.8687499761581421,
	"rewards/chosen": 4.2250542640686035,
	"rewards/margins": 3.1320207118988037,
	"rewards/rejected": 1.093034029006958,
	"step": 320
	},
	{
	"epoch": 0.94,
	"grad_norm": 2192.855370501752,
	"learning_rate": 4.017602850342583e-10,
	"logits/chosen": -4.330888271331787,
	"logits/rejected": -4.536975383758545,
	"logps/chosen": -305.5764465332031,
	"logps/rejected": -252.0467529296875,
	"loss": 0.3203,
	"rewards/accuracies": 0.8687499761581421,
	"rewards/chosen": 4.009243488311768,
	"rewards/margins": 3.056270122528076,
	"rewards/rejected": 0.9529730677604675,
	"step": 330
	},
	{
	"epoch": 0.97,
	"grad_norm": 2158.7231383937637,
	"learning_rate": 1.0064265011902328e-10,
	"logits/chosen": -4.319821357727051,
	"logits/rejected": -4.614516735076904,
	"logps/chosen": -285.194091796875,
	"logps/rejected": -227.5124053955078,
	"loss": 0.3239,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": 3.751185178756714,
	"rewards/margins": 2.758882522583008,
	"rewards/rejected": 0.9923027753829956,
	"step": 340
	},
	{
	"epoch": 1.0,
	"grad_norm": 1350.3403367664616,
	"learning_rate": 0.0,
	"logits/chosen": -4.290497779846191,
	"logits/rejected": -4.4949870109558105,
	"logps/chosen": -291.93768310546875,
	"logps/rejected": -244.3520965576172,
	"loss": 0.3142,
	"rewards/accuracies": 0.8187500238418579,
	"rewards/chosen": 4.083470344543457,
	"rewards/margins": 3.2036800384521484,
	"rewards/rejected": 0.8797903060913086,
	"step": 350
	},
	{
	"epoch": 1.0,
	"step": 350,
	"total_flos": 0.0,
	"train_loss": 0.36299856867109026,
	"train_runtime": 5294.123,
	"train_samples_per_second": 8.454,
	"train_steps_per_second": 0.066
	}
	],
	"logging_steps": 10,
	"max_steps": 350,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}