TTTXXX01
/

Meta-Llama-3-8B-Instruct-MI-1e-6

alignment_handbook-handbook

Generated from Trainer

Model card Files Files and versions Community

Meta-Llama-3-8B-Instruct-MI-1e-6 / trainer_state.json

tengxiao1

TX

1f70f5a 6 months ago

history blame contribute delete

51.4 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9982631930527722,
	"eval_steps": 400,
	"global_step": 467,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01068804275217101,
	"grad_norm": 7.6839051021356335,
	"learning_rate": 1.0638297872340425e-07,
	"logits/chosen": 0.030031317844986916,
	"logits/rejected": -0.005169146694242954,
	"logps/chosen": -0.2549566626548767,
	"logps/rejected": -0.26970332860946655,
	"loss": 1.2612,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": -0.2549566626548767,
	"rewards/margins": 0.014746698550879955,
	"rewards/rejected": -0.26970332860946655,
	"step": 5
	},
	{
	"epoch": 0.02137608550434202,
	"grad_norm": 6.455969735668311,
	"learning_rate": 2.127659574468085e-07,
	"logits/chosen": -0.030284494161605835,
	"logits/rejected": -0.02130025625228882,
	"logps/chosen": -0.27859872579574585,
	"logps/rejected": -0.2721685469150543,
	"loss": 1.2728,
	"rewards/accuracies": 0.45625001192092896,
	"rewards/chosen": -0.27859872579574585,
	"rewards/margins": -0.006430179812014103,
	"rewards/rejected": -0.2721685469150543,
	"step": 10
	},
	{
	"epoch": 0.03206412825651302,
	"grad_norm": 6.3108235358652385,
	"learning_rate": 3.1914893617021275e-07,
	"logits/chosen": 0.05979523807764053,
	"logits/rejected": 0.05295870825648308,
	"logps/chosen": -0.2907688021659851,
	"logps/rejected": -0.305183470249176,
	"loss": 1.2799,
	"rewards/accuracies": 0.5,
	"rewards/chosen": -0.2907688021659851,
	"rewards/margins": 0.014414620585739613,
	"rewards/rejected": -0.305183470249176,
	"step": 15
	},
	{
	"epoch": 0.04275217100868404,
	"grad_norm": 6.093982428242224,
	"learning_rate": 4.25531914893617e-07,
	"logits/chosen": 0.03507867455482483,
	"logits/rejected": 0.03253958001732826,
	"logps/chosen": -0.261181116104126,
	"logps/rejected": -0.27250123023986816,
	"loss": 1.2661,
	"rewards/accuracies": 0.581250011920929,
	"rewards/chosen": -0.261181116104126,
	"rewards/margins": 0.011320129036903381,
	"rewards/rejected": -0.27250123023986816,
	"step": 20
	},
	{
	"epoch": 0.053440213760855046,
	"grad_norm": 5.3174858162797864,
	"learning_rate": 5.319148936170212e-07,
	"logits/chosen": 0.025609856471419334,
	"logits/rejected": 0.009822970256209373,
	"logps/chosen": -0.2632735073566437,
	"logps/rejected": -0.28461751341819763,
	"loss": 1.2665,
	"rewards/accuracies": 0.5375000238418579,
	"rewards/chosen": -0.2632735073566437,
	"rewards/margins": 0.02134399674832821,
	"rewards/rejected": -0.28461751341819763,
	"step": 25
	},
	{
	"epoch": 0.06412825651302605,
	"grad_norm": 5.716113428524292,
	"learning_rate": 6.382978723404255e-07,
	"logits/chosen": -0.0970643013715744,
	"logits/rejected": -0.07809214293956757,
	"logps/chosen": -0.2763083279132843,
	"logps/rejected": -0.2804708778858185,
	"loss": 1.2658,
	"rewards/accuracies": 0.4437499940395355,
	"rewards/chosen": -0.2763083279132843,
	"rewards/margins": 0.0041625602170825005,
	"rewards/rejected": -0.2804708778858185,
	"step": 30
	},
	{
	"epoch": 0.07481629926519706,
	"grad_norm": 4.978401481602216,
	"learning_rate": 7.446808510638297e-07,
	"logits/chosen": -0.0406271293759346,
	"logits/rejected": -0.07336937636137009,
	"logps/chosen": -0.29073840379714966,
	"logps/rejected": -0.293030709028244,
	"loss": 1.2797,
	"rewards/accuracies": 0.512499988079071,
	"rewards/chosen": -0.29073840379714966,
	"rewards/margins": 0.0022922889329493046,
	"rewards/rejected": -0.293030709028244,
	"step": 35
	},
	{
	"epoch": 0.08550434201736808,
	"grad_norm": 6.722458816777254,
	"learning_rate": 8.51063829787234e-07,
	"logits/chosen": -0.12586958706378937,
	"logits/rejected": -0.1309432089328766,
	"logps/chosen": -0.2860681414604187,
	"logps/rejected": -0.29788246750831604,
	"loss": 1.2768,
	"rewards/accuracies": 0.48750001192092896,
	"rewards/chosen": -0.2860681414604187,
	"rewards/margins": 0.01181434839963913,
	"rewards/rejected": -0.29788246750831604,
	"step": 40
	},
	{
	"epoch": 0.09619238476953908,
	"grad_norm": 9.862978906902363,
	"learning_rate": 9.574468085106384e-07,
	"logits/chosen": -0.0928565114736557,
	"logits/rejected": -0.08263979852199554,
	"logps/chosen": -0.28130441904067993,
	"logps/rejected": -0.306749552488327,
	"loss": 1.2561,
	"rewards/accuracies": 0.543749988079071,
	"rewards/chosen": -0.28130441904067993,
	"rewards/margins": 0.0254451222717762,
	"rewards/rejected": -0.306749552488327,
	"step": 45
	},
	{
	"epoch": 0.10688042752171009,
	"grad_norm": 6.916554774701635,
	"learning_rate": 9.998741174712533e-07,
	"logits/chosen": -0.1109582781791687,
	"logits/rejected": -0.13332585990428925,
	"logps/chosen": -0.2940751612186432,
	"logps/rejected": -0.33872976899147034,
	"loss": 1.2504,
	"rewards/accuracies": 0.5375000238418579,
	"rewards/chosen": -0.2940751612186432,
	"rewards/margins": 0.04465465992689133,
	"rewards/rejected": -0.33872976899147034,
	"step": 50
	},
	{
	"epoch": 0.11756847027388109,
	"grad_norm": 6.886280103270556,
	"learning_rate": 9.991050648838675e-07,
	"logits/chosen": -0.07307116687297821,
	"logits/rejected": -0.09735921025276184,
	"logps/chosen": -0.29753613471984863,
	"logps/rejected": -0.36083537340164185,
	"loss": 1.2622,
	"rewards/accuracies": 0.574999988079071,
	"rewards/chosen": -0.29753613471984863,
	"rewards/margins": 0.06329929828643799,
	"rewards/rejected": -0.36083537340164185,
	"step": 55
	},
	{
	"epoch": 0.1282565130260521,
	"grad_norm": 6.581763598962665,
	"learning_rate": 9.97637968732563e-07,
	"logits/chosen": -0.08233795315027237,
	"logits/rejected": -0.08182443678379059,
	"logps/chosen": -0.3031911253929138,
	"logps/rejected": -0.34265732765197754,
	"loss": 1.2444,
	"rewards/accuracies": 0.5375000238418579,
	"rewards/chosen": -0.3031911253929138,
	"rewards/margins": 0.03946622088551521,
	"rewards/rejected": -0.34265732765197754,
	"step": 60
	},
	{
	"epoch": 0.13894455577822312,
	"grad_norm": 9.155624459526475,
	"learning_rate": 9.954748808839674e-07,
	"logits/chosen": -0.12494422495365143,
	"logits/rejected": -0.10039836168289185,
	"logps/chosen": -0.31139710545539856,
	"logps/rejected": -0.40564531087875366,
	"loss": 1.2551,
	"rewards/accuracies": 0.53125,
	"rewards/chosen": -0.31139710545539856,
	"rewards/margins": 0.0942481979727745,
	"rewards/rejected": -0.40564531087875366,
	"step": 65
	},
	{
	"epoch": 0.14963259853039412,
	"grad_norm": 6.234129539834448,
	"learning_rate": 9.926188266120295e-07,
	"logits/chosen": -0.12459670007228851,
	"logits/rejected": -0.1347140073776245,
	"logps/chosen": -0.2900499701499939,
	"logps/rejected": -0.34025058150291443,
	"loss": 1.2499,
	"rewards/accuracies": 0.5562499761581421,
	"rewards/chosen": -0.2900499701499939,
	"rewards/margins": 0.05020058900117874,
	"rewards/rejected": -0.34025058150291443,
	"step": 70
	},
	{
	"epoch": 0.16032064128256512,
	"grad_norm": 6.758490065806782,
	"learning_rate": 9.890738003669027e-07,
	"logits/chosen": -0.04522291570901871,
	"logits/rejected": -0.10806401073932648,
	"logps/chosen": -0.36918264627456665,
	"logps/rejected": -0.37469878792762756,
	"loss": 1.255,
	"rewards/accuracies": 0.48750001192092896,
	"rewards/chosen": -0.36918264627456665,
	"rewards/margins": 0.005516159348189831,
	"rewards/rejected": -0.37469878792762756,
	"step": 75
	},
	{
	"epoch": 0.17100868403473615,
	"grad_norm": 10.191842225644526,
	"learning_rate": 9.848447601883433e-07,
	"logits/chosen": -0.08387650549411774,
	"logits/rejected": -0.07887469977140427,
	"logps/chosen": -0.33048170804977417,
	"logps/rejected": -0.4197458326816559,
	"loss": 1.2368,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": -0.33048170804977417,
	"rewards/margins": 0.0892641618847847,
	"rewards/rejected": -0.4197458326816559,
	"step": 80
	},
	{
	"epoch": 0.18169672678690715,
	"grad_norm": 9.352000749502443,
	"learning_rate": 9.799376207714444e-07,
	"logits/chosen": -0.13144788146018982,
	"logits/rejected": -0.13928399980068207,
	"logps/chosen": -0.3154647946357727,
	"logps/rejected": -0.38948363065719604,
	"loss": 1.2319,
	"rewards/accuracies": 0.5874999761581421,
	"rewards/chosen": -0.3154647946357727,
	"rewards/margins": 0.07401885092258453,
	"rewards/rejected": -0.38948363065719604,
	"step": 85
	},
	{
	"epoch": 0.19238476953907815,
	"grad_norm": 6.072420839953192,
	"learning_rate": 9.743592451943998e-07,
	"logits/chosen": -0.1306827962398529,
	"logits/rejected": -0.1379804015159607,
	"logps/chosen": -0.33726412057876587,
	"logps/rejected": -0.3857743442058563,
	"loss": 1.2455,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -0.33726412057876587,
	"rewards/margins": 0.04851023852825165,
	"rewards/rejected": -0.3857743442058563,
	"step": 90
	},
	{
	"epoch": 0.20307281229124916,
	"grad_norm": 8.382063384630092,
	"learning_rate": 9.681174353198686e-07,
	"logits/chosen": -0.12879344820976257,
	"logits/rejected": -0.14443747699260712,
	"logps/chosen": -0.35025691986083984,
	"logps/rejected": -0.40873831510543823,
	"loss": 1.2414,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -0.35025691986083984,
	"rewards/margins": 0.058481425046920776,
	"rewards/rejected": -0.40873831510543823,
	"step": 95
	},
	{
	"epoch": 0.21376085504342018,
	"grad_norm": 8.051181065225872,
	"learning_rate": 9.612209208833646e-07,
	"logits/chosen": -0.0478597953915596,
	"logits/rejected": -0.0929640680551529,
	"logps/chosen": -0.366682231426239,
	"logps/rejected": -0.42526760697364807,
	"loss": 1.2454,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -0.366682231426239,
	"rewards/margins": 0.05858539417386055,
	"rewards/rejected": -0.42526760697364807,
	"step": 100
	},
	{
	"epoch": 0.22444889779559118,
	"grad_norm": 8.423595722166493,
	"learning_rate": 9.536793472839324e-07,
	"logits/chosen": -0.024932144209742546,
	"logits/rejected": -0.029018620029091835,
	"logps/chosen": -0.3645615577697754,
	"logps/rejected": -0.4377099871635437,
	"loss": 1.2321,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -0.3645615577697754,
	"rewards/margins": 0.07314839214086533,
	"rewards/rejected": -0.4377099871635437,
	"step": 105
	},
	{
	"epoch": 0.23513694054776219,
	"grad_norm": 8.583118717745613,
	"learning_rate": 9.455032620941839e-07,
	"logits/chosen": -0.08025398850440979,
	"logits/rejected": -0.11082024872303009,
	"logps/chosen": -0.37390726804733276,
	"logps/rejected": -0.44736775755882263,
	"loss": 1.2231,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": -0.37390726804733276,
	"rewards/margins": 0.07346051186323166,
	"rewards/rejected": -0.44736775755882263,
	"step": 110
	},
	{
	"epoch": 0.2458249832999332,
	"grad_norm": 8.813654782582985,
	"learning_rate": 9.367041003085648e-07,
	"logits/chosen": -0.05264202877879143,
	"logits/rejected": -0.08138756453990936,
	"logps/chosen": -0.3586878478527069,
	"logps/rejected": -0.4460626244544983,
	"loss": 1.2357,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": -0.3586878478527069,
	"rewards/margins": 0.08737480640411377,
	"rewards/rejected": -0.4460626244544983,
	"step": 115
	},
	{
	"epoch": 0.2565130260521042,
	"grad_norm": 18.26289480767173,
	"learning_rate": 9.272941683504808e-07,
	"logits/chosen": -0.0790601596236229,
	"logits/rejected": -0.10665098577737808,
	"logps/chosen": -0.3613402545452118,
	"logps/rejected": -0.43312540650367737,
	"loss": 1.2356,
	"rewards/accuracies": 0.6312500238418579,
	"rewards/chosen": -0.3613402545452118,
	"rewards/margins": 0.07178511470556259,
	"rewards/rejected": -0.43312540650367737,
	"step": 120
	},
	{
	"epoch": 0.26720106880427524,
	"grad_norm": 8.650831994920619,
	"learning_rate": 9.172866268606513e-07,
	"logits/chosen": -0.1340969204902649,
	"logits/rejected": -0.1336316168308258,
	"logps/chosen": -0.3937236964702606,
	"logps/rejected": -0.5055503249168396,
	"loss": 1.2281,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -0.3937236964702606,
	"rewards/margins": 0.11182668060064316,
	"rewards/rejected": -0.5055503249168396,
	"step": 125
	},
	{
	"epoch": 0.27788911155644624,
	"grad_norm": 7.496527663898527,
	"learning_rate": 9.066954722907638e-07,
	"logits/chosen": -0.1845657378435135,
	"logits/rejected": -0.24125418066978455,
	"logps/chosen": -0.38387566804885864,
	"logps/rejected": -0.452624648809433,
	"loss": 1.2223,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -0.38387566804885864,
	"rewards/margins": 0.06874893605709076,
	"rewards/rejected": -0.452624648809433,
	"step": 130
	},
	{
	"epoch": 0.28857715430861725,
	"grad_norm": 6.7313487554996545,
	"learning_rate": 8.955355173281707e-07,
	"logits/chosen": -0.1565982848405838,
	"logits/rejected": -0.15710704028606415,
	"logps/chosen": -0.3900142312049866,
	"logps/rejected": -0.5559936761856079,
	"loss": 1.2183,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -0.3900142312049866,
	"rewards/margins": 0.16597944498062134,
	"rewards/rejected": -0.5559936761856079,
	"step": 135
	},
	{
	"epoch": 0.29926519706078825,
	"grad_norm": 6.459204367259454,
	"learning_rate": 8.838223701790055e-07,
	"logits/chosen": -0.19400301575660706,
	"logits/rejected": -0.23119351267814636,
	"logps/chosen": -0.37699031829833984,
	"logps/rejected": -0.4609736502170563,
	"loss": 1.2272,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -0.37699031829833984,
	"rewards/margins": 0.0839833989739418,
	"rewards/rejected": -0.4609736502170563,
	"step": 140
	},
	{
	"epoch": 0.30995323981295925,
	"grad_norm": 9.060033916313321,
	"learning_rate": 8.71572412738697e-07,
	"logits/chosen": -0.07448846101760864,
	"logits/rejected": -0.16315212845802307,
	"logps/chosen": -0.4142521917819977,
	"logps/rejected": -0.5054866075515747,
	"loss": 1.2179,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.4142521917819977,
	"rewards/margins": 0.09123442322015762,
	"rewards/rejected": -0.5054866075515747,
	"step": 145
	},
	{
	"epoch": 0.32064128256513025,
	"grad_norm": 5.736273343276732,
	"learning_rate": 8.588027776804058e-07,
	"logits/chosen": -0.10538250207901001,
	"logits/rejected": -0.1413673311471939,
	"logps/chosen": -0.41122564673423767,
	"logps/rejected": -0.5390647053718567,
	"loss": 1.2124,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.41122564673423767,
	"rewards/margins": 0.12783899903297424,
	"rewards/rejected": -0.5390647053718567,
	"step": 150
	},
	{
	"epoch": 0.33132932531730125,
	"grad_norm": 6.063903579743197,
	"learning_rate": 8.455313244934324e-07,
	"logits/chosen": -0.11919336020946503,
	"logits/rejected": -0.1652189940214157,
	"logps/chosen": -0.4010487496852875,
	"logps/rejected": -0.5092573165893555,
	"loss": 1.2134,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -0.4010487496852875,
	"rewards/margins": 0.1082085520029068,
	"rewards/rejected": -0.5092573165893555,
	"step": 155
	},
	{
	"epoch": 0.3420173680694723,
	"grad_norm": 9.279674751992077,
	"learning_rate": 8.317766145051057e-07,
	"logits/chosen": -0.08387523144483566,
	"logits/rejected": -0.14803090691566467,
	"logps/chosen": -0.43099141120910645,
	"logps/rejected": -0.5257623791694641,
	"loss": 1.2144,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -0.43099141120910645,
	"rewards/margins": 0.09477093070745468,
	"rewards/rejected": -0.5257623791694641,
	"step": 160
	},
	{
	"epoch": 0.3527054108216433,
	"grad_norm": 8.059439047004146,
	"learning_rate": 8.175578849210894e-07,
	"logits/chosen": -0.16660968959331512,
	"logits/rejected": -0.18010763823986053,
	"logps/chosen": -0.4078282415866852,
	"logps/rejected": -0.5577529668807983,
	"loss": 1.201,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.4078282415866852,
	"rewards/margins": 0.14992472529411316,
	"rewards/rejected": -0.5577529668807983,
	"step": 165
	},
	{
	"epoch": 0.3633934535738143,
	"grad_norm": 8.63786807542291,
	"learning_rate": 8.028950219204099e-07,
	"logits/chosen": -0.052240192890167236,
	"logits/rejected": -0.06318216025829315,
	"logps/chosen": -0.4152770936489105,
	"logps/rejected": -0.6054114103317261,
	"loss": 1.203,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -0.4152770936489105,
	"rewards/margins": 0.19013427197933197,
	"rewards/rejected": -0.6054114103317261,
	"step": 170
	},
	{
	"epoch": 0.3740814963259853,
	"grad_norm": 10.518951318209595,
	"learning_rate": 7.878085328428368e-07,
	"logits/chosen": -0.11517999321222305,
	"logits/rejected": -0.1849624663591385,
	"logps/chosen": -0.40625524520874023,
	"logps/rejected": -0.5451288819313049,
	"loss": 1.212,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -0.40625524520874023,
	"rewards/margins": 0.1388736218214035,
	"rewards/rejected": -0.5451288819313049,
	"step": 175
	},
	{
	"epoch": 0.3847695390781563,
	"grad_norm": 8.417946401352186,
	"learning_rate": 7.723195175075135e-07,
	"logits/chosen": -0.06935660541057587,
	"logits/rejected": -0.1301901787519455,
	"logps/chosen": -0.4220534861087799,
	"logps/rejected": -0.5573703050613403,
	"loss": 1.2083,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -0.4220534861087799,
	"rewards/margins": 0.13531681895256042,
	"rewards/rejected": -0.5573703050613403,
	"step": 180
	},
	{
	"epoch": 0.3954575818303273,
	"grad_norm": 7.995331136842524,
	"learning_rate": 7.564496387029531e-07,
	"logits/chosen": -0.08758817613124847,
	"logits/rejected": -0.14539772272109985,
	"logps/chosen": -0.4507700502872467,
	"logps/rejected": -0.5500799417495728,
	"loss": 1.1962,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -0.4507700502872467,
	"rewards/margins": 0.09930990636348724,
	"rewards/rejected": -0.5500799417495728,
	"step": 185
	},
	{
	"epoch": 0.4061456245824983,
	"grad_norm": 6.542669653809171,
	"learning_rate": 7.402210918896689e-07,
	"logits/chosen": -0.0885528177022934,
	"logits/rejected": -0.1532018929719925,
	"logps/chosen": -0.39389023184776306,
	"logps/rejected": -0.5325407981872559,
	"loss": 1.2053,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": -0.39389023184776306,
	"rewards/margins": 0.13865062594413757,
	"rewards/rejected": -0.5325407981872559,
	"step": 190
	},
	{
	"epoch": 0.4168336673346693,
	"grad_norm": 8.450137364374076,
	"learning_rate": 7.236565741578162e-07,
	"logits/chosen": -0.07352186739444733,
	"logits/rejected": -0.15036916732788086,
	"logps/chosen": -0.42540302872657776,
	"logps/rejected": -0.5537828207015991,
	"loss": 1.2084,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.42540302872657776,
	"rewards/margins": 0.12837986648082733,
	"rewards/rejected": -0.5537828207015991,
	"step": 195
	},
	{
	"epoch": 0.42752171008684037,
	"grad_norm": 8.694643710416935,
	"learning_rate": 7.067792524832603e-07,
	"logits/chosen": -0.09027515351772308,
	"logits/rejected": -0.1412956416606903,
	"logps/chosen": -0.40201014280319214,
	"logps/rejected": -0.5238697528839111,
	"loss": 1.1957,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -0.40201014280319214,
	"rewards/margins": 0.12185963243246078,
	"rewards/rejected": -0.5238697528839111,
	"step": 200
	},
	{
	"epoch": 0.43820975283901137,
	"grad_norm": 8.952421817833013,
	"learning_rate": 6.896127313264642e-07,
	"logits/chosen": -0.028889209032058716,
	"logits/rejected": -0.11139396578073502,
	"logps/chosen": -0.41819238662719727,
	"logps/rejected": -0.5573530197143555,
	"loss": 1.192,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -0.41819238662719727,
	"rewards/margins": 0.13916069269180298,
	"rewards/rejected": -0.5573530197143555,
	"step": 205
	},
	{
	"epoch": 0.44889779559118237,
	"grad_norm": 8.187027602318263,
	"learning_rate": 6.721810196195174e-07,
	"logits/chosen": -0.21568699181079865,
	"logits/rejected": -0.21867302060127258,
	"logps/chosen": -0.43785786628723145,
	"logps/rejected": -0.5911111235618591,
	"loss": 1.185,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -0.43785786628723145,
	"rewards/margins": 0.1532532274723053,
	"rewards/rejected": -0.5911111235618591,
	"step": 210
	},
	{
	"epoch": 0.45958583834335337,
	"grad_norm": 5.9916116804065584,
	"learning_rate": 6.545084971874736e-07,
	"logits/chosen": -0.12575657665729523,
	"logits/rejected": -0.1455686092376709,
	"logps/chosen": -0.4271029531955719,
	"logps/rejected": -0.5920487642288208,
	"loss": 1.1742,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.4271029531955719,
	"rewards/margins": 0.1649458110332489,
	"rewards/rejected": -0.5920487642288208,
	"step": 215
	},
	{
	"epoch": 0.47027388109552437,
	"grad_norm": 10.450264869504016,
	"learning_rate": 6.3661988065096e-07,
	"logits/chosen": -0.18063326179981232,
	"logits/rejected": -0.23072651028633118,
	"logps/chosen": -0.44927778840065,
	"logps/rejected": -0.6041940450668335,
	"loss": 1.1923,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -0.44927778840065,
	"rewards/margins": 0.1549161970615387,
	"rewards/rejected": -0.6041940450668335,
	"step": 220
	},
	{
	"epoch": 0.48096192384769537,
	"grad_norm": 9.723089980517251,
	"learning_rate": 6.185401888577487e-07,
	"logits/chosen": -0.17207232117652893,
	"logits/rejected": -0.20382137596607208,
	"logps/chosen": -0.4381163716316223,
	"logps/rejected": -0.604756236076355,
	"loss": 1.192,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -0.4381163716316223,
	"rewards/margins": 0.16663983464241028,
	"rewards/rejected": -0.604756236076355,
	"step": 225
	},
	{
	"epoch": 0.4916499665998664,
	"grad_norm": 9.054770077776112,
	"learning_rate": 6.002947078916364e-07,
	"logits/chosen": -0.14859004318714142,
	"logits/rejected": -0.15977120399475098,
	"logps/chosen": -0.4646037220954895,
	"logps/rejected": -0.6633389592170715,
	"loss": 1.1958,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.4646037220954895,
	"rewards/margins": 0.198735311627388,
	"rewards/rejected": -0.6633389592170715,
	"step": 230
	},
	{
	"epoch": 0.5023380093520374,
	"grad_norm": 17.895526950620496,
	"learning_rate": 5.819089557075688e-07,
	"logits/chosen": -0.12733140587806702,
	"logits/rejected": -0.18139609694480896,
	"logps/chosen": -0.4529820382595062,
	"logps/rejected": -0.592745304107666,
	"loss": 1.1902,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -0.4529820382595062,
	"rewards/margins": 0.1397632509469986,
	"rewards/rejected": -0.592745304107666,
	"step": 235
	},
	{
	"epoch": 0.5130260521042084,
	"grad_norm": 9.140622097956182,
	"learning_rate": 5.634086464424742e-07,
	"logits/chosen": -0.12596455216407776,
	"logits/rejected": -0.18648605048656464,
	"logps/chosen": -0.4592694640159607,
	"logps/rejected": -0.6695916056632996,
	"loss": 1.1965,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -0.4592694640159607,
	"rewards/margins": 0.21032221615314484,
	"rewards/rejected": -0.6695916056632996,
	"step": 240
	},
	{
	"epoch": 0.5237140948563794,
	"grad_norm": 7.85051968813952,
	"learning_rate": 5.448196544517167e-07,
	"logits/chosen": -0.15113191306591034,
	"logits/rejected": -0.20874838531017303,
	"logps/chosen": -0.448641836643219,
	"logps/rejected": -0.6651071906089783,
	"loss": 1.2037,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.448641836643219,
	"rewards/margins": 0.21646539866924286,
	"rewards/rejected": -0.6651071906089783,
	"step": 245
	},
	{
	"epoch": 0.5344021376085505,
	"grad_norm": 8.655989549308861,
	"learning_rate": 5.26167978121472e-07,
	"logits/chosen": -0.10786600410938263,
	"logits/rejected": -0.13217635452747345,
	"logps/chosen": -0.42935776710510254,
	"logps/rejected": -0.6120445132255554,
	"loss": 1.1759,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.42935776710510254,
	"rewards/margins": 0.1826867312192917,
	"rewards/rejected": -0.6120445132255554,
	"step": 250
	},
	{
	"epoch": 0.5450901803607214,
	"grad_norm": 9.048614473634702,
	"learning_rate": 5.074797035076318e-07,
	"logits/chosen": -0.18685856461524963,
	"logits/rejected": -0.2535242736339569,
	"logps/chosen": -0.441723495721817,
	"logps/rejected": -0.6506599187850952,
	"loss": 1.1816,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.441723495721817,
	"rewards/margins": 0.2089364230632782,
	"rewards/rejected": -0.6506599187850952,
	"step": 255
	},
	{
	"epoch": 0.5557782231128925,
	"grad_norm": 7.6389154059915105,
	"learning_rate": 4.887809678520975e-07,
	"logits/chosen": -0.19917742908000946,
	"logits/rejected": -0.27246275544166565,
	"logps/chosen": -0.46937423944473267,
	"logps/rejected": -0.6870771646499634,
	"loss": 1.1951,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -0.46937423944473267,
	"rewards/margins": 0.21770286560058594,
	"rewards/rejected": -0.6870771646499634,
	"step": 260
	},
	{
	"epoch": 0.5664662658650634,
	"grad_norm": 9.10073399455548,
	"learning_rate": 4.700979230274829e-07,
	"logits/chosen": -0.11132203042507172,
	"logits/rejected": -0.09603560715913773,
	"logps/chosen": -0.44644594192504883,
	"logps/rejected": -0.6944222450256348,
	"loss": 1.1747,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": -0.44644594192504883,
	"rewards/margins": 0.24797634780406952,
	"rewards/rejected": -0.6944222450256348,
	"step": 265
	},
	{
	"epoch": 0.5771543086172345,
	"grad_norm": 8.916003107478165,
	"learning_rate": 4.514566989613559e-07,
	"logits/chosen": -0.15380506217479706,
	"logits/rejected": -0.19326263666152954,
	"logps/chosen": -0.446754515171051,
	"logps/rejected": -0.6446987390518188,
	"loss": 1.1864,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -0.446754515171051,
	"rewards/margins": 0.19794420897960663,
	"rewards/rejected": -0.6446987390518188,
	"step": 270
	},
	{
	"epoch": 0.5878423513694054,
	"grad_norm": 10.314754743141027,
	"learning_rate": 4.328833670911724e-07,
	"logits/chosen": -0.15855953097343445,
	"logits/rejected": -0.20561406016349792,
	"logps/chosen": -0.4342300295829773,
	"logps/rejected": -0.6545408964157104,
	"loss": 1.1667,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": -0.4342300295829773,
	"rewards/margins": 0.22031080722808838,
	"rewards/rejected": -0.6545408964157104,
	"step": 275
	},
	{
	"epoch": 0.5985303941215765,
	"grad_norm": 9.8305630967928,
	"learning_rate": 4.144039039010124e-07,
	"logits/chosen": -0.12788251042366028,
	"logits/rejected": -0.127780020236969,
	"logps/chosen": -0.43477168679237366,
	"logps/rejected": -0.7111866474151611,
	"loss": 1.1802,
	"rewards/accuracies": 0.8062499761581421,
	"rewards/chosen": -0.43477168679237366,
	"rewards/margins": 0.27641505002975464,
	"rewards/rejected": -0.7111866474151611,
	"step": 280
	},
	{
	"epoch": 0.6092184368737475,
	"grad_norm": 8.860790080933853,
	"learning_rate": 3.960441545911204e-07,
	"logits/chosen": -0.161110520362854,
	"logits/rejected": -0.17115116119384766,
	"logps/chosen": -0.42666491866111755,
	"logps/rejected": -0.6175069808959961,
	"loss": 1.1752,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.42666491866111755,
	"rewards/margins": 0.19084201753139496,
	"rewards/rejected": -0.6175069808959961,
	"step": 285
	},
	{
	"epoch": 0.6199064796259185,
	"grad_norm": 7.06233886841465,
	"learning_rate": 3.778297969310529e-07,
	"logits/chosen": -0.1376260668039322,
	"logits/rejected": -0.16905562579631805,
	"logps/chosen": -0.4378681182861328,
	"logps/rejected": -0.6595510840415955,
	"loss": 1.1705,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -0.4378681182861328,
	"rewards/margins": 0.22168295085430145,
	"rewards/rejected": -0.6595510840415955,
	"step": 290
	},
	{
	"epoch": 0.6305945223780896,
	"grad_norm": 10.466639287529468,
	"learning_rate": 3.5978630534699865e-07,
	"logits/chosen": -0.2025509625673294,
	"logits/rejected": -0.24337442219257355,
	"logps/chosen": -0.42942291498184204,
	"logps/rejected": -0.618620753288269,
	"loss": 1.1967,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -0.42942291498184204,
	"rewards/margins": 0.18919780850410461,
	"rewards/rejected": -0.618620753288269,
	"step": 295
	},
	{
	"epoch": 0.6412825651302605,
	"grad_norm": 8.130739148831358,
	"learning_rate": 3.4193891529348795e-07,
	"logits/chosen": -0.16753128170967102,
	"logits/rejected": -0.21636962890625,
	"logps/chosen": -0.4428304135799408,
	"logps/rejected": -0.6359456777572632,
	"loss": 1.1789,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.4428304135799408,
	"rewards/margins": 0.19311529397964478,
	"rewards/rejected": -0.6359456777572632,
	"step": 300
	},
	{
	"epoch": 0.6519706078824316,
	"grad_norm": 7.273224925160923,
	"learning_rate": 3.243125879593286e-07,
	"logits/chosen": -0.15392135083675385,
	"logits/rejected": -0.21642914414405823,
	"logps/chosen": -0.47176113724708557,
	"logps/rejected": -0.6521760821342468,
	"loss": 1.1688,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": -0.47176113724708557,
	"rewards/margins": 0.18041494488716125,
	"rewards/rejected": -0.6521760821342468,
	"step": 305
	},
	{
	"epoch": 0.6626586506346025,
	"grad_norm": 7.301685407436071,
	"learning_rate": 3.069319753571269e-07,
	"logits/chosen": -0.08738047629594803,
	"logits/rejected": -0.17941518127918243,
	"logps/chosen": -0.4444531500339508,
	"logps/rejected": -0.6384583711624146,
	"loss": 1.1782,
	"rewards/accuracies": 0.7875000238418579,
	"rewards/chosen": -0.4444531500339508,
	"rewards/margins": 0.19400522112846375,
	"rewards/rejected": -0.6384583711624146,
	"step": 310
	},
	{
	"epoch": 0.6733466933867736,
	"grad_norm": 8.792927929961811,
	"learning_rate": 2.898213858452173e-07,
	"logits/chosen": -0.12821796536445618,
	"logits/rejected": -0.17637769877910614,
	"logps/chosen": -0.430549293756485,
	"logps/rejected": -0.673394501209259,
	"loss": 1.1838,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -0.430549293756485,
	"rewards/margins": 0.24284520745277405,
	"rewards/rejected": -0.673394501209259,
	"step": 315
	},
	{
	"epoch": 0.6840347361389446,
	"grad_norm": 9.135320352888758,
	"learning_rate": 2.730047501302266e-07,
	"logits/chosen": -0.1663762778043747,
	"logits/rejected": -0.1760939061641693,
	"logps/chosen": -0.44656792283058167,
	"logps/rejected": -0.696045994758606,
	"loss": 1.1597,
	"rewards/accuracies": 0.8187500238418579,
	"rewards/chosen": -0.44656792283058167,
	"rewards/margins": 0.2494780570268631,
	"rewards/rejected": -0.696045994758606,
	"step": 320
	},
	{
	"epoch": 0.6947227788911156,
	"grad_norm": 7.683969138295821,
	"learning_rate": 2.5650558779781635e-07,
	"logits/chosen": -0.10967272520065308,
	"logits/rejected": -0.16051502525806427,
	"logps/chosen": -0.4491657614707947,
	"logps/rejected": -0.6456891298294067,
	"loss": 1.1768,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.4491657614707947,
	"rewards/margins": 0.1965232938528061,
	"rewards/rejected": -0.6456891298294067,
	"step": 325
	},
	{
	"epoch": 0.7054108216432866,
	"grad_norm": 7.237560221559409,
	"learning_rate": 2.403469744184154e-07,
	"logits/chosen": -0.11157947778701782,
	"logits/rejected": -0.1505707949399948,
	"logps/chosen": -0.4335803985595703,
	"logps/rejected": -0.6525880694389343,
	"loss": 1.1697,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -0.4335803985595703,
	"rewards/margins": 0.2190077304840088,
	"rewards/rejected": -0.6525880694389343,
	"step": 330
	},
	{
	"epoch": 0.7160988643954576,
	"grad_norm": 10.892277516023302,
	"learning_rate": 2.2455150927394878e-07,
	"logits/chosen": -0.07384945452213287,
	"logits/rejected": -0.11905944347381592,
	"logps/chosen": -0.44785404205322266,
	"logps/rejected": -0.6679562926292419,
	"loss": 1.165,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": -0.44785404205322266,
	"rewards/margins": 0.22010228037834167,
	"rewards/rejected": -0.6679562926292419,
	"step": 335
	},
	{
	"epoch": 0.7267869071476286,
	"grad_norm": 10.223464451109537,
	"learning_rate": 2.0914128375069722e-07,
	"logits/chosen": -0.1539086103439331,
	"logits/rejected": -0.17600053548812866,
	"logps/chosen": -0.4725138545036316,
	"logps/rejected": -0.6988605260848999,
	"loss": 1.1726,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.4725138545036316,
	"rewards/margins": 0.2263466864824295,
	"rewards/rejected": -0.6988605260848999,
	"step": 340
	},
	{
	"epoch": 0.7374749498997996,
	"grad_norm": 9.502978098916548,
	"learning_rate": 1.9413785044249676e-07,
	"logits/chosen": -0.21818223595619202,
	"logits/rejected": -0.291820764541626,
	"logps/chosen": -0.4557631015777588,
	"logps/rejected": -0.6338008642196655,
	"loss": 1.1847,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.4557631015777588,
	"rewards/margins": 0.17803780734539032,
	"rewards/rejected": -0.6338008642196655,
	"step": 345
	},
	{
	"epoch": 0.7481629926519706,
	"grad_norm": 8.906197274685542,
	"learning_rate": 1.7956219300748792e-07,
	"logits/chosen": -0.16545064747333527,
	"logits/rejected": -0.2143837958574295,
	"logps/chosen": -0.485832542181015,
	"logps/rejected": -0.6850191950798035,
	"loss": 1.1775,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -0.485832542181015,
	"rewards/margins": 0.19918662309646606,
	"rewards/rejected": -0.6850191950798035,
	"step": 350
	},
	{
	"epoch": 0.7588510354041417,
	"grad_norm": 9.223968907693207,
	"learning_rate": 1.6543469682057104e-07,
	"logits/chosen": -0.15154987573623657,
	"logits/rejected": -0.1329428106546402,
	"logps/chosen": -0.43399348855018616,
	"logps/rejected": -0.701296865940094,
	"loss": 1.1559,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -0.43399348855018616,
	"rewards/margins": 0.26730337738990784,
	"rewards/rejected": -0.701296865940094,
	"step": 355
	},
	{
	"epoch": 0.7695390781563126,
	"grad_norm": 8.817413940297333,
	"learning_rate": 1.5177512046261666e-07,
	"logits/chosen": -0.1650848090648651,
	"logits/rejected": -0.18241888284683228,
	"logps/chosen": -0.4807559847831726,
	"logps/rejected": -0.7194213271141052,
	"loss": 1.1709,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.4807559847831726,
	"rewards/margins": 0.2386653870344162,
	"rewards/rejected": -0.7194213271141052,
	"step": 360
	},
	{
	"epoch": 0.7802271209084837,
	"grad_norm": 9.841178407980468,
	"learning_rate": 1.3860256808630427e-07,
	"logits/chosen": -0.11777649074792862,
	"logits/rejected": -0.1842351108789444,
	"logps/chosen": -0.44159936904907227,
	"logps/rejected": -0.6455782651901245,
	"loss": 1.1759,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.44159936904907227,
	"rewards/margins": 0.20397885143756866,
	"rewards/rejected": -0.6455782651901245,
	"step": 365
	},
	{
	"epoch": 0.7909151636606546,
	"grad_norm": 7.821082078374487,
	"learning_rate": 1.2593546269723647e-07,
	"logits/chosen": -0.21091553568840027,
	"logits/rejected": -0.23493704199790955,
	"logps/chosen": -0.47468656301498413,
	"logps/rejected": -0.6395518779754639,
	"loss": 1.1857,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.47468656301498413,
	"rewards/margins": 0.16486527025699615,
	"rewards/rejected": -0.6395518779754639,
	"step": 370
	},
	{
	"epoch": 0.8016032064128257,
	"grad_norm": 8.045168365501775,
	"learning_rate": 1.1379152038770029e-07,
	"logits/chosen": -0.13924507796764374,
	"logits/rejected": -0.159819096326828,
	"logps/chosen": -0.4886155128479004,
	"logps/rejected": -0.7014551758766174,
	"loss": 1.1647,
	"rewards/accuracies": 0.8062499761581421,
	"rewards/chosen": -0.4886155128479004,
	"rewards/margins": 0.21283963322639465,
	"rewards/rejected": -0.7014551758766174,
	"step": 375
	},
	{
	"epoch": 0.8122912491649966,
	"grad_norm": 6.9748624620101465,
	"learning_rate": 1.0218772555910954e-07,
	"logits/chosen": -0.11520252376794815,
	"logits/rejected": -0.1667747050523758,
	"logps/chosen": -0.4690398573875427,
	"logps/rejected": -0.6327452659606934,
	"loss": 1.174,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -0.4690398573875427,
	"rewards/margins": 0.16370537877082825,
	"rewards/rejected": -0.6327452659606934,
	"step": 380
	},
	{
	"epoch": 0.8229792919171677,
	"grad_norm": 9.914022835602436,
	"learning_rate": 9.114030716778432e-08,
	"logits/chosen": -0.10868623107671738,
	"logits/rejected": -0.08764289319515228,
	"logps/chosen": -0.46836796402931213,
	"logps/rejected": -0.7122930288314819,
	"loss": 1.1774,
	"rewards/accuracies": 0.8062499761581421,
	"rewards/chosen": -0.46836796402931213,
	"rewards/margins": 0.2439250648021698,
	"rewards/rejected": -0.7122930288314819,
	"step": 385
	},
	{
	"epoch": 0.8336673346693386,
	"grad_norm": 8.145036242622055,
	"learning_rate": 8.066471602728803e-08,
	"logits/chosen": -0.06981998682022095,
	"logits/rejected": -0.1801852583885193,
	"logps/chosen": -0.448079913854599,
	"logps/rejected": -0.650068461894989,
	"loss": 1.1708,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -0.448079913854599,
	"rewards/margins": 0.20198853313922882,
	"rewards/rejected": -0.650068461894989,
	"step": 390
	},
	{
	"epoch": 0.8443553774215097,
	"grad_norm": 9.222740510393672,
	"learning_rate": 7.077560319906694e-08,
	"logits/chosen": -0.13624027371406555,
	"logits/rejected": -0.1553780883550644,
	"logps/chosen": -0.4544126093387604,
	"logps/rejected": -0.6581717133522034,
	"loss": 1.157,
	"rewards/accuracies": 0.8062499761581421,
	"rewards/chosen": -0.4544126093387604,
	"rewards/margins": 0.20375914871692657,
	"rewards/rejected": -0.6581717133522034,
	"step": 395
	},
	{
	"epoch": 0.8550434201736807,
	"grad_norm": 7.23560205761774,
	"learning_rate": 6.148679950161672e-08,
	"logits/chosen": -0.1308642476797104,
	"logits/rejected": -0.12576356530189514,
	"logps/chosen": -0.4730139374732971,
	"logps/rejected": -0.6597884893417358,
	"loss": 1.1796,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -0.4730139374732971,
	"rewards/margins": 0.18677455186843872,
	"rewards/rejected": -0.6597884893417358,
	"step": 400
	},
	{
	"epoch": 0.8550434201736807,
	"eval_logits/chosen": 0.07805733382701874,
	"eval_logits/rejected": 0.055379413068294525,
	"eval_logps/chosen": -0.46297329664230347,
	"eval_logps/rejected": -0.67759770154953,
	"eval_loss": 1.1742559671401978,
	"eval_rewards/accuracies": 0.7682926654815674,
	"eval_rewards/chosen": -0.46297329664230347,
	"eval_rewards/margins": 0.21462443470954895,
	"eval_rewards/rejected": -0.67759770154953,
	"eval_runtime": 422.9,
	"eval_samples_per_second": 4.637,
	"eval_steps_per_second": 0.291,
	"step": 400
	},
	{
	"epoch": 0.8657314629258517,
	"grad_norm": 14.062888091631285,
	"learning_rate": 5.2811296166831666e-08,
	"logits/chosen": -0.14197275042533875,
	"logits/rejected": -0.19198641180992126,
	"logps/chosen": -0.4838024973869324,
	"logps/rejected": -0.6774718165397644,
	"loss": 1.1821,
	"rewards/accuracies": 0.7875000238418579,
	"rewards/chosen": -0.4838024973869324,
	"rewards/margins": 0.19366928935050964,
	"rewards/rejected": -0.6774718165397644,
	"step": 405
	},
	{
	"epoch": 0.8764195056780227,
	"grad_norm": 9.708416047557408,
	"learning_rate": 4.4761226670592066e-08,
	"logits/chosen": -0.19223374128341675,
	"logits/rejected": -0.2349742203950882,
	"logps/chosen": -0.4497530460357666,
	"logps/rejected": -0.6498802900314331,
	"loss": 1.1835,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.4497530460357666,
	"rewards/margins": 0.20012721419334412,
	"rewards/rejected": -0.6498802900314331,
	"step": 410
	},
	{
	"epoch": 0.8871075484301937,
	"grad_norm": 10.370830255142504,
	"learning_rate": 3.734784976300165e-08,
	"logits/chosen": -0.0883495882153511,
	"logits/rejected": -0.15084786713123322,
	"logps/chosen": -0.4854651093482971,
	"logps/rejected": -0.7252976298332214,
	"loss": 1.1824,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": -0.4854651093482971,
	"rewards/margins": 0.23983249068260193,
	"rewards/rejected": -0.7252976298332214,
	"step": 415
	},
	{
	"epoch": 0.8977955911823647,
	"grad_norm": 10.050934008810426,
	"learning_rate": 3.058153372200695e-08,
	"logits/chosen": -0.11994824558496475,
	"logits/rejected": -0.1958351880311966,
	"logps/chosen": -0.4402541220188141,
	"logps/rejected": -0.6553457379341125,
	"loss": 1.169,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": -0.4402541220188141,
	"rewards/margins": 0.21509161591529846,
	"rewards/rejected": -0.6553457379341125,
	"step": 420
	},
	{
	"epoch": 0.9084836339345357,
	"grad_norm": 10.234554818131295,
	"learning_rate": 2.4471741852423233e-08,
	"logits/chosen": -0.023924821987748146,
	"logits/rejected": -0.06178613379597664,
	"logps/chosen": -0.4181637763977051,
	"logps/rejected": -0.6148607134819031,
	"loss": 1.1693,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -0.4181637763977051,
	"rewards/margins": 0.1966969072818756,
	"rewards/rejected": -0.6148607134819031,
	"step": 425
	},
	{
	"epoch": 0.9191716766867067,
	"grad_norm": 7.946863491070272,
	"learning_rate": 1.9027019250647036e-08,
	"logits/chosen": -0.06870210915803909,
	"logits/rejected": -0.1558951586484909,
	"logps/chosen": -0.4686119556427002,
	"logps/rejected": -0.6619764566421509,
	"loss": 1.1734,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -0.4686119556427002,
	"rewards/margins": 0.19336441159248352,
	"rewards/rejected": -0.6619764566421509,
	"step": 430
	},
	{
	"epoch": 0.9298597194388778,
	"grad_norm": 7.127358424532503,
	"learning_rate": 1.4254980853566246e-08,
	"logits/chosen": -0.16497072577476501,
	"logits/rejected": -0.2038412094116211,
	"logps/chosen": -0.4426957666873932,
	"logps/rejected": -0.6900163888931274,
	"loss": 1.1724,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.4426957666873932,
	"rewards/margins": 0.2473207414150238,
	"rewards/rejected": -0.6900163888931274,
	"step": 435
	},
	{
	"epoch": 0.9405477621910487,
	"grad_norm": 8.700791903961722,
	"learning_rate": 1.016230078838226e-08,
	"logits/chosen": -0.16181275248527527,
	"logits/rejected": -0.19335032999515533,
	"logps/chosen": -0.4476253092288971,
	"logps/rejected": -0.6875879168510437,
	"loss": 1.1756,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": -0.4476253092288971,
	"rewards/margins": 0.2399626225233078,
	"rewards/rejected": -0.6875879168510437,
	"step": 440
	},
	{
	"epoch": 0.9512358049432198,
	"grad_norm": 7.814249452801736,
	"learning_rate": 6.754703038239329e-09,
	"logits/chosen": -0.1357225775718689,
	"logits/rejected": -0.13643740117549896,
	"logps/chosen": -0.44572919607162476,
	"logps/rejected": -0.6457980871200562,
	"loss": 1.168,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.44572919607162476,
	"rewards/margins": 0.20006892085075378,
	"rewards/rejected": -0.6457980871200562,
	"step": 445
	},
	{
	"epoch": 0.9619238476953907,
	"grad_norm": 7.707995425556612,
	"learning_rate": 4.036953436716895e-09,
	"logits/chosen": -0.09782582521438599,
	"logits/rejected": -0.12389625608921051,
	"logps/chosen": -0.5031002759933472,
	"logps/rejected": -0.7217256426811218,
	"loss": 1.1607,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -0.5031002759933472,
	"rewards/margins": 0.21862535178661346,
	"rewards/rejected": -0.7217256426811218,
	"step": 450
	},
	{
	"epoch": 0.9726118904475618,
	"grad_norm": 8.180782374754285,
	"learning_rate": 2.0128530023804656e-09,
	"logits/chosen": -0.049927808344364166,
	"logits/rejected": -0.12839142978191376,
	"logps/chosen": -0.4278712272644043,
	"logps/rejected": -0.662420928478241,
	"loss": 1.1491,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.4278712272644043,
	"rewards/margins": 0.23454967141151428,
	"rewards/rejected": -0.662420928478241,
	"step": 455
	},
	{
	"epoch": 0.9832999331997327,
	"grad_norm": 9.706979128792979,
	"learning_rate": 6.852326227130833e-10,
	"logits/chosen": 0.007074593100696802,
	"logits/rejected": -0.09796188771724701,
	"logps/chosen": -0.4365665316581726,
	"logps/rejected": -0.6665615439414978,
	"loss": 1.183,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.4365665316581726,
	"rewards/margins": 0.2299949824810028,
	"rewards/rejected": -0.6665615439414978,
	"step": 460
	},
	{
	"epoch": 0.9939879759519038,
	"grad_norm": 8.36305887438443,
	"learning_rate": 5.594909486328348e-11,
	"logits/chosen": -0.06538979709148407,
	"logits/rejected": -0.11664478480815887,
	"logps/chosen": -0.4604206681251526,
	"logps/rejected": -0.6352392435073853,
	"loss": 1.1796,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -0.4604206681251526,
	"rewards/margins": 0.17481860518455505,
	"rewards/rejected": -0.6352392435073853,
	"step": 465
	},
	{
	"epoch": 0.9982631930527722,
	"step": 467,
	"total_flos": 0.0,
	"train_loss": 1.2022870587587866,
	"train_runtime": 20947.8363,
	"train_samples_per_second": 2.858,
	"train_steps_per_second": 0.022
	}
	],
	"logging_steps": 5,
	"max_steps": 467,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 1000000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}