zephyr-7b-dpo-full-exl2 / trainer_state.json

Quant for 3.5

abaff34 verified 10 months ago

25.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 100,
	"global_step": 478,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 1.0416666666666666e-08,
	"logits/chosen": -2.6023898124694824,
	"logits/rejected": -2.49088191986084,
	"logps/chosen": -330.5306396484375,
	"logps/rejected": -275.0410461425781,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.02,
	"learning_rate": 1.0416666666666667e-07,
	"logits/chosen": -2.624011516571045,
	"logits/rejected": -2.59273624420166,
	"logps/chosen": -247.91769409179688,
	"logps/rejected": -215.07041931152344,
	"loss": 0.6932,
	"rewards/accuracies": 0.3541666567325592,
	"rewards/chosen": -0.00047609664034098387,
	"rewards/margins": -0.0011458636727184057,
	"rewards/rejected": 0.0006697670323774219,
	"step": 10
	},
	{
	"epoch": 0.04,
	"learning_rate": 2.0833333333333333e-07,
	"logits/chosen": -2.614908218383789,
	"logits/rejected": -2.573396682739258,
	"logps/chosen": -273.2959289550781,
	"logps/rejected": -251.2639617919922,
	"loss": 0.6925,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": 0.0009359431569464505,
	"rewards/margins": 0.002007069531828165,
	"rewards/rejected": -0.0010711264330893755,
	"step": 20
	},
	{
	"epoch": 0.06,
	"learning_rate": 3.1249999999999997e-07,
	"logits/chosen": -2.6856637001037598,
	"logits/rejected": -2.6220130920410156,
	"logps/chosen": -284.86114501953125,
	"logps/rejected": -277.53057861328125,
	"loss": 0.6886,
	"rewards/accuracies": 0.625,
	"rewards/chosen": 0.00352325732819736,
	"rewards/margins": 0.007650823798030615,
	"rewards/rejected": -0.0041275653056800365,
	"step": 30
	},
	{
	"epoch": 0.08,
	"learning_rate": 4.1666666666666667e-07,
	"logits/chosen": -2.579878807067871,
	"logits/rejected": -2.5135815143585205,
	"logps/chosen": -292.1109619140625,
	"logps/rejected": -274.44683837890625,
	"loss": 0.6756,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": 0.02378256432712078,
	"rewards/margins": 0.03553395718336105,
	"rewards/rejected": -0.011751385405659676,
	"step": 40
	},
	{
	"epoch": 0.1,
	"learning_rate": 4.999733114418725e-07,
	"logits/chosen": -2.5302300453186035,
	"logits/rejected": -2.4865477085113525,
	"logps/chosen": -315.3640441894531,
	"logps/rejected": -310.5618591308594,
	"loss": 0.6601,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -0.014850592240691185,
	"rewards/margins": 0.06933780014514923,
	"rewards/rejected": -0.08418838679790497,
	"step": 50
	},
	{
	"epoch": 0.13,
	"learning_rate": 4.990398100856366e-07,
	"logits/chosen": -2.461594820022583,
	"logits/rejected": -2.393406867980957,
	"logps/chosen": -264.4418640136719,
	"logps/rejected": -252.02163696289062,
	"loss": 0.6391,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -0.06258662045001984,
	"rewards/margins": 0.1386002004146576,
	"rewards/rejected": -0.20118682086467743,
	"step": 60
	},
	{
	"epoch": 0.15,
	"learning_rate": 4.967775735898179e-07,
	"logits/chosen": -2.5176403522491455,
	"logits/rejected": -2.444599151611328,
	"logps/chosen": -308.10845947265625,
	"logps/rejected": -298.1520690917969,
	"loss": 0.6219,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -0.26666340231895447,
	"rewards/margins": 0.21313416957855225,
	"rewards/rejected": -0.4797976016998291,
	"step": 70
	},
	{
	"epoch": 0.17,
	"learning_rate": 4.931986719649298e-07,
	"logits/chosen": -2.4516353607177734,
	"logits/rejected": -2.4085216522216797,
	"logps/chosen": -298.8356018066406,
	"logps/rejected": -325.5304260253906,
	"loss": 0.611,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -0.2911642789840698,
	"rewards/margins": 0.20117318630218506,
	"rewards/rejected": -0.49233752489089966,
	"step": 80
	},
	{
	"epoch": 0.19,
	"learning_rate": 4.883222001996351e-07,
	"logits/chosen": -2.426361560821533,
	"logits/rejected": -2.3368563652038574,
	"logps/chosen": -293.616943359375,
	"logps/rejected": -308.7396545410156,
	"loss": 0.5867,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -0.2579975724220276,
	"rewards/margins": 0.30983540415763855,
	"rewards/rejected": -0.5678330063819885,
	"step": 90
	},
	{
	"epoch": 0.21,
	"learning_rate": 4.821741763807186e-07,
	"logits/chosen": -2.488579034805298,
	"logits/rejected": -2.3800113201141357,
	"logps/chosen": -328.0105285644531,
	"logps/rejected": -337.8644104003906,
	"loss": 0.5723,
	"rewards/accuracies": 0.65625,
	"rewards/chosen": -0.4366111755371094,
	"rewards/margins": 0.3044855296611786,
	"rewards/rejected": -0.7410967350006104,
	"step": 100
	},
	{
	"epoch": 0.21,
	"eval_logits/chosen": -2.4070217609405518,
	"eval_logits/rejected": -2.3494362831115723,
	"eval_logps/chosen": -304.3812255859375,
	"eval_logps/rejected": -350.8694763183594,
	"eval_loss": 0.5851432681083679,
	"eval_rewards/accuracies": 0.703125,
	"eval_rewards/chosen": -0.4096587896347046,
	"eval_rewards/margins": 0.46554654836654663,
	"eval_rewards/rejected": -0.8752052783966064,
	"eval_runtime": 91.1907,
	"eval_samples_per_second": 21.932,
	"eval_steps_per_second": 0.351,
	"step": 100
	},
	{
	"epoch": 0.23,
	"learning_rate": 4.747874028753375e-07,
	"logits/chosen": -2.0290980339050293,
	"logits/rejected": -1.8976500034332275,
	"logps/chosen": -374.5489807128906,
	"logps/rejected": -375.1778869628906,
	"loss": 0.5723,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -0.5513430833816528,
	"rewards/margins": 0.49042654037475586,
	"rewards/rejected": -1.0417697429656982,
	"step": 110
	},
	{
	"epoch": 0.25,
	"learning_rate": 4.662012913161997e-07,
	"logits/chosen": -0.8261772990226746,
	"logits/rejected": -0.4543725550174713,
	"logps/chosen": -370.54437255859375,
	"logps/rejected": -376.8744201660156,
	"loss": 0.546,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -0.893993079662323,
	"rewards/margins": 0.5693421363830566,
	"rewards/rejected": -1.4633351564407349,
	"step": 120
	},
	{
	"epoch": 0.27,
	"learning_rate": 4.5646165232345103e-07,
	"logits/chosen": -0.5733903050422668,
	"logits/rejected": -0.41144052147865295,
	"logps/chosen": -331.88458251953125,
	"logps/rejected": -418.39404296875,
	"loss": 0.5492,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.6849642395973206,
	"rewards/margins": 0.5858219265937805,
	"rewards/rejected": -1.2707862854003906,
	"step": 130
	},
	{
	"epoch": 0.29,
	"learning_rate": 4.456204510851956e-07,
	"logits/chosen": -0.7106949687004089,
	"logits/rejected": -0.2236645519733429,
	"logps/chosen": -367.40484619140625,
	"logps/rejected": -390.296142578125,
	"loss": 0.5335,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -0.7277344465255737,
	"rewards/margins": 0.6220408082008362,
	"rewards/rejected": -1.3497753143310547,
	"step": 140
	},
	{
	"epoch": 0.31,
	"learning_rate": 4.337355301007335e-07,
	"logits/chosen": -0.2654598355293274,
	"logits/rejected": 0.43950486183166504,
	"logps/chosen": -385.2984924316406,
	"logps/rejected": -397.6144714355469,
	"loss": 0.5356,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.9714946746826172,
	"rewards/margins": 0.61899733543396,
	"rewards/rejected": -1.5904920101165771,
	"step": 150
	},
	{
	"epoch": 0.33,
	"learning_rate": 4.2087030056579986e-07,
	"logits/chosen": 0.1484789103269577,
	"logits/rejected": 0.8263363838195801,
	"logps/chosen": -369.7867736816406,
	"logps/rejected": -436.39373779296875,
	"loss": 0.5065,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.8267679214477539,
	"rewards/margins": 0.8252193331718445,
	"rewards/rejected": -1.6519873142242432,
	"step": 160
	},
	{
	"epoch": 0.36,
	"learning_rate": 4.070934040463998e-07,
	"logits/chosen": 0.2387746274471283,
	"logits/rejected": 0.7541650533676147,
	"logps/chosen": -330.07525634765625,
	"logps/rejected": -366.41204833984375,
	"loss": 0.5659,
	"rewards/accuracies": 0.6812499761581421,
	"rewards/chosen": -0.8212235569953918,
	"rewards/margins": 0.529572606086731,
	"rewards/rejected": -1.3507962226867676,
	"step": 170
	},
	{
	"epoch": 0.38,
	"learning_rate": 3.9247834624635404e-07,
	"logits/chosen": 0.45646604895591736,
	"logits/rejected": 0.8084599375724792,
	"logps/chosen": -366.8728942871094,
	"logps/rejected": -432.2496032714844,
	"loss": 0.5249,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -0.6927820444107056,
	"rewards/margins": 0.8015207052230835,
	"rewards/rejected": -1.4943029880523682,
	"step": 180
	},
	{
	"epoch": 0.4,
	"learning_rate": 3.7710310482256523e-07,
	"logits/chosen": 1.0517617464065552,
	"logits/rejected": 1.6709725856781006,
	"logps/chosen": -378.12396240234375,
	"logps/rejected": -458.1866149902344,
	"loss": 0.5056,
	"rewards/accuracies": 0.7875000238418579,
	"rewards/chosen": -0.9326898455619812,
	"rewards/margins": 0.9154269099235535,
	"rewards/rejected": -1.8481168746948242,
	"step": 190
	},
	{
	"epoch": 0.42,
	"learning_rate": 3.610497133404795e-07,
	"logits/chosen": 0.9935806393623352,
	"logits/rejected": 1.650398850440979,
	"logps/chosen": -391.5450744628906,
	"logps/rejected": -418.3558654785156,
	"loss": 0.5084,
	"rewards/accuracies": 0.643750011920929,
	"rewards/chosen": -1.0861790180206299,
	"rewards/margins": 0.634604275226593,
	"rewards/rejected": -1.7207832336425781,
	"step": 200
	},
	{
	"epoch": 0.42,
	"eval_logits/chosen": 0.9247687458992004,
	"eval_logits/rejected": 1.3918358087539673,
	"eval_logps/chosen": -354.5789794921875,
	"eval_logps/rejected": -438.0662536621094,
	"eval_loss": 0.5251370072364807,
	"eval_rewards/accuracies": 0.7421875,
	"eval_rewards/chosen": -0.9116362929344177,
	"eval_rewards/margins": 0.8355368375778198,
	"eval_rewards/rejected": -1.7471731901168823,
	"eval_runtime": 91.7577,
	"eval_samples_per_second": 21.797,
	"eval_steps_per_second": 0.349,
	"step": 200
	},
	{
	"epoch": 0.44,
	"learning_rate": 3.4440382358952115e-07,
	"logits/chosen": 1.0475047826766968,
	"logits/rejected": 1.849473237991333,
	"logps/chosen": -367.184814453125,
	"logps/rejected": -398.2117614746094,
	"loss": 0.5251,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -0.8909347653388977,
	"rewards/margins": 0.6959229707717896,
	"rewards/rejected": -1.586857557296753,
	"step": 210
	},
	{
	"epoch": 0.46,
	"learning_rate": 3.272542485937368e-07,
	"logits/chosen": 1.6884968280792236,
	"logits/rejected": 2.2008445262908936,
	"logps/chosen": -353.2514343261719,
	"logps/rejected": -404.71221923828125,
	"loss": 0.5269,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.7567670345306396,
	"rewards/margins": 0.8415945768356323,
	"rewards/rejected": -1.5983617305755615,
	"step": 220
	},
	{
	"epoch": 0.48,
	"learning_rate": 3.096924887558854e-07,
	"logits/chosen": 1.460933804512024,
	"logits/rejected": 1.9314343929290771,
	"logps/chosen": -351.2489318847656,
	"logps/rejected": -453.9790954589844,
	"loss": 0.519,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": -0.7599745988845825,
	"rewards/margins": 0.8532025218009949,
	"rewards/rejected": -1.6131770610809326,
	"step": 230
	},
	{
	"epoch": 0.5,
	"learning_rate": 2.9181224366319943e-07,
	"logits/chosen": 1.796936273574829,
	"logits/rejected": 2.389878988265991,
	"logps/chosen": -351.67498779296875,
	"logps/rejected": -421.3821716308594,
	"loss": 0.5261,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -0.9927783012390137,
	"rewards/margins": 0.786289632320404,
	"rewards/rejected": -1.7790677547454834,
	"step": 240
	},
	{
	"epoch": 0.52,
	"learning_rate": 2.7370891215954565e-07,
	"logits/chosen": 1.5744327306747437,
	"logits/rejected": 2.3407230377197266,
	"logps/chosen": -358.4691467285156,
	"logps/rejected": -418.01031494140625,
	"loss": 0.5134,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.903947651386261,
	"rewards/margins": 0.6940609216690063,
	"rewards/rejected": -1.5980085134506226,
	"step": 250
	},
	{
	"epoch": 0.54,
	"learning_rate": 2.55479083351317e-07,
	"logits/chosen": 1.873732566833496,
	"logits/rejected": 2.9474740028381348,
	"logps/chosen": -371.85552978515625,
	"logps/rejected": -420.95904541015625,
	"loss": 0.4922,
	"rewards/accuracies": 0.8062499761581421,
	"rewards/chosen": -0.9079627990722656,
	"rewards/margins": 0.8738547563552856,
	"rewards/rejected": -1.7818174362182617,
	"step": 260
	},
	{
	"epoch": 0.56,
	"learning_rate": 2.3722002126275822e-07,
	"logits/chosen": 2.415181875228882,
	"logits/rejected": 3.162013530731201,
	"logps/chosen": -388.0815734863281,
	"logps/rejected": -478.11785888671875,
	"loss": 0.498,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -1.128756046295166,
	"rewards/margins": 1.0180633068084717,
	"rewards/rejected": -2.146819591522217,
	"step": 270
	},
	{
	"epoch": 0.59,
	"learning_rate": 2.19029145890313e-07,
	"logits/chosen": 1.9844467639923096,
	"logits/rejected": 2.9561781883239746,
	"logps/chosen": -369.2903747558594,
	"logps/rejected": -419.6259765625,
	"loss": 0.5207,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -0.9253425598144531,
	"rewards/margins": 0.8587535619735718,
	"rewards/rejected": -1.784096121788025,
	"step": 280
	},
	{
	"epoch": 0.61,
	"learning_rate": 2.0100351342479216e-07,
	"logits/chosen": 1.8705106973648071,
	"logits/rejected": 2.6589739322662354,
	"logps/chosen": -380.0862731933594,
	"logps/rejected": -439.79168701171875,
	"loss": 0.515,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -0.9231119155883789,
	"rewards/margins": 0.735679030418396,
	"rewards/rejected": -1.6587913036346436,
	"step": 290
	},
	{
	"epoch": 0.63,
	"learning_rate": 1.8323929841460178e-07,
	"logits/chosen": 1.3944432735443115,
	"logits/rejected": 2.3618969917297363,
	"logps/chosen": -389.6896057128906,
	"logps/rejected": -470.2090759277344,
	"loss": 0.5059,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -0.8919968605041504,
	"rewards/margins": 0.6746976971626282,
	"rewards/rejected": -1.5666944980621338,
	"step": 300
	},
	{
	"epoch": 0.63,
	"eval_logits/chosen": 1.2558308839797974,
	"eval_logits/rejected": 2.033073902130127,
	"eval_logps/chosen": -349.8758239746094,
	"eval_logps/rejected": -438.77349853515625,
	"eval_loss": 0.5130496621131897,
	"eval_rewards/accuracies": 0.75,
	"eval_rewards/chosen": -0.8646047711372375,
	"eval_rewards/margins": 0.8896409273147583,
	"eval_rewards/rejected": -1.7542455196380615,
	"eval_runtime": 92.0798,
	"eval_samples_per_second": 21.72,
	"eval_steps_per_second": 0.348,
	"step": 300
	},
	{
	"epoch": 0.65,
	"learning_rate": 1.6583128063291573e-07,
	"logits/chosen": 1.2974698543548584,
	"logits/rejected": 2.6388087272644043,
	"logps/chosen": -382.4002990722656,
	"logps/rejected": -406.01153564453125,
	"loss": 0.4978,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -1.0794718265533447,
	"rewards/margins": 0.7805131673812866,
	"rewards/rejected": -1.8599849939346313,
	"step": 310
	},
	{
	"epoch": 0.67,
	"learning_rate": 1.488723393865766e-07,
	"logits/chosen": 1.9306262731552124,
	"logits/rejected": 2.9958901405334473,
	"logps/chosen": -357.4389953613281,
	"logps/rejected": -452.7220764160156,
	"loss": 0.5064,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -1.0856704711914062,
	"rewards/margins": 1.057279109954834,
	"rewards/rejected": -2.1429495811462402,
	"step": 320
	},
	{
	"epoch": 0.69,
	"learning_rate": 1.3245295796480788e-07,
	"logits/chosen": 1.4244121313095093,
	"logits/rejected": 2.2654335498809814,
	"logps/chosen": -404.91082763671875,
	"logps/rejected": -450.8277893066406,
	"loss": 0.5096,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -1.1859899759292603,
	"rewards/margins": 0.7777279019355774,
	"rewards/rejected": -1.9637176990509033,
	"step": 330
	},
	{
	"epoch": 0.71,
	"learning_rate": 1.1666074087171627e-07,
	"logits/chosen": 1.5507278442382812,
	"logits/rejected": 2.3268961906433105,
	"logps/chosen": -363.16473388671875,
	"logps/rejected": -420.6800231933594,
	"loss": 0.5173,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -1.0014616250991821,
	"rewards/margins": 0.7089160680770874,
	"rewards/rejected": -1.7103776931762695,
	"step": 340
	},
	{
	"epoch": 0.73,
	"learning_rate": 1.0157994641835734e-07,
	"logits/chosen": 1.5202906131744385,
	"logits/rejected": 2.6713767051696777,
	"logps/chosen": -359.4294128417969,
	"logps/rejected": -433.394287109375,
	"loss": 0.4787,
	"rewards/accuracies": 0.8062499761581421,
	"rewards/chosen": -1.0805784463882446,
	"rewards/margins": 0.9193571209907532,
	"rewards/rejected": -1.999935507774353,
	"step": 350
	},
	{
	"epoch": 0.75,
	"learning_rate": 8.729103716819111e-08,
	"logits/chosen": 1.5974103212356567,
	"logits/rejected": 3.016284942626953,
	"logps/chosen": -435.1712951660156,
	"logps/rejected": -469.9830017089844,
	"loss": 0.4902,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -1.1632494926452637,
	"rewards/margins": 0.9136824607849121,
	"rewards/rejected": -2.0769317150115967,
	"step": 360
	},
	{
	"epoch": 0.77,
	"learning_rate": 7.387025063449081e-08,
	"logits/chosen": 1.7092777490615845,
	"logits/rejected": 2.965677261352539,
	"logps/chosen": -423.5621643066406,
	"logps/rejected": -466.57196044921875,
	"loss": 0.5002,
	"rewards/accuracies": 0.8187500238418579,
	"rewards/chosen": -1.1220273971557617,
	"rewards/margins": 0.9678171277046204,
	"rewards/rejected": -2.0898444652557373,
	"step": 370
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.138919252022435e-08,
	"logits/chosen": 1.7860336303710938,
	"logits/rejected": 2.569241523742676,
	"logps/chosen": -395.4902648925781,
	"logps/rejected": -483.0901794433594,
	"loss": 0.4772,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -1.1515331268310547,
	"rewards/margins": 0.8898499608039856,
	"rewards/rejected": -2.0413832664489746,
	"step": 380
	},
	{
	"epoch": 0.82,
	"learning_rate": 4.991445467064689e-08,
	"logits/chosen": 2.0826852321624756,
	"logits/rejected": 2.8060660362243652,
	"logps/chosen": -398.78375244140625,
	"logps/rejected": -471.2264099121094,
	"loss": 0.5066,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -1.2567694187164307,
	"rewards/margins": 0.7216086983680725,
	"rewards/rejected": -1.9783780574798584,
	"step": 390
	},
	{
	"epoch": 0.84,
	"learning_rate": 3.9507259776993954e-08,
	"logits/chosen": 1.802354097366333,
	"logits/rejected": 2.5923492908477783,
	"logps/chosen": -446.500244140625,
	"logps/rejected": -510.20269775390625,
	"loss": 0.4853,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -1.2238214015960693,
	"rewards/margins": 0.9289990663528442,
	"rewards/rejected": -2.152820587158203,
	"step": 400
	},
	{
	"epoch": 0.84,
	"eval_logits/chosen": 1.8194458484649658,
	"eval_logits/rejected": 2.592175245285034,
	"eval_logps/chosen": -372.7066650390625,
	"eval_logps/rejected": -474.1963195800781,
	"eval_loss": 0.5050143003463745,
	"eval_rewards/accuracies": 0.75390625,
	"eval_rewards/chosen": -1.0929131507873535,
	"eval_rewards/margins": 1.0155609846115112,
	"eval_rewards/rejected": -2.108474016189575,
	"eval_runtime": 90.5801,
	"eval_samples_per_second": 22.08,
	"eval_steps_per_second": 0.353,
	"step": 400
	},
	{
	"epoch": 0.86,
	"learning_rate": 3.022313472693447e-08,
	"logits/chosen": 2.2372403144836426,
	"logits/rejected": 3.196664333343506,
	"logps/chosen": -370.81719970703125,
	"logps/rejected": -452.06549072265625,
	"loss": 0.5086,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": -1.1016533374786377,
	"rewards/margins": 0.9261430501937866,
	"rewards/rejected": -2.0277962684631348,
	"step": 410
	},
	{
	"epoch": 0.88,
	"learning_rate": 2.2111614344599684e-08,
	"logits/chosen": 1.831080675125122,
	"logits/rejected": 2.4410791397094727,
	"logps/chosen": -385.7922058105469,
	"logps/rejected": -492.590576171875,
	"loss": 0.5061,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -1.084149956703186,
	"rewards/margins": 0.9615718722343445,
	"rewards/rejected": -2.0457215309143066,
	"step": 420
	},
	{
	"epoch": 0.9,
	"learning_rate": 1.521597710086439e-08,
	"logits/chosen": 1.4260971546173096,
	"logits/rejected": 2.3162856101989746,
	"logps/chosen": -407.1165466308594,
	"logps/rejected": -454.90374755859375,
	"loss": 0.5059,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -1.0966671705245972,
	"rewards/margins": 0.9018322229385376,
	"rewards/rejected": -1.9984995126724243,
	"step": 430
	},
	{
	"epoch": 0.92,
	"learning_rate": 9.57301420397924e-09,
	"logits/chosen": 1.783463716506958,
	"logits/rejected": 2.5885117053985596,
	"logps/chosen": -373.5993347167969,
	"logps/rejected": -458.12091064453125,
	"loss": 0.487,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -1.1429402828216553,
	"rewards/margins": 0.8700854182243347,
	"rewards/rejected": -2.0130257606506348,
	"step": 440
	},
	{
	"epoch": 0.94,
	"learning_rate": 5.212833302556258e-09,
	"logits/chosen": 1.8070141077041626,
	"logits/rejected": 2.747885227203369,
	"logps/chosen": -355.58221435546875,
	"logps/rejected": -426.42584228515625,
	"loss": 0.5082,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -1.0844265222549438,
	"rewards/margins": 0.8474240303039551,
	"rewards/rejected": -1.9318506717681885,
	"step": 450
	},
	{
	"epoch": 0.96,
	"learning_rate": 2.158697848236607e-09,
	"logits/chosen": 2.0278899669647217,
	"logits/rejected": 3.022653818130493,
	"logps/chosen": -362.0993347167969,
	"logps/rejected": -428.6521911621094,
	"loss": 0.4861,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -1.1751190423965454,
	"rewards/margins": 0.813240647315979,
	"rewards/rejected": -1.9883596897125244,
	"step": 460
	},
	{
	"epoch": 0.98,
	"learning_rate": 4.269029751107489e-10,
	"logits/chosen": 1.3355131149291992,
	"logits/rejected": 2.729475736618042,
	"logps/chosen": -406.28033447265625,
	"logps/rejected": -480.8604431152344,
	"loss": 0.4807,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": -1.0706168413162231,
	"rewards/margins": 1.0933626890182495,
	"rewards/rejected": -2.1639795303344727,
	"step": 470
	},
	{
	"epoch": 1.0,
	"step": 478,
	"total_flos": 0.0,
	"train_loss": 0.5379065808890754,
	"train_runtime": 5396.8094,
	"train_samples_per_second": 11.328,
	"train_steps_per_second": 0.089
	}
	],
	"logging_steps": 10,
	"max_steps": 478,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}