phi-2-irepo-chatml-v12-i1 / trainer_state.json

Model save

f6622ad verified about 2 months ago

No virus

45.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9994666666666666,
	"eval_steps": 500,
	"global_step": 937,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0,
	"learning_rate": 5.319148936170213e-08,
	"logits/chosen": 0.06642268598079681,
	"logits/rejected": 0.23397813737392426,
	"logps/chosen": -587.28369140625,
	"logps/rejected": -568.082763671875,
	"loss": 0.279,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.01,
	"learning_rate": 5.319148936170213e-07,
	"logits/chosen": 0.16077889502048492,
	"logits/rejected": 0.28465068340301514,
	"logps/chosen": -462.99114990234375,
	"logps/rejected": -441.3485107421875,
	"loss": 0.303,
	"rewards/accuracies": 0.4236111044883728,
	"rewards/chosen": -0.0005749252159148455,
	"rewards/margins": 0.0002628265065141022,
	"rewards/rejected": -0.0008377517224289477,
	"step": 10
	},
	{
	"epoch": 0.02,
	"learning_rate": 1.0638297872340427e-06,
	"logits/chosen": 0.2244517058134079,
	"logits/rejected": 0.2146037071943283,
	"logps/chosen": -456.9951171875,
	"logps/rejected": -442.496826171875,
	"loss": 0.3007,
	"rewards/accuracies": 0.33125001192092896,
	"rewards/chosen": -0.0011023276019841433,
	"rewards/margins": -6.420163117581978e-05,
	"rewards/rejected": -0.0010381259489804506,
	"step": 20
	},
	{
	"epoch": 0.03,
	"learning_rate": 1.595744680851064e-06,
	"logits/chosen": 0.34518542885780334,
	"logits/rejected": 0.15579931437969208,
	"logps/chosen": -414.3968200683594,
	"logps/rejected": -407.1432800292969,
	"loss": 0.3064,
	"rewards/accuracies": 0.3812499940395355,
	"rewards/chosen": -0.0004762631724588573,
	"rewards/margins": 6.935702549526468e-05,
	"rewards/rejected": -0.0005456201615743339,
	"step": 30
	},
	{
	"epoch": 0.04,
	"learning_rate": 2.1276595744680853e-06,
	"logits/chosen": 0.19979876279830933,
	"logits/rejected": 0.1475386917591095,
	"logps/chosen": -387.1222839355469,
	"logps/rejected": -380.3912048339844,
	"loss": 0.3173,
	"rewards/accuracies": 0.36250001192092896,
	"rewards/chosen": 8.398960198974237e-05,
	"rewards/margins": 0.0001377248700009659,
	"rewards/rejected": -5.3735253459308296e-05,
	"step": 40
	},
	{
	"epoch": 0.05,
	"learning_rate": 2.6595744680851065e-06,
	"logits/chosen": 0.20050282776355743,
	"logits/rejected": 0.2853023409843445,
	"logps/chosen": -405.1722717285156,
	"logps/rejected": -433.797119140625,
	"loss": 0.2969,
	"rewards/accuracies": 0.38749998807907104,
	"rewards/chosen": -0.00031604920513927937,
	"rewards/margins": 9.358949318993837e-05,
	"rewards/rejected": -0.0004096386837773025,
	"step": 50
	},
	{
	"epoch": 0.06,
	"learning_rate": 3.191489361702128e-06,
	"logits/chosen": 0.22685687243938446,
	"logits/rejected": 0.2761882245540619,
	"logps/chosen": -418.8284606933594,
	"logps/rejected": -444.300537109375,
	"loss": 0.2916,
	"rewards/accuracies": 0.5,
	"rewards/chosen": -0.0013369970256462693,
	"rewards/margins": 0.00045625813072547317,
	"rewards/rejected": -0.0017932550981640816,
	"step": 60
	},
	{
	"epoch": 0.07,
	"learning_rate": 3.723404255319149e-06,
	"logits/chosen": 0.1869155615568161,
	"logits/rejected": 0.2700553834438324,
	"logps/chosen": -443.9104919433594,
	"logps/rejected": -423.21075439453125,
	"loss": 0.2976,
	"rewards/accuracies": 0.46875,
	"rewards/chosen": -0.003828343003988266,
	"rewards/margins": 0.0006897930870763958,
	"rewards/rejected": -0.004518135450780392,
	"step": 70
	},
	{
	"epoch": 0.09,
	"learning_rate": 4.255319148936171e-06,
	"logits/chosen": 0.23689034581184387,
	"logits/rejected": 0.21069273352622986,
	"logps/chosen": -386.25067138671875,
	"logps/rejected": -387.7801818847656,
	"loss": 0.3143,
	"rewards/accuracies": 0.48124998807907104,
	"rewards/chosen": -0.003951665014028549,
	"rewards/margins": 0.0011586709879338741,
	"rewards/rejected": -0.005110335536301136,
	"step": 80
	},
	{
	"epoch": 0.1,
	"learning_rate": 4.787234042553192e-06,
	"logits/chosen": 0.24118606746196747,
	"logits/rejected": 0.25480058789253235,
	"logps/chosen": -412.43499755859375,
	"logps/rejected": -408.15802001953125,
	"loss": 0.3065,
	"rewards/accuracies": 0.5,
	"rewards/chosen": -0.010140495374798775,
	"rewards/margins": 0.001615689368918538,
	"rewards/rejected": -0.01175618451088667,
	"step": 90
	},
	{
	"epoch": 0.11,
	"learning_rate": 4.999375059004058e-06,
	"logits/chosen": 0.1671404391527176,
	"logits/rejected": 0.2540619969367981,
	"logps/chosen": -389.2574157714844,
	"logps/rejected": -388.87408447265625,
	"loss": 0.3053,
	"rewards/accuracies": 0.4937500059604645,
	"rewards/chosen": -0.022764097899198532,
	"rewards/margins": 0.0024351924657821655,
	"rewards/rejected": -0.02519928850233555,
	"step": 100
	},
	{
	"epoch": 0.12,
	"learning_rate": 4.9955571065548795e-06,
	"logits/chosen": 0.23305337131023407,
	"logits/rejected": 0.22437167167663574,
	"logps/chosen": -441.59771728515625,
	"logps/rejected": -446.51971435546875,
	"loss": 0.3081,
	"rewards/accuracies": 0.4937500059604645,
	"rewards/chosen": -0.04231434687972069,
	"rewards/margins": 0.003846729639917612,
	"rewards/rejected": -0.04616107791662216,
	"step": 110
	},
	{
	"epoch": 0.13,
	"learning_rate": 4.9882736864879e-06,
	"logits/chosen": 0.17237094044685364,
	"logits/rejected": 0.20950445532798767,
	"logps/chosen": -497.03741455078125,
	"logps/rejected": -493.6482849121094,
	"loss": 0.3001,
	"rewards/accuracies": 0.5375000238418579,
	"rewards/chosen": -0.06084052473306656,
	"rewards/margins": 0.009210348129272461,
	"rewards/rejected": -0.07005088031291962,
	"step": 120
	},
	{
	"epoch": 0.14,
	"learning_rate": 4.977534912960124e-06,
	"logits/chosen": 0.12596510350704193,
	"logits/rejected": 0.18595007061958313,
	"logps/chosen": -534.695556640625,
	"logps/rejected": -506.4364318847656,
	"loss": 0.285,
	"rewards/accuracies": 0.4937500059604645,
	"rewards/chosen": -0.09366725385189056,
	"rewards/margins": 0.009929810650646687,
	"rewards/rejected": -0.10359706729650497,
	"step": 130
	},
	{
	"epoch": 0.15,
	"learning_rate": 4.963355698422092e-06,
	"logits/chosen": 0.12804082036018372,
	"logits/rejected": 0.10300163924694061,
	"logps/chosen": -515.469970703125,
	"logps/rejected": -508.8036193847656,
	"loss": 0.3043,
	"rewards/accuracies": 0.4749999940395355,
	"rewards/chosen": -0.11144615709781647,
	"rewards/margins": 0.012134796939790249,
	"rewards/rejected": -0.1235809326171875,
	"step": 140
	},
	{
	"epoch": 0.16,
	"learning_rate": 4.945755732909625e-06,
	"logits/chosen": 0.16220004856586456,
	"logits/rejected": 0.08028533309698105,
	"logps/chosen": -479.33184814453125,
	"logps/rejected": -524.7337646484375,
	"loss": 0.2802,
	"rewards/accuracies": 0.48124998807907104,
	"rewards/chosen": -0.1306999772787094,
	"rewards/margins": 0.03233319893479347,
	"rewards/rejected": -0.16303318738937378,
	"step": 150
	},
	{
	"epoch": 0.17,
	"learning_rate": 4.924759456701167e-06,
	"logits/chosen": 0.18928228318691254,
	"logits/rejected": 0.14869533479213715,
	"logps/chosen": -573.3798828125,
	"logps/rejected": -610.5779418945312,
	"loss": 0.2894,
	"rewards/accuracies": 0.48750001192092896,
	"rewards/chosen": -0.168126180768013,
	"rewards/margins": 0.04517129063606262,
	"rewards/rejected": -0.21329745650291443,
	"step": 160
	},
	{
	"epoch": 0.18,
	"learning_rate": 4.900396026378671e-06,
	"logits/chosen": 0.062172818928956985,
	"logits/rejected": 0.019718164578080177,
	"logps/chosen": -475.08551025390625,
	"logps/rejected": -561.6641845703125,
	"loss": 0.2631,
	"rewards/accuracies": 0.4312500059604645,
	"rewards/chosen": -0.1646568328142166,
	"rewards/margins": 0.06741134822368622,
	"rewards/rejected": -0.23206815123558044,
	"step": 170
	},
	{
	"epoch": 0.19,
	"learning_rate": 4.872699274339169e-06,
	"logits/chosen": -0.0011120836716145277,
	"logits/rejected": 0.13960300385951996,
	"logps/chosen": -525.2228393554688,
	"logps/rejected": -511.014404296875,
	"loss": 0.2908,
	"rewards/accuracies": 0.4124999940395355,
	"rewards/chosen": -0.14511564373970032,
	"rewards/margins": 0.03634321317076683,
	"rewards/rejected": -0.18145884573459625,
	"step": 180
	},
	{
	"epoch": 0.2,
	"learning_rate": 4.8417076618132434e-06,
	"logits/chosen": 0.11656410992145538,
	"logits/rejected": 0.08704119175672531,
	"logps/chosen": -514.813720703125,
	"logps/rejected": -595.0880126953125,
	"loss": 0.2617,
	"rewards/accuracies": 0.4937500059604645,
	"rewards/chosen": -0.14817455410957336,
	"rewards/margins": 0.04434273764491081,
	"rewards/rejected": -0.19251729547977448,
	"step": 190
	},
	{
	"epoch": 0.21,
	"learning_rate": 4.807464225455655e-06,
	"logits/chosen": 0.06601261347532272,
	"logits/rejected": 0.12538839876651764,
	"logps/chosen": -538.46142578125,
	"logps/rejected": -592.1277465820312,
	"loss": 0.2739,
	"rewards/accuracies": 0.5,
	"rewards/chosen": -0.15786947309970856,
	"rewards/margins": 0.04001317173242569,
	"rewards/rejected": -0.19788263738155365,
	"step": 200
	},
	{
	"epoch": 0.22,
	"learning_rate": 4.770016517582283e-06,
	"logits/chosen": 0.04595109820365906,
	"logits/rejected": 0.05397043749690056,
	"logps/chosen": -542.3662109375,
	"logps/rejected": -587.703125,
	"loss": 0.2803,
	"rewards/accuracies": 0.44999998807907104,
	"rewards/chosen": -0.15854400396347046,
	"rewards/margins": 0.037279583513736725,
	"rewards/rejected": -0.19582359492778778,
	"step": 210
	},
	{
	"epoch": 0.23,
	"learning_rate": 4.7294165401363616e-06,
	"logits/chosen": 0.06908506900072098,
	"logits/rejected": 0.0783570259809494,
	"logps/chosen": -543.8673095703125,
	"logps/rejected": -552.3768920898438,
	"loss": 0.273,
	"rewards/accuracies": 0.4437499940395355,
	"rewards/chosen": -0.14275754988193512,
	"rewards/margins": 0.04143111780285835,
	"rewards/rejected": -0.18418867886066437,
	"step": 220
	},
	{
	"epoch": 0.25,
	"learning_rate": 4.68572067247573e-06,
	"logits/chosen": 0.07219888269901276,
	"logits/rejected": 0.0497373566031456,
	"logps/chosen": -572.8856201171875,
	"logps/rejected": -622.0572509765625,
	"loss": 0.2833,
	"rewards/accuracies": 0.543749988079071,
	"rewards/chosen": -0.14573441445827484,
	"rewards/margins": 0.06495748460292816,
	"rewards/rejected": -0.210691899061203,
	"step": 230
	},
	{
	"epoch": 0.26,
	"learning_rate": 4.638989593081364e-06,
	"logits/chosen": -0.10666439682245255,
	"logits/rejected": 0.05354728549718857,
	"logps/chosen": -541.7586059570312,
	"logps/rejected": -586.1435546875,
	"loss": 0.2883,
	"rewards/accuracies": 0.48750001192092896,
	"rewards/chosen": -0.14508689939975739,
	"rewards/margins": 0.048395391553640366,
	"rewards/rejected": -0.19348229467868805,
	"step": 240
	},
	{
	"epoch": 0.27,
	"learning_rate": 4.5892881952959015e-06,
	"logits/chosen": 0.07505561411380768,
	"logits/rejected": -0.051252782344818115,
	"logps/chosen": -555.9990844726562,
	"logps/rejected": -585.9085083007812,
	"loss": 0.2815,
	"rewards/accuracies": 0.4749999940395355,
	"rewards/chosen": -0.14657357335090637,
	"rewards/margins": 0.04433682560920715,
	"rewards/rejected": -0.19091038405895233,
	"step": 250
	},
	{
	"epoch": 0.28,
	"learning_rate": 4.536685497209182e-06,
	"logits/chosen": -0.020656492561101913,
	"logits/rejected": 0.007626605220139027,
	"logps/chosen": -612.7149658203125,
	"logps/rejected": -613.846435546875,
	"loss": 0.2945,
	"rewards/accuracies": 0.4937500059604645,
	"rewards/chosen": -0.1504904180765152,
	"rewards/margins": 0.03951232135295868,
	"rewards/rejected": -0.19000275433063507,
	"step": 260
	},
	{
	"epoch": 0.29,
	"learning_rate": 4.481254545815943e-06,
	"logits/chosen": 0.06314031779766083,
	"logits/rejected": 0.05012714862823486,
	"logps/chosen": -572.8782958984375,
	"logps/rejected": -599.4718627929688,
	"loss": 0.286,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": -0.11262224614620209,
	"rewards/margins": 0.0400107316672802,
	"rewards/rejected": -0.15263298153877258,
	"step": 270
	},
	{
	"epoch": 0.3,
	"learning_rate": 4.42307231557875e-06,
	"logits/chosen": 4.419684410095215e-05,
	"logits/rejected": 0.1705075055360794,
	"logps/chosen": -478.0445251464844,
	"logps/rejected": -514.4085693359375,
	"loss": 0.2574,
	"rewards/accuracies": 0.4937500059604645,
	"rewards/chosen": -0.08713702112436295,
	"rewards/margins": 0.0530150942504406,
	"rewards/rejected": -0.14015211164951324,
	"step": 280
	},
	{
	"epoch": 0.31,
	"learning_rate": 4.3622196015370305e-06,
	"logits/chosen": -0.05049672722816467,
	"logits/rejected": 0.10665085166692734,
	"logps/chosen": -562.5294799804688,
	"logps/rejected": -583.0447998046875,
	"loss": 0.2866,
	"rewards/accuracies": 0.48750001192092896,
	"rewards/chosen": -0.12877288460731506,
	"rewards/margins": 0.0415426567196846,
	"rewards/rejected": -0.17031553387641907,
	"step": 290
	},
	{
	"epoch": 0.32,
	"learning_rate": 4.298780907110648e-06,
	"logits/chosen": -0.13402745127677917,
	"logits/rejected": 0.04227043688297272,
	"logps/chosen": -570.83935546875,
	"logps/rejected": -597.737060546875,
	"loss": 0.2749,
	"rewards/accuracies": 0.5375000238418579,
	"rewards/chosen": -0.14190678298473358,
	"rewards/margins": 0.054900676012039185,
	"rewards/rejected": -0.19680745899677277,
	"step": 300
	},
	{
	"epoch": 0.33,
	"learning_rate": 4.23284432675381e-06,
	"logits/chosen": -0.07339149713516235,
	"logits/rejected": -0.040264565497636795,
	"logps/chosen": -619.7767333984375,
	"logps/rejected": -682.0263061523438,
	"loss": 0.2589,
	"rewards/accuracies": 0.581250011920929,
	"rewards/chosen": -0.16093352437019348,
	"rewards/margins": 0.07607638835906982,
	"rewards/rejected": -0.2370099127292633,
	"step": 310
	},
	{
	"epoch": 0.34,
	"learning_rate": 4.164501423622277e-06,
	"logits/chosen": -0.028974998742341995,
	"logits/rejected": -0.06319359689950943,
	"logps/chosen": -549.9708862304688,
	"logps/rejected": -637.650390625,
	"loss": 0.264,
	"rewards/accuracies": 0.5,
	"rewards/chosen": -0.13445612788200378,
	"rewards/margins": 0.07859645038843155,
	"rewards/rejected": -0.21305255591869354,
	"step": 320
	},
	{
	"epoch": 0.35,
	"learning_rate": 4.0938471024237355e-06,
	"logits/chosen": -0.11449748277664185,
	"logits/rejected": -0.03637564182281494,
	"logps/chosen": -601.0888671875,
	"logps/rejected": -669.8153076171875,
	"loss": 0.2698,
	"rewards/accuracies": 0.543749988079071,
	"rewards/chosen": -0.1675841063261032,
	"rewards/margins": 0.0730680450797081,
	"rewards/rejected": -0.2406521737575531,
	"step": 330
	},
	{
	"epoch": 0.36,
	"learning_rate": 4.020979477627907e-06,
	"logits/chosen": -0.08815717697143555,
	"logits/rejected": 0.015436625108122826,
	"logps/chosen": -504.43658447265625,
	"logps/rejected": -530.493408203125,
	"loss": 0.2631,
	"rewards/accuracies": 0.41874998807907104,
	"rewards/chosen": -0.11692949384450912,
	"rewards/margins": 0.04244539141654968,
	"rewards/rejected": -0.1593748927116394,
	"step": 340
	},
	{
	"epoch": 0.37,
	"learning_rate": 3.9459997372194105e-06,
	"logits/chosen": -0.061802517622709274,
	"logits/rejected": 0.09361619502305984,
	"logps/chosen": -579.513671875,
	"logps/rejected": -639.0809936523438,
	"loss": 0.2755,
	"rewards/accuracies": 0.5062500238418579,
	"rewards/chosen": -0.16077642142772675,
	"rewards/margins": 0.05602121353149414,
	"rewards/rejected": -0.2167976200580597,
	"step": 350
	},
	{
	"epoch": 0.38,
	"learning_rate": 3.869012002182573e-06,
	"logits/chosen": -0.10564370453357697,
	"logits/rejected": 0.02583186700940132,
	"logps/chosen": -590.0396728515625,
	"logps/rejected": -647.909423828125,
	"loss": 0.2786,
	"rewards/accuracies": 0.53125,
	"rewards/chosen": -0.15724439918994904,
	"rewards/margins": 0.0704963356256485,
	"rewards/rejected": -0.22774071991443634,
	"step": 360
	},
	{
	"epoch": 0.39,
	"learning_rate": 3.7901231819133104e-06,
	"logits/chosen": -0.10458900034427643,
	"logits/rejected": -0.004534685518592596,
	"logps/chosen": -542.1465454101562,
	"logps/rejected": -573.3040771484375,
	"loss": 0.2668,
	"rewards/accuracies": 0.4625000059604645,
	"rewards/chosen": -0.1385766863822937,
	"rewards/margins": 0.05575231835246086,
	"rewards/rejected": -0.19432899355888367,
	"step": 370
	},
	{
	"epoch": 0.41,
	"learning_rate": 3.709442825758875e-06,
	"logits/chosen": -0.06990720331668854,
	"logits/rejected": 0.01404495257884264,
	"logps/chosen": -505.4917907714844,
	"logps/rejected": -572.2424926757812,
	"loss": 0.2636,
	"rewards/accuracies": 0.46875,
	"rewards/chosen": -0.14204895496368408,
	"rewards/margins": 0.050913404673337936,
	"rewards/rejected": -0.19296236336231232,
	"step": 380
	},
	{
	"epoch": 0.42,
	"learning_rate": 3.6270829708916113e-06,
	"logits/chosen": -0.040005024522542953,
	"logits/rejected": 0.017743710428476334,
	"logps/chosen": -548.9078369140625,
	"logps/rejected": -573.68408203125,
	"loss": 0.2815,
	"rewards/accuracies": 0.4625000059604645,
	"rewards/chosen": -0.1460207998752594,
	"rewards/margins": 0.041480742394924164,
	"rewards/rejected": -0.18750153481960297,
	"step": 390
	},
	{
	"epoch": 0.43,
	"learning_rate": 3.543157986727991e-06,
	"logits/chosen": -0.13051895797252655,
	"logits/rejected": 0.012003961019217968,
	"logps/chosen": -543.142578125,
	"logps/rejected": -594.59326171875,
	"loss": 0.2753,
	"rewards/accuracies": 0.512499988079071,
	"rewards/chosen": -0.13953322172164917,
	"rewards/margins": 0.0578032024204731,
	"rewards/rejected": -0.19733640551567078,
	"step": 400
	},
	{
	"epoch": 0.44,
	"learning_rate": 3.4577844161089614e-06,
	"logits/chosen": -0.03122936561703682,
	"logits/rejected": 0.010242189280688763,
	"logps/chosen": -564.1265869140625,
	"logps/rejected": -600.2008666992188,
	"loss": 0.2742,
	"rewards/accuracies": 0.4625000059604645,
	"rewards/chosen": -0.14681796729564667,
	"rewards/margins": 0.06189022213220596,
	"rewards/rejected": -0.20870819687843323,
	"step": 410
	},
	{
	"epoch": 0.45,
	"learning_rate": 3.3710808134621577e-06,
	"logits/chosen": -0.010301386937499046,
	"logits/rejected": -0.039281733334064484,
	"logps/chosen": -603.3815307617188,
	"logps/rejected": -645.9063110351562,
	"loss": 0.2761,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": -0.15229162573814392,
	"rewards/margins": 0.06186581775546074,
	"rewards/rejected": -0.21415743231773376,
	"step": 420
	},
	{
	"epoch": 0.46,
	"learning_rate": 3.2831675801707126e-06,
	"logits/chosen": -0.08892063051462173,
	"logits/rejected": -0.0773845762014389,
	"logps/chosen": -537.9869995117188,
	"logps/rejected": -586.5262451171875,
	"loss": 0.2721,
	"rewards/accuracies": 0.53125,
	"rewards/chosen": -0.13618162274360657,
	"rewards/margins": 0.06536873430013657,
	"rewards/rejected": -0.20155039429664612,
	"step": 430
	},
	{
	"epoch": 0.47,
	"learning_rate": 3.194166797377289e-06,
	"logits/chosen": -0.03688632696866989,
	"logits/rejected": -0.00927029736340046,
	"logps/chosen": -540.3975219726562,
	"logps/rejected": -622.5618896484375,
	"loss": 0.2622,
	"rewards/accuracies": 0.53125,
	"rewards/chosen": -0.12767064571380615,
	"rewards/margins": 0.07470119744539261,
	"rewards/rejected": -0.20237183570861816,
	"step": 440
	},
	{
	"epoch": 0.48,
	"learning_rate": 3.104202056455501e-06,
	"logits/chosen": -0.05976264923810959,
	"logits/rejected": -0.16253043711185455,
	"logps/chosen": -514.6741943359375,
	"logps/rejected": -578.7728271484375,
	"loss": 0.2588,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": -0.13386496901512146,
	"rewards/margins": 0.05132218077778816,
	"rewards/rejected": -0.18518713116645813,
	"step": 450
	},
	{
	"epoch": 0.49,
	"learning_rate": 3.013398287384144e-06,
	"logits/chosen": -0.15890637040138245,
	"logits/rejected": -0.05094796419143677,
	"logps/chosen": -516.9619750976562,
	"logps/rejected": -604.88525390625,
	"loss": 0.2671,
	"rewards/accuracies": 0.543749988079071,
	"rewards/chosen": -0.11203358322381973,
	"rewards/margins": 0.08909189701080322,
	"rewards/rejected": -0.20112547278404236,
	"step": 460
	},
	{
	"epoch": 0.5,
	"learning_rate": 2.9218815852625717e-06,
	"logits/chosen": -0.17138849198818207,
	"logits/rejected": -0.08313537389039993,
	"logps/chosen": -573.4813232421875,
	"logps/rejected": -608.16552734375,
	"loss": 0.2695,
	"rewards/accuracies": 0.518750011920929,
	"rewards/chosen": -0.13088415563106537,
	"rewards/margins": 0.047856587916612625,
	"rewards/rejected": -0.1787407547235489,
	"step": 470
	},
	{
	"epoch": 0.51,
	"learning_rate": 2.829779035208113e-06,
	"logits/chosen": -0.12412846088409424,
	"logits/rejected": -0.11923656612634659,
	"logps/chosen": -472.38726806640625,
	"logps/rejected": -527.9046020507812,
	"loss": 0.2658,
	"rewards/accuracies": 0.44999998807907104,
	"rewards/chosen": -0.09405693411827087,
	"rewards/margins": 0.057601846754550934,
	"rewards/rejected": -0.1516587734222412,
	"step": 480
	},
	{
	"epoch": 0.52,
	"learning_rate": 2.737218535878705e-06,
	"logits/chosen": -0.11355652660131454,
	"logits/rejected": -0.06184381991624832,
	"logps/chosen": -522.3283081054688,
	"logps/rejected": -575.9847412109375,
	"loss": 0.2596,
	"rewards/accuracies": 0.4937500059604645,
	"rewards/chosen": -0.11173069477081299,
	"rewards/margins": 0.06776181608438492,
	"rewards/rejected": -0.1794925034046173,
	"step": 490
	},
	{
	"epoch": 0.53,
	"learning_rate": 2.64432862186579e-06,
	"logits/chosen": -0.1486915647983551,
	"logits/rejected": -0.1126946210861206,
	"logps/chosen": -472.10009765625,
	"logps/rejected": -565.5072021484375,
	"loss": 0.2578,
	"rewards/accuracies": 0.512499988079071,
	"rewards/chosen": -0.10586412250995636,
	"rewards/margins": 0.08054044097661972,
	"rewards/rejected": -0.1864045411348343,
	"step": 500
	},
	{
	"epoch": 0.54,
	"learning_rate": 2.551238285204126e-06,
	"logits/chosen": -0.07071704417467117,
	"logits/rejected": -0.06895752251148224,
	"logps/chosen": -553.7777709960938,
	"logps/rejected": -641.0071411132812,
	"loss": 0.2755,
	"rewards/accuracies": 0.543749988079071,
	"rewards/chosen": -0.12443629652261734,
	"rewards/margins": 0.08012167364358902,
	"rewards/rejected": -0.20455794036388397,
	"step": 510
	},
	{
	"epoch": 0.55,
	"learning_rate": 2.4580767962463688e-06,
	"logits/chosen": -0.07696928828954697,
	"logits/rejected": 0.0007179826498031616,
	"logps/chosen": -548.6107788085938,
	"logps/rejected": -587.250732421875,
	"loss": 0.2776,
	"rewards/accuracies": 0.46875,
	"rewards/chosen": -0.14552563428878784,
	"rewards/margins": 0.04918716475367546,
	"rewards/rejected": -0.1947127878665924,
	"step": 520
	},
	{
	"epoch": 0.57,
	"learning_rate": 2.3649735241511546e-06,
	"logits/chosen": -0.07807435840368271,
	"logits/rejected": 0.01831636391580105,
	"logps/chosen": -556.7833251953125,
	"logps/rejected": -576.1497192382812,
	"loss": 0.2592,
	"rewards/accuracies": 0.4749999940395355,
	"rewards/chosen": -0.13193278014659882,
	"rewards/margins": 0.05105576664209366,
	"rewards/rejected": -0.18298853933811188,
	"step": 530
	},
	{
	"epoch": 0.58,
	"learning_rate": 2.2720577572339914e-06,
	"logits/chosen": -0.014492440037429333,
	"logits/rejected": -0.10470409691333771,
	"logps/chosen": -520.7554931640625,
	"logps/rejected": -621.583251953125,
	"loss": 0.2589,
	"rewards/accuracies": 0.518750011920929,
	"rewards/chosen": -0.1109011173248291,
	"rewards/margins": 0.08521705865859985,
	"rewards/rejected": -0.19611816108226776,
	"step": 540
	},
	{
	"epoch": 0.59,
	"learning_rate": 2.1794585234303995e-06,
	"logits/chosen": -0.09592770040035248,
	"logits/rejected": 0.03173860162496567,
	"logps/chosen": -527.00537109375,
	"logps/rejected": -587.9857177734375,
	"loss": 0.2698,
	"rewards/accuracies": 0.5249999761581421,
	"rewards/chosen": -0.13213616609573364,
	"rewards/margins": 0.07161318510770798,
	"rewards/rejected": -0.2037493735551834,
	"step": 550
	},
	{
	"epoch": 0.6,
	"learning_rate": 2.0873044111206407e-06,
	"logits/chosen": -0.08211179822683334,
	"logits/rejected": -0.07464434206485748,
	"logps/chosen": -526.9556884765625,
	"logps/rejected": -597.501708984375,
	"loss": 0.263,
	"rewards/accuracies": 0.48750001192092896,
	"rewards/chosen": -0.12764397263526917,
	"rewards/margins": 0.07685311138629913,
	"rewards/rejected": -0.2044970691204071,
	"step": 560
	},
	{
	"epoch": 0.61,
	"learning_rate": 1.9957233905648293e-06,
	"logits/chosen": -0.17138975858688354,
	"logits/rejected": 0.06973910331726074,
	"logps/chosen": -606.2980346679688,
	"logps/rejected": -656.0491943359375,
	"loss": 0.2673,
	"rewards/accuracies": 0.53125,
	"rewards/chosen": -0.13349631428718567,
	"rewards/margins": 0.08181539922952652,
	"rewards/rejected": -0.2153116911649704,
	"step": 570
	},
	{
	"epoch": 0.62,
	"learning_rate": 1.904842636196402e-06,
	"logits/chosen": -0.12237439304590225,
	"logits/rejected": 0.0009635284659452736,
	"logps/chosen": -486.32818603515625,
	"logps/rejected": -522.0555419921875,
	"loss": 0.2611,
	"rewards/accuracies": 0.4749999940395355,
	"rewards/chosen": -0.09265846014022827,
	"rewards/margins": 0.06704847514629364,
	"rewards/rejected": -0.15970692038536072,
	"step": 580
	},
	{
	"epoch": 0.63,
	"learning_rate": 1.814788350020726e-06,
	"logits/chosen": -0.0846022367477417,
	"logits/rejected": 0.020748872309923172,
	"logps/chosen": -515.6177368164062,
	"logps/rejected": -512.121337890625,
	"loss": 0.288,
	"rewards/accuracies": 0.4375,
	"rewards/chosen": -0.10487208515405655,
	"rewards/margins": 0.0322984978556633,
	"rewards/rejected": -0.13717058300971985,
	"step": 590
	},
	{
	"epoch": 0.64,
	"learning_rate": 1.725685586364051e-06,
	"logits/chosen": -0.1460862159729004,
	"logits/rejected": -0.06654468178749084,
	"logps/chosen": -464.4956970214844,
	"logps/rejected": -489.59161376953125,
	"loss": 0.2786,
	"rewards/accuracies": 0.40625,
	"rewards/chosen": -0.09209474176168442,
	"rewards/margins": 0.04379875212907791,
	"rewards/rejected": -0.13589349389076233,
	"step": 600
	},
	{
	"epoch": 0.65,
	"learning_rate": 1.6376580782162172e-06,
	"logits/chosen": -0.1410539448261261,
	"logits/rejected": -0.08074741810560226,
	"logps/chosen": -483.46893310546875,
	"logps/rejected": -526.5164794921875,
	"loss": 0.2829,
	"rewards/accuracies": 0.5062500238418579,
	"rewards/chosen": -0.09680439531803131,
	"rewards/margins": 0.06490226835012436,
	"rewards/rejected": -0.16170665621757507,
	"step": 610
	},
	{
	"epoch": 0.66,
	"learning_rate": 1.550828065408227e-06,
	"logits/chosen": -0.09655305743217468,
	"logits/rejected": -0.0762481540441513,
	"logps/chosen": -468.4337463378906,
	"logps/rejected": -525.4623413085938,
	"loss": 0.2619,
	"rewards/accuracies": 0.5,
	"rewards/chosen": -0.08364450931549072,
	"rewards/margins": 0.0691133439540863,
	"rewards/rejected": -0.15275785326957703,
	"step": 620
	},
	{
	"epoch": 0.67,
	"learning_rate": 1.4653161248633053e-06,
	"logits/chosen": -0.03865772485733032,
	"logits/rejected": -0.10341192781925201,
	"logps/chosen": -468.88763427734375,
	"logps/rejected": -524.7953491210938,
	"loss": 0.2589,
	"rewards/accuracies": 0.5062500238418579,
	"rewards/chosen": -0.08644279092550278,
	"rewards/margins": 0.0591856949031353,
	"rewards/rejected": -0.14562849700450897,
	"step": 630
	},
	{
	"epoch": 0.68,
	"learning_rate": 1.381241003157162e-06,
	"logits/chosen": -0.08597133308649063,
	"logits/rejected": 0.0006229489808902144,
	"logps/chosen": -556.832275390625,
	"logps/rejected": -577.3524780273438,
	"loss": 0.2942,
	"rewards/accuracies": 0.4749999940395355,
	"rewards/chosen": -0.1141686886548996,
	"rewards/margins": 0.03842983394861221,
	"rewards/rejected": -0.1525985300540924,
	"step": 640
	},
	{
	"epoch": 0.69,
	"learning_rate": 1.298719451619979e-06,
	"logits/chosen": -0.09541022032499313,
	"logits/rejected": -0.05003209039568901,
	"logps/chosen": -469.9234313964844,
	"logps/rejected": -529.8631591796875,
	"loss": 0.2683,
	"rewards/accuracies": 0.45625001192092896,
	"rewards/chosen": -0.09767267853021622,
	"rewards/margins": 0.054049454629421234,
	"rewards/rejected": -0.15172213315963745,
	"step": 650
	},
	{
	"epoch": 0.7,
	"learning_rate": 1.2178660642091036e-06,
	"logits/chosen": -0.2083953619003296,
	"logits/rejected": 0.05156536027789116,
	"logps/chosen": -587.299560546875,
	"logps/rejected": -581.7611694335938,
	"loss": 0.2608,
	"rewards/accuracies": 0.5375000238418579,
	"rewards/chosen": -0.10773968696594238,
	"rewards/margins": 0.06141304969787598,
	"rewards/rejected": -0.16915276646614075,
	"step": 660
	},
	{
	"epoch": 0.71,
	"learning_rate": 1.1387931183775821e-06,
	"logits/chosen": -0.09526301920413971,
	"logits/rejected": -0.06854981184005737,
	"logps/chosen": -553.5062255859375,
	"logps/rejected": -567.5850219726562,
	"loss": 0.2713,
	"rewards/accuracies": 0.518750011920929,
	"rewards/chosen": -0.10804013162851334,
	"rewards/margins": 0.06674468517303467,
	"rewards/rejected": -0.1747848242521286,
	"step": 670
	},
	{
	"epoch": 0.73,
	"learning_rate": 1.061610419159532e-06,
	"logits/chosen": -0.15921640396118164,
	"logits/rejected": -0.22180967032909393,
	"logps/chosen": -464.23480224609375,
	"logps/rejected": -517.2071533203125,
	"loss": 0.2618,
	"rewards/accuracies": 0.45625001192092896,
	"rewards/chosen": -0.1085701733827591,
	"rewards/margins": 0.06596361845731735,
	"rewards/rejected": -0.17453376948833466,
	"step": 680
	},
	{
	"epoch": 0.74,
	"learning_rate": 9.864251466888364e-07,
	"logits/chosen": -0.2035103738307953,
	"logits/rejected": -0.13756130635738373,
	"logps/chosen": -533.3971557617188,
	"logps/rejected": -562.695068359375,
	"loss": 0.2758,
	"rewards/accuracies": 0.4437499940395355,
	"rewards/chosen": -0.12624426186084747,
	"rewards/margins": 0.05400489643216133,
	"rewards/rejected": -0.1802491694688797,
	"step": 690
	},
	{
	"epoch": 0.75,
	"learning_rate": 9.133417073629288e-07,
	"logits/chosen": -0.19000104069709778,
	"logits/rejected": -0.17901551723480225,
	"logps/chosen": -564.2060546875,
	"logps/rejected": -620.484619140625,
	"loss": 0.2765,
	"rewards/accuracies": 0.44999998807907104,
	"rewards/chosen": -0.12581291794776917,
	"rewards/margins": 0.06180128455162048,
	"rewards/rejected": -0.18761418759822845,
	"step": 700
	},
	{
	"epoch": 0.76,
	"learning_rate": 8.424615888583332e-07,
	"logits/chosen": -0.1307680755853653,
	"logits/rejected": -0.10078835487365723,
	"logps/chosen": -524.8638916015625,
	"logps/rejected": -553.104736328125,
	"loss": 0.2792,
	"rewards/accuracies": 0.4375,
	"rewards/chosen": -0.13305291533470154,
	"rewards/margins": 0.040464796125888824,
	"rewards/rejected": -0.17351767420768738,
	"step": 710
	},
	{
	"epoch": 0.77,
	"learning_rate": 7.738832191993092e-07,
	"logits/chosen": -0.11268335580825806,
	"logits/rejected": -0.05942006781697273,
	"logps/chosen": -497.02325439453125,
	"logps/rejected": -589.494384765625,
	"loss": 0.267,
	"rewards/accuracies": 0.48750001192092896,
	"rewards/chosen": -0.11972874402999878,
	"rewards/margins": 0.0718456357717514,
	"rewards/rejected": -0.19157439470291138,
	"step": 720
	},
	{
	"epoch": 0.78,
	"learning_rate": 7.077018300752917e-07,
	"logits/chosen": -0.14758452773094177,
	"logits/rejected": -0.0012020498979836702,
	"logps/chosen": -520.2757568359375,
	"logps/rejected": -585.8750610351562,
	"loss": 0.2769,
	"rewards/accuracies": 0.45625001192092896,
	"rewards/chosen": -0.11923079192638397,
	"rewards/margins": 0.06183774396777153,
	"rewards/rejected": -0.1810685396194458,
	"step": 730
	},
	{
	"epoch": 0.79,
	"learning_rate": 6.440093245969342e-07,
	"logits/chosen": -0.1631493866443634,
	"logits/rejected": -0.14262652397155762,
	"logps/chosen": -531.8765869140625,
	"logps/rejected": -570.99365234375,
	"loss": 0.2753,
	"rewards/accuracies": 0.48750001192092896,
	"rewards/chosen": -0.11439726501703262,
	"rewards/margins": 0.05860968679189682,
	"rewards/rejected": -0.17300695180892944,
	"step": 740
	},
	{
	"epoch": 0.8,
	"learning_rate": 5.828941496744075e-07,
	"logits/chosen": -0.13462567329406738,
	"logits/rejected": -0.10775252431631088,
	"logps/chosen": -528.6737060546875,
	"logps/rejected": -559.4716796875,
	"loss": 0.2773,
	"rewards/accuracies": 0.518750011920929,
	"rewards/chosen": -0.11941119283437729,
	"rewards/margins": 0.06873499602079391,
	"rewards/rejected": -0.1881461888551712,
	"step": 750
	},
	{
	"epoch": 0.81,
	"learning_rate": 5.244411731951671e-07,
	"logits/chosen": -0.10648471117019653,
	"logits/rejected": -0.12774226069450378,
	"logps/chosen": -540.2073974609375,
	"logps/rejected": -609.1519165039062,
	"loss": 0.2717,
	"rewards/accuracies": 0.53125,
	"rewards/chosen": -0.1273835450410843,
	"rewards/margins": 0.07286655902862549,
	"rewards/rejected": -0.2002500742673874,
	"step": 760
	},
	{
	"epoch": 0.82,
	"learning_rate": 4.6873156617173594e-07,
	"logits/chosen": -0.2068806141614914,
	"logits/rejected": -0.1860518753528595,
	"logps/chosen": -510.51983642578125,
	"logps/rejected": -575.1392822265625,
	"loss": 0.2802,
	"rewards/accuracies": 0.46875,
	"rewards/chosen": -0.1164456382393837,
	"rewards/margins": 0.06441595405340195,
	"rewards/rejected": -0.18086162209510803,
	"step": 770
	},
	{
	"epoch": 0.83,
	"learning_rate": 4.1584269002318653e-07,
	"logits/chosen": -0.23118607699871063,
	"logits/rejected": 0.012592856772243977,
	"logps/chosen": -493.88201904296875,
	"logps/rejected": -535.3624267578125,
	"loss": 0.2541,
	"rewards/accuracies": 0.44999998807907104,
	"rewards/chosen": -0.10904928296804428,
	"rewards/margins": 0.06981517374515533,
	"rewards/rejected": -0.17886444926261902,
	"step": 780
	},
	{
	"epoch": 0.84,
	"learning_rate": 3.658479891468258e-07,
	"logits/chosen": -0.13056764006614685,
	"logits/rejected": -0.06715533137321472,
	"logps/chosen": -526.5809326171875,
	"logps/rejected": -599.15771484375,
	"loss": 0.2635,
	"rewards/accuracies": 0.512499988079071,
	"rewards/chosen": -0.12021216005086899,
	"rewards/margins": 0.07990214973688126,
	"rewards/rejected": -0.20011429488658905,
	"step": 790
	},
	{
	"epoch": 0.85,
	"learning_rate": 3.18816888929272e-07,
	"logits/chosen": -0.2064342051744461,
	"logits/rejected": -0.1310141682624817,
	"logps/chosen": -503.92022705078125,
	"logps/rejected": -535.3073120117188,
	"loss": 0.2788,
	"rewards/accuracies": 0.4375,
	"rewards/chosen": -0.1168203130364418,
	"rewards/margins": 0.04998582974076271,
	"rewards/rejected": -0.1668061465024948,
	"step": 800
	},
	{
	"epoch": 0.86,
	"learning_rate": 2.748146993385484e-07,
	"logits/chosen": -0.15658999979496002,
	"logits/rejected": -0.05465535447001457,
	"logps/chosen": -493.89666748046875,
	"logps/rejected": -565.4508056640625,
	"loss": 0.2593,
	"rewards/accuracies": 0.5062500238418579,
	"rewards/chosen": -0.11054392158985138,
	"rewards/margins": 0.062444061040878296,
	"rewards/rejected": -0.17298798263072968,
	"step": 810
	},
	{
	"epoch": 0.87,
	"learning_rate": 2.3390252423108077e-07,
	"logits/chosen": -0.12076146900653839,
	"logits/rejected": -0.07717995345592499,
	"logps/chosen": -557.0513305664062,
	"logps/rejected": -630.1217041015625,
	"loss": 0.26,
	"rewards/accuracies": 0.53125,
	"rewards/chosen": -0.12639924883842468,
	"rewards/margins": 0.06895993649959564,
	"rewards/rejected": -0.19535920023918152,
	"step": 820
	},
	{
	"epoch": 0.89,
	"learning_rate": 1.961371764995243e-07,
	"logits/chosen": -0.18750372529029846,
	"logits/rejected": -0.20195484161376953,
	"logps/chosen": -431.05615234375,
	"logps/rejected": -488.2513732910156,
	"loss": 0.2672,
	"rewards/accuracies": 0.41874998807907104,
	"rewards/chosen": -0.0998988226056099,
	"rewards/margins": 0.054485417902469635,
	"rewards/rejected": -0.15438422560691833,
	"step": 830
	},
	{
	"epoch": 0.9,
	"learning_rate": 1.61571099179261e-07,
	"logits/chosen": -0.17934174835681915,
	"logits/rejected": -0.13482218980789185,
	"logps/chosen": -465.31268310546875,
	"logps/rejected": -541.5718994140625,
	"loss": 0.2379,
	"rewards/accuracies": 0.48750001192092896,
	"rewards/chosen": -0.11106850951910019,
	"rewards/margins": 0.07404305785894394,
	"rewards/rejected": -0.18511156737804413,
	"step": 840
	},
	{
	"epoch": 0.91,
	"learning_rate": 1.3025229262312367e-07,
	"logits/chosen": -0.16116994619369507,
	"logits/rejected": -0.06133908033370972,
	"logps/chosen": -567.8401489257812,
	"logps/rejected": -617.7798461914062,
	"loss": 0.2591,
	"rewards/accuracies": 0.5375000238418579,
	"rewards/chosen": -0.12380583584308624,
	"rewards/margins": 0.07460357248783112,
	"rewards/rejected": -0.19840940833091736,
	"step": 850
	},
	{
	"epoch": 0.92,
	"learning_rate": 1.0222424784546853e-07,
	"logits/chosen": -0.09671641886234283,
	"logits/rejected": -0.10632093995809555,
	"logps/chosen": -526.3566284179688,
	"logps/rejected": -554.2623291015625,
	"loss": 0.271,
	"rewards/accuracies": 0.41874998807907104,
	"rewards/chosen": -0.1161075010895729,
	"rewards/margins": 0.05733795836567879,
	"rewards/rejected": -0.1734454333782196,
	"step": 860
	},
	{
	"epoch": 0.93,
	"learning_rate": 7.752588612816553e-08,
	"logits/chosen": -0.15584774315357208,
	"logits/rejected": -0.18242886662483215,
	"logps/chosen": -535.07373046875,
	"logps/rejected": -580.4075927734375,
	"loss": 0.2676,
	"rewards/accuracies": 0.48750001192092896,
	"rewards/chosen": -0.12142983824014664,
	"rewards/margins": 0.06167648360133171,
	"rewards/rejected": -0.18310633301734924,
	"step": 870
	},
	{
	"epoch": 0.94,
	"learning_rate": 5.619150497236991e-08,
	"logits/chosen": -0.09849689900875092,
	"logits/rejected": -0.10616960376501083,
	"logps/chosen": -480.7345275878906,
	"logps/rejected": -568.6452026367188,
	"loss": 0.2573,
	"rewards/accuracies": 0.48124998807907104,
	"rewards/chosen": -0.12242833524942398,
	"rewards/margins": 0.07691850513219833,
	"rewards/rejected": -0.19934681057929993,
	"step": 880
	},
	{
	"epoch": 0.95,
	"learning_rate": 3.825073047112743e-08,
	"logits/chosen": -0.1931258887052536,
	"logits/rejected": -0.14527785778045654,
	"logps/chosen": -525.9476318359375,
	"logps/rejected": -556.6074829101562,
	"loss": 0.2718,
	"rewards/accuracies": 0.48750001192092896,
	"rewards/chosen": -0.1265556812286377,
	"rewards/margins": 0.05168802663683891,
	"rewards/rejected": -0.1782437115907669,
	"step": 890
	},
	{
	"epoch": 0.96,
	"learning_rate": 2.372847616895685e-08,
	"logits/chosen": -0.1395512819290161,
	"logits/rejected": -0.15351735055446625,
	"logps/chosen": -519.0070190429688,
	"logps/rejected": -630.4365234375,
	"loss": 0.25,
	"rewards/accuracies": 0.550000011920929,
	"rewards/chosen": -0.12783722579479218,
	"rewards/margins": 0.08357492834329605,
	"rewards/rejected": -0.21141216158866882,
	"step": 900
	},
	{
	"epoch": 0.97,
	"learning_rate": 1.264490846553279e-08,
	"logits/chosen": -0.1655835509300232,
	"logits/rejected": -0.06148504465818405,
	"logps/chosen": -530.4078979492188,
	"logps/rejected": -588.1494140625,
	"loss": 0.2773,
	"rewards/accuracies": 0.5062500238418579,
	"rewards/chosen": -0.13116273283958435,
	"rewards/margins": 0.060104191303253174,
	"rewards/rejected": -0.19126692414283752,
	"step": 910
	},
	{
	"epoch": 0.98,
	"learning_rate": 5.015418611516165e-09,
	"logits/chosen": -0.13306137919425964,
	"logits/rejected": -0.1015244722366333,
	"logps/chosen": -540.9669189453125,
	"logps/rejected": -633.6178588867188,
	"loss": 0.2619,
	"rewards/accuracies": 0.53125,
	"rewards/chosen": -0.13009101152420044,
	"rewards/margins": 0.07983705401420593,
	"rewards/rejected": -0.20992806553840637,
	"step": 920
	},
	{
	"epoch": 0.99,
	"learning_rate": 8.506013354186993e-10,
	"logits/chosen": -0.16086629033088684,
	"logits/rejected": -0.07110301405191422,
	"logps/chosen": -540.5888061523438,
	"logps/rejected": -531.308349609375,
	"loss": 0.2795,
	"rewards/accuracies": 0.45625001192092896,
	"rewards/chosen": -0.11827180534601212,
	"rewards/margins": 0.032559461891651154,
	"rewards/rejected": -0.15083125233650208,
	"step": 930
	},
	{
	"epoch": 1.0,
	"step": 937,
	"total_flos": 0.0,
	"train_loss": 0.275421927202982,
	"train_runtime": 7850.8319,
	"train_samples_per_second": 3.821,
	"train_steps_per_second": 0.119
	}
	],
	"logging_steps": 10,
	"max_steps": 937,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"total_flos": 0.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}