Jimmy19991222

Upload folder using huggingface_hub

9ff0ce4 verified 2 months ago

50.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9982631930527722,
	"eval_steps": 400,
	"global_step": 467,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01068804275217101,
	"grad_norm": 53.52218298444476,
	"learning_rate": 1.0638297872340425e-07,
	"logits/chosen": -1.0146243572235107,
	"logits/rejected": -0.9850981831550598,
	"logps/chosen": -0.27403339743614197,
	"logps/rejected": -0.2716384530067444,
	"loss": 3.0444,
	"rewards/accuracies": 0.4437499940395355,
	"rewards/chosen": -2.7403340339660645,
	"rewards/margins": -0.02394939959049225,
	"rewards/rejected": -2.7163848876953125,
	"step": 5
	},
	{
	"epoch": 0.02137608550434202,
	"grad_norm": 39.10999969888965,
	"learning_rate": 2.127659574468085e-07,
	"logits/chosen": -1.0449364185333252,
	"logits/rejected": -0.9776930809020996,
	"logps/chosen": -0.29451489448547363,
	"logps/rejected": -0.2995792329311371,
	"loss": 3.0211,
	"rewards/accuracies": 0.4937500059604645,
	"rewards/chosen": -2.9451489448547363,
	"rewards/margins": 0.05064352601766586,
	"rewards/rejected": -2.9957923889160156,
	"step": 10
	},
	{
	"epoch": 0.03206412825651302,
	"grad_norm": 53.821066581509214,
	"learning_rate": 3.1914893617021275e-07,
	"logits/chosen": -0.9672248959541321,
	"logits/rejected": -0.9867329597473145,
	"logps/chosen": -0.26386433839797974,
	"logps/rejected": -0.30063143372535706,
	"loss": 3.0404,
	"rewards/accuracies": 0.6000000238418579,
	"rewards/chosen": -2.638643503189087,
	"rewards/margins": 0.3676711320877075,
	"rewards/rejected": -3.006314516067505,
	"step": 15
	},
	{
	"epoch": 0.04275217100868404,
	"grad_norm": 86.6542555553414,
	"learning_rate": 4.25531914893617e-07,
	"logits/chosen": -0.9602643847465515,
	"logits/rejected": -0.9344671964645386,
	"logps/chosen": -0.2776374816894531,
	"logps/rejected": -0.29131022095680237,
	"loss": 2.9793,
	"rewards/accuracies": 0.5062500238418579,
	"rewards/chosen": -2.7763748168945312,
	"rewards/margins": 0.13672712445259094,
	"rewards/rejected": -2.913102149963379,
	"step": 20
	},
	{
	"epoch": 0.053440213760855046,
	"grad_norm": 56.919799993589805,
	"learning_rate": 5.319148936170212e-07,
	"logits/chosen": -1.0135596990585327,
	"logits/rejected": -0.9844949841499329,
	"logps/chosen": -0.2717221677303314,
	"logps/rejected": -0.2782990336418152,
	"loss": 3.124,
	"rewards/accuracies": 0.5062500238418579,
	"rewards/chosen": -2.717221736907959,
	"rewards/margins": 0.06576814502477646,
	"rewards/rejected": -2.7829902172088623,
	"step": 25
	},
	{
	"epoch": 0.06412825651302605,
	"grad_norm": 45.796379698409524,
	"learning_rate": 6.382978723404255e-07,
	"logits/chosen": -0.9898878931999207,
	"logits/rejected": -0.9455238580703735,
	"logps/chosen": -0.2733747959136963,
	"logps/rejected": -0.279060035943985,
	"loss": 2.8977,
	"rewards/accuracies": 0.4437499940395355,
	"rewards/chosen": -2.733747959136963,
	"rewards/margins": 0.05685253068804741,
	"rewards/rejected": -2.790600299835205,
	"step": 30
	},
	{
	"epoch": 0.07481629926519706,
	"grad_norm": 64.64288788170485,
	"learning_rate": 7.446808510638297e-07,
	"logits/chosen": -1.0491113662719727,
	"logits/rejected": -0.9738750457763672,
	"logps/chosen": -0.2941775918006897,
	"logps/rejected": -0.32069069147109985,
	"loss": 2.9119,
	"rewards/accuracies": 0.53125,
	"rewards/chosen": -2.9417757987976074,
	"rewards/margins": 0.2651310861110687,
	"rewards/rejected": -3.206906795501709,
	"step": 35
	},
	{
	"epoch": 0.08550434201736808,
	"grad_norm": 60.56769615337976,
	"learning_rate": 8.51063829787234e-07,
	"logits/chosen": -1.0074384212493896,
	"logits/rejected": -0.963466465473175,
	"logps/chosen": -0.2797192931175232,
	"logps/rejected": -0.3225395083427429,
	"loss": 2.9345,
	"rewards/accuracies": 0.59375,
	"rewards/chosen": -2.7971930503845215,
	"rewards/margins": 0.4282020032405853,
	"rewards/rejected": -3.2253952026367188,
	"step": 40
	},
	{
	"epoch": 0.09619238476953908,
	"grad_norm": 48.675093440338955,
	"learning_rate": 9.574468085106384e-07,
	"logits/chosen": -1.0469945669174194,
	"logits/rejected": -1.0040814876556396,
	"logps/chosen": -0.33255186676979065,
	"logps/rejected": -0.38402628898620605,
	"loss": 2.9815,
	"rewards/accuracies": 0.512499988079071,
	"rewards/chosen": -3.3255183696746826,
	"rewards/margins": 0.5147446393966675,
	"rewards/rejected": -3.8402628898620605,
	"step": 45
	},
	{
	"epoch": 0.10688042752171009,
	"grad_norm": 92.08652708998007,
	"learning_rate": 9.998741174712533e-07,
	"logits/chosen": -1.038892388343811,
	"logits/rejected": -0.988103985786438,
	"logps/chosen": -0.34245526790618896,
	"logps/rejected": -0.38594862818717957,
	"loss": 3.0508,
	"rewards/accuracies": 0.5062500238418579,
	"rewards/chosen": -3.4245529174804688,
	"rewards/margins": 0.4349338412284851,
	"rewards/rejected": -3.8594863414764404,
	"step": 50
	},
	{
	"epoch": 0.11756847027388109,
	"grad_norm": 72.54827446103837,
	"learning_rate": 9.991050648838675e-07,
	"logits/chosen": -1.0567952394485474,
	"logits/rejected": -1.0215675830841064,
	"logps/chosen": -0.28753459453582764,
	"logps/rejected": -0.3490275740623474,
	"loss": 2.7982,
	"rewards/accuracies": 0.606249988079071,
	"rewards/chosen": -2.8753461837768555,
	"rewards/margins": 0.6149295568466187,
	"rewards/rejected": -3.4902758598327637,
	"step": 55
	},
	{
	"epoch": 0.1282565130260521,
	"grad_norm": 55.56312267177659,
	"learning_rate": 9.97637968732563e-07,
	"logits/chosen": -1.0922194719314575,
	"logits/rejected": -1.059291958808899,
	"logps/chosen": -0.3225264847278595,
	"logps/rejected": -0.3470703959465027,
	"loss": 2.8716,
	"rewards/accuracies": 0.5625,
	"rewards/chosen": -3.22526478767395,
	"rewards/margins": 0.2454390972852707,
	"rewards/rejected": -3.4707038402557373,
	"step": 60
	},
	{
	"epoch": 0.13894455577822312,
	"grad_norm": 54.05440384507174,
	"learning_rate": 9.954748808839674e-07,
	"logits/chosen": -0.9975064992904663,
	"logits/rejected": -0.9689160585403442,
	"logps/chosen": -0.37468865513801575,
	"logps/rejected": -0.43205341696739197,
	"loss": 2.7901,
	"rewards/accuracies": 0.5874999761581421,
	"rewards/chosen": -3.746886730194092,
	"rewards/margins": 0.5736472010612488,
	"rewards/rejected": -4.3205342292785645,
	"step": 65
	},
	{
	"epoch": 0.14963259853039412,
	"grad_norm": 37.66775098927071,
	"learning_rate": 9.926188266120295e-07,
	"logits/chosen": -1.0229814052581787,
	"logits/rejected": -0.9982998967170715,
	"logps/chosen": -0.3514581620693207,
	"logps/rejected": -0.4274352192878723,
	"loss": 2.8718,
	"rewards/accuracies": 0.5562499761581421,
	"rewards/chosen": -3.5145821571350098,
	"rewards/margins": 0.7597699761390686,
	"rewards/rejected": -4.274352073669434,
	"step": 70
	},
	{
	"epoch": 0.16032064128256512,
	"grad_norm": 51.934633835606974,
	"learning_rate": 9.890738003669027e-07,
	"logits/chosen": -0.9838461875915527,
	"logits/rejected": -0.9134309887886047,
	"logps/chosen": -0.35928577184677124,
	"logps/rejected": -0.4099213182926178,
	"loss": 2.8345,
	"rewards/accuracies": 0.5375000238418579,
	"rewards/chosen": -3.592857837677002,
	"rewards/margins": 0.5063551664352417,
	"rewards/rejected": -4.099213123321533,
	"step": 75
	},
	{
	"epoch": 0.17100868403473615,
	"grad_norm": 46.83578017177419,
	"learning_rate": 9.848447601883433e-07,
	"logits/chosen": -0.9681940078735352,
	"logits/rejected": -0.9539217948913574,
	"logps/chosen": -0.353752076625824,
	"logps/rejected": -0.4523216187953949,
	"loss": 2.7878,
	"rewards/accuracies": 0.5874999761581421,
	"rewards/chosen": -3.53752064704895,
	"rewards/margins": 0.985695481300354,
	"rewards/rejected": -4.523216247558594,
	"step": 80
	},
	{
	"epoch": 0.18169672678690715,
	"grad_norm": 54.174949491419966,
	"learning_rate": 9.799376207714444e-07,
	"logits/chosen": -0.9862138628959656,
	"logits/rejected": -0.9641338586807251,
	"logps/chosen": -0.3405635952949524,
	"logps/rejected": -0.39860305190086365,
	"loss": 2.6715,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -3.4056358337402344,
	"rewards/margins": 0.5803946852684021,
	"rewards/rejected": -3.9860305786132812,
	"step": 85
	},
	{
	"epoch": 0.19238476953907815,
	"grad_norm": 62.18682762469074,
	"learning_rate": 9.743592451943998e-07,
	"logits/chosen": -1.028374195098877,
	"logits/rejected": -0.9928615689277649,
	"logps/chosen": -0.4192899763584137,
	"logps/rejected": -0.5028694868087769,
	"loss": 2.8803,
	"rewards/accuracies": 0.581250011920929,
	"rewards/chosen": -4.192899703979492,
	"rewards/margins": 0.8357950448989868,
	"rewards/rejected": -5.028695106506348,
	"step": 90
	},
	{
	"epoch": 0.20307281229124916,
	"grad_norm": 56.712862810919404,
	"learning_rate": 9.681174353198686e-07,
	"logits/chosen": -1.102429747581482,
	"logits/rejected": -1.017956256866455,
	"logps/chosen": -0.4515204429626465,
	"logps/rejected": -0.49105948209762573,
	"loss": 2.7854,
	"rewards/accuracies": 0.5562499761581421,
	"rewards/chosen": -4.515204429626465,
	"rewards/margins": 0.39539000391960144,
	"rewards/rejected": -4.910594463348389,
	"step": 95
	},
	{
	"epoch": 0.21376085504342018,
	"grad_norm": 77.56651991727357,
	"learning_rate": 9.612209208833646e-07,
	"logits/chosen": -1.0002816915512085,
	"logits/rejected": -0.9756115078926086,
	"logps/chosen": -0.4405655860900879,
	"logps/rejected": -0.5030835866928101,
	"loss": 2.8381,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -4.405655860900879,
	"rewards/margins": 0.6251801252365112,
	"rewards/rejected": -5.0308356285095215,
	"step": 100
	},
	{
	"epoch": 0.22444889779559118,
	"grad_norm": 63.78609875386195,
	"learning_rate": 9.536793472839324e-07,
	"logits/chosen": -1.0079588890075684,
	"logits/rejected": -0.9540907144546509,
	"logps/chosen": -0.41310757398605347,
	"logps/rejected": -0.5235550999641418,
	"loss": 2.7704,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -4.131075859069824,
	"rewards/margins": 1.1044747829437256,
	"rewards/rejected": -5.235550880432129,
	"step": 105
	},
	{
	"epoch": 0.23513694054776219,
	"grad_norm": 59.92913033519696,
	"learning_rate": 9.455032620941839e-07,
	"logits/chosen": -0.9624613523483276,
	"logits/rejected": -0.9022065997123718,
	"logps/chosen": -0.4771413207054138,
	"logps/rejected": -0.6054214239120483,
	"loss": 2.6684,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -4.771413326263428,
	"rewards/margins": 1.2828001976013184,
	"rewards/rejected": -6.0542144775390625,
	"step": 110
	},
	{
	"epoch": 0.2458249832999332,
	"grad_norm": 57.71552130623015,
	"learning_rate": 9.367041003085648e-07,
	"logits/chosen": -1.0269968509674072,
	"logits/rejected": -0.9661616086959839,
	"logps/chosen": -0.5121074914932251,
	"logps/rejected": -0.578630268573761,
	"loss": 2.5559,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -5.121075630187988,
	"rewards/margins": 0.6652273535728455,
	"rewards/rejected": -5.7863030433654785,
	"step": 115
	},
	{
	"epoch": 0.2565130260521042,
	"grad_norm": 64.09249680400335,
	"learning_rate": 9.272941683504808e-07,
	"logits/chosen": -0.998211681842804,
	"logits/rejected": -0.9050429463386536,
	"logps/chosen": -0.5254617929458618,
	"logps/rejected": -0.7217136025428772,
	"loss": 2.4049,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -5.2546186447143555,
	"rewards/margins": 1.9625177383422852,
	"rewards/rejected": -7.217136383056641,
	"step": 120
	},
	{
	"epoch": 0.26720106880427524,
	"grad_norm": 54.10213565718134,
	"learning_rate": 9.172866268606513e-07,
	"logits/chosen": -1.06635320186615,
	"logits/rejected": -1.0216171741485596,
	"logps/chosen": -0.5953704714775085,
	"logps/rejected": -0.6902128458023071,
	"loss": 2.3251,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -5.953704833984375,
	"rewards/margins": 0.9484230875968933,
	"rewards/rejected": -6.902127742767334,
	"step": 125
	},
	{
	"epoch": 0.27788911155644624,
	"grad_norm": 87.63946362541415,
	"learning_rate": 9.066954722907638e-07,
	"logits/chosen": -1.0916361808776855,
	"logits/rejected": -1.085458517074585,
	"logps/chosen": -0.588487446308136,
	"logps/rejected": -0.8501450419425964,
	"loss": 2.1826,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -5.884873867034912,
	"rewards/margins": 2.6165759563446045,
	"rewards/rejected": -8.501450538635254,
	"step": 130
	},
	{
	"epoch": 0.28857715430861725,
	"grad_norm": 66.78226800807278,
	"learning_rate": 8.955355173281707e-07,
	"logits/chosen": -1.067176342010498,
	"logits/rejected": -1.0195186138153076,
	"logps/chosen": -0.6727192401885986,
	"logps/rejected": -0.8245170712471008,
	"loss": 2.1861,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -6.7271928787231445,
	"rewards/margins": 1.5179781913757324,
	"rewards/rejected": -8.245170593261719,
	"step": 135
	},
	{
	"epoch": 0.29926519706078825,
	"grad_norm": 77.9071558548112,
	"learning_rate": 8.838223701790055e-07,
	"logits/chosen": -1.1569595336914062,
	"logits/rejected": -1.1336597204208374,
	"logps/chosen": -0.785293698310852,
	"logps/rejected": -0.9337224960327148,
	"loss": 2.1564,
	"rewards/accuracies": 0.71875,
	"rewards/chosen": -7.852936744689941,
	"rewards/margins": 1.4842884540557861,
	"rewards/rejected": -9.337224960327148,
	"step": 140
	},
	{
	"epoch": 0.30995323981295925,
	"grad_norm": 109.08809267522398,
	"learning_rate": 8.71572412738697e-07,
	"logits/chosen": -1.0582095384597778,
	"logits/rejected": -1.03193998336792,
	"logps/chosen": -0.827114462852478,
	"logps/rejected": -1.0477594137191772,
	"loss": 2.0118,
	"rewards/accuracies": 0.737500011920929,
	"rewards/chosen": -8.27114486694336,
	"rewards/margins": 2.206449508666992,
	"rewards/rejected": -10.477594375610352,
	"step": 145
	},
	{
	"epoch": 0.32064128256513025,
	"grad_norm": 72.02715367718524,
	"learning_rate": 8.588027776804058e-07,
	"logits/chosen": -1.0821495056152344,
	"logits/rejected": -1.0622715950012207,
	"logps/chosen": -0.9100320935249329,
	"logps/rejected": -1.1453698873519897,
	"loss": 2.0273,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": -9.100319862365723,
	"rewards/margins": 2.353379011154175,
	"rewards/rejected": -11.453699111938477,
	"step": 150
	},
	{
	"epoch": 0.33132932531730125,
	"grad_norm": 70.83089987980944,
	"learning_rate": 8.455313244934324e-07,
	"logits/chosen": -1.092185139656067,
	"logits/rejected": -1.070657730102539,
	"logps/chosen": -0.9754332304000854,
	"logps/rejected": -1.2774028778076172,
	"loss": 2.0633,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -9.754331588745117,
	"rewards/margins": 3.0196967124938965,
	"rewards/rejected": -12.774029731750488,
	"step": 155
	},
	{
	"epoch": 0.3420173680694723,
	"grad_norm": 89.85353120616982,
	"learning_rate": 8.317766145051057e-07,
	"logits/chosen": -1.107634425163269,
	"logits/rejected": -1.0893046855926514,
	"logps/chosen": -1.0988253355026245,
	"logps/rejected": -1.4862325191497803,
	"loss": 2.0523,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -10.988253593444824,
	"rewards/margins": 3.8740711212158203,
	"rewards/rejected": -14.862322807312012,
	"step": 160
	},
	{
	"epoch": 0.3527054108216433,
	"grad_norm": 60.873789300571126,
	"learning_rate": 8.175578849210894e-07,
	"logits/chosen": -1.1269104480743408,
	"logits/rejected": -1.1010853052139282,
	"logps/chosen": -1.0796130895614624,
	"logps/rejected": -1.4461021423339844,
	"loss": 1.8838,
	"rewards/accuracies": 0.7562500238418579,
	"rewards/chosen": -10.796131134033203,
	"rewards/margins": 3.6648898124694824,
	"rewards/rejected": -14.461019515991211,
	"step": 165
	},
	{
	"epoch": 0.3633934535738143,
	"grad_norm": 77.23211870911884,
	"learning_rate": 8.028950219204099e-07,
	"logits/chosen": -1.1438876390457153,
	"logits/rejected": -1.1206210851669312,
	"logps/chosen": -1.0647801160812378,
	"logps/rejected": -1.4476187229156494,
	"loss": 1.8488,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -10.647802352905273,
	"rewards/margins": 3.828385591506958,
	"rewards/rejected": -14.476186752319336,
	"step": 170
	},
	{
	"epoch": 0.3740814963259853,
	"grad_norm": 97.35090322598491,
	"learning_rate": 7.878085328428368e-07,
	"logits/chosen": -1.157462239265442,
	"logits/rejected": -1.1056431531906128,
	"logps/chosen": -1.1336826086044312,
	"logps/rejected": -1.3956897258758545,
	"loss": 1.7083,
	"rewards/accuracies": 0.762499988079071,
	"rewards/chosen": -11.336827278137207,
	"rewards/margins": 2.620070695877075,
	"rewards/rejected": -13.956896781921387,
	"step": 175
	},
	{
	"epoch": 0.3847695390781563,
	"grad_norm": 70.60533034676232,
	"learning_rate": 7.723195175075135e-07,
	"logits/chosen": -1.1124871969223022,
	"logits/rejected": -1.0904567241668701,
	"logps/chosen": -1.0966602563858032,
	"logps/rejected": -1.4549492597579956,
	"loss": 1.6569,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": -10.966601371765137,
	"rewards/margins": 3.5828919410705566,
	"rewards/rejected": -14.549494743347168,
	"step": 180
	},
	{
	"epoch": 0.3954575818303273,
	"grad_norm": 84.92007593834019,
	"learning_rate": 7.564496387029531e-07,
	"logits/chosen": -1.1567202806472778,
	"logits/rejected": -1.0984870195388794,
	"logps/chosen": -1.1207507848739624,
	"logps/rejected": -1.5250511169433594,
	"loss": 1.6817,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -11.20750904083252,
	"rewards/margins": 4.043001651763916,
	"rewards/rejected": -15.250509262084961,
	"step": 185
	},
	{
	"epoch": 0.4061456245824983,
	"grad_norm": 82.82215861540205,
	"learning_rate": 7.402210918896689e-07,
	"logits/chosen": -1.1628299951553345,
	"logits/rejected": -1.170377492904663,
	"logps/chosen": -1.235033392906189,
	"logps/rejected": -1.7156970500946045,
	"loss": 1.5387,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -12.350334167480469,
	"rewards/margins": 4.806637763977051,
	"rewards/rejected": -17.156970977783203,
	"step": 190
	},
	{
	"epoch": 0.4168336673346693,
	"grad_norm": 70.50682719627838,
	"learning_rate": 7.236565741578162e-07,
	"logits/chosen": -1.1164333820343018,
	"logits/rejected": -1.0961400270462036,
	"logps/chosen": -1.2593460083007812,
	"logps/rejected": -1.6189504861831665,
	"loss": 1.6047,
	"rewards/accuracies": 0.8062499761581421,
	"rewards/chosen": -12.593461036682129,
	"rewards/margins": 3.5960440635681152,
	"rewards/rejected": -16.189504623413086,
	"step": 195
	},
	{
	"epoch": 0.42752171008684037,
	"grad_norm": 97.28442308133118,
	"learning_rate": 7.067792524832603e-07,
	"logits/chosen": -1.1036303043365479,
	"logits/rejected": -1.0911258459091187,
	"logps/chosen": -1.324706792831421,
	"logps/rejected": -1.7423721551895142,
	"loss": 1.5626,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -13.247068405151367,
	"rewards/margins": 4.176652908325195,
	"rewards/rejected": -17.42371940612793,
	"step": 200
	},
	{
	"epoch": 0.43820975283901137,
	"grad_norm": 85.54406338680343,
	"learning_rate": 6.896127313264642e-07,
	"logits/chosen": -1.154517650604248,
	"logits/rejected": -1.101162314414978,
	"logps/chosen": -1.40175461769104,
	"logps/rejected": -1.8435806035995483,
	"loss": 1.7321,
	"rewards/accuracies": 0.7875000238418579,
	"rewards/chosen": -14.017547607421875,
	"rewards/margins": 4.418261528015137,
	"rewards/rejected": -18.435808181762695,
	"step": 205
	},
	{
	"epoch": 0.44889779559118237,
	"grad_norm": 103.7420052940262,
	"learning_rate": 6.721810196195174e-07,
	"logits/chosen": -1.1762125492095947,
	"logits/rejected": -1.1645376682281494,
	"logps/chosen": -1.4059008359909058,
	"logps/rejected": -1.826703429222107,
	"loss": 1.6602,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -14.05901050567627,
	"rewards/margins": 4.208024024963379,
	"rewards/rejected": -18.267032623291016,
	"step": 210
	},
	{
	"epoch": 0.45958583834335337,
	"grad_norm": 115.44925865991426,
	"learning_rate": 6.545084971874736e-07,
	"logits/chosen": -1.1282669305801392,
	"logits/rejected": -1.1098558902740479,
	"logps/chosen": -1.4084670543670654,
	"logps/rejected": -1.8751609325408936,
	"loss": 1.5529,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": -14.084672927856445,
	"rewards/margins": 4.666939735412598,
	"rewards/rejected": -18.751609802246094,
	"step": 215
	},
	{
	"epoch": 0.47027388109552437,
	"grad_norm": 94.83729222797992,
	"learning_rate": 6.3661988065096e-07,
	"logits/chosen": -1.191811442375183,
	"logits/rejected": -1.1707171201705933,
	"logps/chosen": -1.4761518239974976,
	"logps/rejected": -1.9565551280975342,
	"loss": 1.5052,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -14.761518478393555,
	"rewards/margins": 4.804032325744629,
	"rewards/rejected": -19.5655517578125,
	"step": 220
	},
	{
	"epoch": 0.48096192384769537,
	"grad_norm": 69.08600083744463,
	"learning_rate": 6.185401888577487e-07,
	"logits/chosen": -1.171081304550171,
	"logits/rejected": -1.1351138353347778,
	"logps/chosen": -1.4978052377700806,
	"logps/rejected": -1.93888258934021,
	"loss": 1.4742,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -14.978052139282227,
	"rewards/margins": 4.410772800445557,
	"rewards/rejected": -19.388826370239258,
	"step": 225
	},
	{
	"epoch": 0.4916499665998664,
	"grad_norm": 72.13177261697588,
	"learning_rate": 6.002947078916364e-07,
	"logits/chosen": -1.245228886604309,
	"logits/rejected": -1.1923692226409912,
	"logps/chosen": -1.4302809238433838,
	"logps/rejected": -1.8505923748016357,
	"loss": 1.4317,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": -14.302810668945312,
	"rewards/margins": 4.203113555908203,
	"rewards/rejected": -18.505924224853516,
	"step": 230
	},
	{
	"epoch": 0.5023380093520374,
	"grad_norm": 78.71892029667256,
	"learning_rate": 5.819089557075688e-07,
	"logits/chosen": -1.2821385860443115,
	"logits/rejected": -1.2519080638885498,
	"logps/chosen": -1.4527919292449951,
	"logps/rejected": -1.9279251098632812,
	"loss": 1.4134,
	"rewards/accuracies": 0.793749988079071,
	"rewards/chosen": -14.527920722961426,
	"rewards/margins": 4.751331329345703,
	"rewards/rejected": -19.279251098632812,
	"step": 235
	},
	{
	"epoch": 0.5130260521042084,
	"grad_norm": 87.04649782214463,
	"learning_rate": 5.634086464424742e-07,
	"logits/chosen": -1.245603322982788,
	"logits/rejected": -1.247234582901001,
	"logps/chosen": -1.3713314533233643,
	"logps/rejected": -1.8449758291244507,
	"loss": 1.4346,
	"rewards/accuracies": 0.8062499761581421,
	"rewards/chosen": -13.7133150100708,
	"rewards/margins": 4.736443042755127,
	"rewards/rejected": -18.449758529663086,
	"step": 240
	},
	{
	"epoch": 0.5237140948563794,
	"grad_norm": 120.6181547874012,
	"learning_rate": 5.448196544517167e-07,
	"logits/chosen": -1.3496326208114624,
	"logits/rejected": -1.2907614707946777,
	"logps/chosen": -1.440033197402954,
	"logps/rejected": -2.0060055255889893,
	"loss": 1.4071,
	"rewards/accuracies": 0.8687499761581421,
	"rewards/chosen": -14.4003324508667,
	"rewards/margins": 5.659722328186035,
	"rewards/rejected": -20.060054779052734,
	"step": 245
	},
	{
	"epoch": 0.5344021376085505,
	"grad_norm": 127.16635817286267,
	"learning_rate": 5.26167978121472e-07,
	"logits/chosen": -1.2846823930740356,
	"logits/rejected": -1.2672080993652344,
	"logps/chosen": -1.5308005809783936,
	"logps/rejected": -2.1003577709198,
	"loss": 1.3208,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -15.308004379272461,
	"rewards/margins": 5.695572853088379,
	"rewards/rejected": -21.003578186035156,
	"step": 250
	},
	{
	"epoch": 0.5450901803607214,
	"grad_norm": 306.6500775815346,
	"learning_rate": 5.074797035076318e-07,
	"logits/chosen": -1.3492941856384277,
	"logits/rejected": -1.3214812278747559,
	"logps/chosen": -1.6527442932128906,
	"logps/rejected": -2.1238582134246826,
	"loss": 1.4957,
	"rewards/accuracies": 0.8062499761581421,
	"rewards/chosen": -16.527442932128906,
	"rewards/margins": 4.711141586303711,
	"rewards/rejected": -21.238582611083984,
	"step": 255
	},
	{
	"epoch": 0.5557782231128925,
	"grad_norm": 89.88872208917493,
	"learning_rate": 4.887809678520975e-07,
	"logits/chosen": -1.3080346584320068,
	"logits/rejected": -1.2766286134719849,
	"logps/chosen": -1.5681380033493042,
	"logps/rejected": -2.0582587718963623,
	"loss": 1.4255,
	"rewards/accuracies": 0.8374999761581421,
	"rewards/chosen": -15.681379318237305,
	"rewards/margins": 4.901208877563477,
	"rewards/rejected": -20.58258819580078,
	"step": 260
	},
	{
	"epoch": 0.5664662658650634,
	"grad_norm": 86.94866969630735,
	"learning_rate": 4.700979230274829e-07,
	"logits/chosen": -1.2753899097442627,
	"logits/rejected": -1.2558867931365967,
	"logps/chosen": -1.668534278869629,
	"logps/rejected": -2.181380271911621,
	"loss": 1.4204,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": -16.68534278869629,
	"rewards/margins": 5.1284589767456055,
	"rewards/rejected": -21.813800811767578,
	"step": 265
	},
	{
	"epoch": 0.5771543086172345,
	"grad_norm": 144.84472573271995,
	"learning_rate": 4.514566989613559e-07,
	"logits/chosen": -1.2718496322631836,
	"logits/rejected": -1.2400305271148682,
	"logps/chosen": -1.4821763038635254,
	"logps/rejected": -2.010958194732666,
	"loss": 1.3379,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -14.82176399230957,
	"rewards/margins": 5.287820816040039,
	"rewards/rejected": -20.109582901000977,
	"step": 270
	},
	{
	"epoch": 0.5878423513694054,
	"grad_norm": 73.43309027045284,
	"learning_rate": 4.328833670911724e-07,
	"logits/chosen": -1.2501633167266846,
	"logits/rejected": -1.2101550102233887,
	"logps/chosen": -1.4654467105865479,
	"logps/rejected": -1.9191405773162842,
	"loss": 1.4963,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -14.654467582702637,
	"rewards/margins": 4.536937713623047,
	"rewards/rejected": -19.191404342651367,
	"step": 275
	},
	{
	"epoch": 0.5985303941215765,
	"grad_norm": 118.57888241178858,
	"learning_rate": 4.144039039010124e-07,
	"logits/chosen": -1.3355966806411743,
	"logits/rejected": -1.3093878030776978,
	"logps/chosen": -1.5047754049301147,
	"logps/rejected": -2.050473213195801,
	"loss": 1.3782,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": -15.047755241394043,
	"rewards/margins": 5.456977844238281,
	"rewards/rejected": -20.50473403930664,
	"step": 280
	},
	{
	"epoch": 0.6092184368737475,
	"grad_norm": 100.79377019073691,
	"learning_rate": 3.960441545911204e-07,
	"logits/chosen": -1.307716965675354,
	"logits/rejected": -1.2712657451629639,
	"logps/chosen": -1.5421284437179565,
	"logps/rejected": -2.111297845840454,
	"loss": 1.1768,
	"rewards/accuracies": 0.887499988079071,
	"rewards/chosen": -15.421285629272461,
	"rewards/margins": 5.6916913986206055,
	"rewards/rejected": -21.112977981567383,
	"step": 285
	},
	{
	"epoch": 0.6199064796259185,
	"grad_norm": 102.72150408454053,
	"learning_rate": 3.778297969310529e-07,
	"logits/chosen": -1.333150863647461,
	"logits/rejected": -1.2860305309295654,
	"logps/chosen": -1.5572869777679443,
	"logps/rejected": -2.028750419616699,
	"loss": 1.3993,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": -15.572871208190918,
	"rewards/margins": 4.714633464813232,
	"rewards/rejected": -20.287504196166992,
	"step": 290
	},
	{
	"epoch": 0.6305945223780896,
	"grad_norm": 96.32710532692002,
	"learning_rate": 3.5978630534699865e-07,
	"logits/chosen": -1.2499698400497437,
	"logits/rejected": -1.2331962585449219,
	"logps/chosen": -1.5715104341506958,
	"logps/rejected": -2.08168625831604,
	"loss": 1.2236,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": -15.715105056762695,
	"rewards/margins": 5.101758003234863,
	"rewards/rejected": -20.81686019897461,
	"step": 295
	},
	{
	"epoch": 0.6412825651302605,
	"grad_norm": 86.57462147935358,
	"learning_rate": 3.4193891529348795e-07,
	"logits/chosen": -1.1837140321731567,
	"logits/rejected": -1.156435251235962,
	"logps/chosen": -1.662043809890747,
	"logps/rejected": -2.1141371726989746,
	"loss": 1.6291,
	"rewards/accuracies": 0.768750011920929,
	"rewards/chosen": -16.620437622070312,
	"rewards/margins": 4.52093505859375,
	"rewards/rejected": -21.141372680664062,
	"step": 300
	},
	{
	"epoch": 0.6519706078824316,
	"grad_norm": 80.28274687652879,
	"learning_rate": 3.243125879593286e-07,
	"logits/chosen": -1.2831798791885376,
	"logits/rejected": -1.2358052730560303,
	"logps/chosen": -1.636275053024292,
	"logps/rejected": -2.093479871749878,
	"loss": 1.3641,
	"rewards/accuracies": 0.800000011920929,
	"rewards/chosen": -16.362751007080078,
	"rewards/margins": 4.572048664093018,
	"rewards/rejected": -20.93480110168457,
	"step": 305
	},
	{
	"epoch": 0.6626586506346025,
	"grad_norm": 96.95154393343023,
	"learning_rate": 3.069319753571269e-07,
	"logits/chosen": -1.3118140697479248,
	"logits/rejected": -1.2903715372085571,
	"logps/chosen": -1.6529546976089478,
	"logps/rejected": -2.148355007171631,
	"loss": 1.4766,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -16.529544830322266,
	"rewards/margins": 4.954004764556885,
	"rewards/rejected": -21.483551025390625,
	"step": 310
	},
	{
	"epoch": 0.6733466933867736,
	"grad_norm": 91.51736686071692,
	"learning_rate": 2.898213858452173e-07,
	"logits/chosen": -1.3063311576843262,
	"logits/rejected": -1.2485519647598267,
	"logps/chosen": -1.6333932876586914,
	"logps/rejected": -2.1507859230041504,
	"loss": 1.3963,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -16.333934783935547,
	"rewards/margins": 5.173925876617432,
	"rewards/rejected": -21.507858276367188,
	"step": 315
	},
	{
	"epoch": 0.6840347361389446,
	"grad_norm": 97.07913178610919,
	"learning_rate": 2.730047501302266e-07,
	"logits/chosen": -1.2934232950210571,
	"logits/rejected": -1.2893450260162354,
	"logps/chosen": -1.6584867238998413,
	"logps/rejected": -2.2650082111358643,
	"loss": 1.3115,
	"rewards/accuracies": 0.8687499761581421,
	"rewards/chosen": -16.584867477416992,
	"rewards/margins": 6.065215110778809,
	"rewards/rejected": -22.650081634521484,
	"step": 320
	},
	{
	"epoch": 0.6947227788911156,
	"grad_norm": 65.85264295945626,
	"learning_rate": 2.5650558779781635e-07,
	"logits/chosen": -1.326992392539978,
	"logits/rejected": -1.2749508619308472,
	"logps/chosen": -1.7087081670761108,
	"logps/rejected": -2.377331256866455,
	"loss": 1.307,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -17.087081909179688,
	"rewards/margins": 6.6862287521362305,
	"rewards/rejected": -23.773311614990234,
	"step": 325
	},
	{
	"epoch": 0.7054108216432866,
	"grad_norm": 71.08108071468983,
	"learning_rate": 2.403469744184154e-07,
	"logits/chosen": -1.2321017980575562,
	"logits/rejected": -1.1879392862319946,
	"logps/chosen": -1.6843183040618896,
	"logps/rejected": -2.170222759246826,
	"loss": 1.3597,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -16.843183517456055,
	"rewards/margins": 4.859041690826416,
	"rewards/rejected": -21.702226638793945,
	"step": 330
	},
	{
	"epoch": 0.7160988643954576,
	"grad_norm": 85.80290375242986,
	"learning_rate": 2.2455150927394878e-07,
	"logits/chosen": -1.2848079204559326,
	"logits/rejected": -1.2643808126449585,
	"logps/chosen": -1.6716737747192383,
	"logps/rejected": -2.2179079055786133,
	"loss": 1.2118,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": -16.716739654541016,
	"rewards/margins": 5.46234130859375,
	"rewards/rejected": -22.179079055786133,
	"step": 335
	},
	{
	"epoch": 0.7267869071476286,
	"grad_norm": 106.87884023285183,
	"learning_rate": 2.0914128375069722e-07,
	"logits/chosen": -1.3009603023529053,
	"logits/rejected": -1.2630964517593384,
	"logps/chosen": -1.5984188318252563,
	"logps/rejected": -2.146073579788208,
	"loss": 1.3799,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -15.984187126159668,
	"rewards/margins": 5.476546287536621,
	"rewards/rejected": -21.460735321044922,
	"step": 340
	},
	{
	"epoch": 0.7374749498997996,
	"grad_norm": 81.57738599240237,
	"learning_rate": 1.9413785044249676e-07,
	"logits/chosen": -1.3159044981002808,
	"logits/rejected": -1.2908227443695068,
	"logps/chosen": -1.6741054058074951,
	"logps/rejected": -2.3151228427886963,
	"loss": 1.4007,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": -16.741056442260742,
	"rewards/margins": 6.4101715087890625,
	"rewards/rejected": -23.151227951049805,
	"step": 345
	},
	{
	"epoch": 0.7481629926519706,
	"grad_norm": 137.46788470613842,
	"learning_rate": 1.7956219300748792e-07,
	"logits/chosen": -1.3111270666122437,
	"logits/rejected": -1.3133299350738525,
	"logps/chosen": -1.55172860622406,
	"logps/rejected": -2.0665595531463623,
	"loss": 1.3291,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": -15.51728630065918,
	"rewards/margins": 5.148309707641602,
	"rewards/rejected": -20.66559410095215,
	"step": 350
	},
	{
	"epoch": 0.7588510354041417,
	"grad_norm": 73.0747912837978,
	"learning_rate": 1.6543469682057104e-07,
	"logits/chosen": -1.2305195331573486,
	"logits/rejected": -1.2432688474655151,
	"logps/chosen": -1.5626884698867798,
	"logps/rejected": -2.1072001457214355,
	"loss": 1.159,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -15.626884460449219,
	"rewards/margins": 5.445114612579346,
	"rewards/rejected": -21.071998596191406,
	"step": 355
	},
	{
	"epoch": 0.7695390781563126,
	"grad_norm": 82.19549372560476,
	"learning_rate": 1.5177512046261666e-07,
	"logits/chosen": -1.2950479984283447,
	"logits/rejected": -1.2918254137039185,
	"logps/chosen": -1.5626431703567505,
	"logps/rejected": -2.192157030105591,
	"loss": 1.3653,
	"rewards/accuracies": 0.8187500238418579,
	"rewards/chosen": -15.626432418823242,
	"rewards/margins": 6.295140266418457,
	"rewards/rejected": -21.921573638916016,
	"step": 360
	},
	{
	"epoch": 0.7802271209084837,
	"grad_norm": 82.26556152038766,
	"learning_rate": 1.3860256808630427e-07,
	"logits/chosen": -1.3408092260360718,
	"logits/rejected": -1.2676836252212524,
	"logps/chosen": -1.621119737625122,
	"logps/rejected": -2.2568397521972656,
	"loss": 1.2936,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -16.211196899414062,
	"rewards/margins": 6.35720157623291,
	"rewards/rejected": -22.56839942932129,
	"step": 365
	},
	{
	"epoch": 0.7909151636606546,
	"grad_norm": 97.91298047906564,
	"learning_rate": 1.2593546269723647e-07,
	"logits/chosen": -1.2643686532974243,
	"logits/rejected": -1.2498524188995361,
	"logps/chosen": -1.578148603439331,
	"logps/rejected": -2.067432403564453,
	"loss": 1.3095,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -15.781486511230469,
	"rewards/margins": 4.892836093902588,
	"rewards/rejected": -20.6743221282959,
	"step": 370
	},
	{
	"epoch": 0.8016032064128257,
	"grad_norm": 76.40375667456833,
	"learning_rate": 1.1379152038770029e-07,
	"logits/chosen": -1.2894870042800903,
	"logits/rejected": -1.2930238246917725,
	"logps/chosen": -1.7195911407470703,
	"logps/rejected": -2.293926954269409,
	"loss": 1.2661,
	"rewards/accuracies": 0.8374999761581421,
	"rewards/chosen": -17.195911407470703,
	"rewards/margins": 5.7433576583862305,
	"rewards/rejected": -22.939268112182617,
	"step": 375
	},
	{
	"epoch": 0.8122912491649966,
	"grad_norm": 128.55014662844385,
	"learning_rate": 1.0218772555910954e-07,
	"logits/chosen": -1.3014891147613525,
	"logits/rejected": -1.2802826166152954,
	"logps/chosen": -1.5879671573638916,
	"logps/rejected": -2.113447666168213,
	"loss": 1.4202,
	"rewards/accuracies": 0.8687499761581421,
	"rewards/chosen": -15.879669189453125,
	"rewards/margins": 5.25480842590332,
	"rewards/rejected": -21.134477615356445,
	"step": 380
	},
	{
	"epoch": 0.8229792919171677,
	"grad_norm": 77.57546829061782,
	"learning_rate": 9.114030716778432e-08,
	"logits/chosen": -1.310450792312622,
	"logits/rejected": -1.2848607301712036,
	"logps/chosen": -1.6349436044692993,
	"logps/rejected": -2.3224172592163086,
	"loss": 1.1354,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -16.349435806274414,
	"rewards/margins": 6.8747382164001465,
	"rewards/rejected": -23.224172592163086,
	"step": 385
	},
	{
	"epoch": 0.8336673346693386,
	"grad_norm": 75.76498018298135,
	"learning_rate": 8.066471602728803e-08,
	"logits/chosen": -1.3069926500320435,
	"logits/rejected": -1.289568305015564,
	"logps/chosen": -1.699163794517517,
	"logps/rejected": -2.2884535789489746,
	"loss": 1.3105,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -16.99163818359375,
	"rewards/margins": 5.8928985595703125,
	"rewards/rejected": -22.884536743164062,
	"step": 390
	},
	{
	"epoch": 0.8443553774215097,
	"grad_norm": 74.3951066976334,
	"learning_rate": 7.077560319906694e-08,
	"logits/chosen": -1.3087493181228638,
	"logits/rejected": -1.2855933904647827,
	"logps/chosen": -1.6192277669906616,
	"logps/rejected": -2.1721370220184326,
	"loss": 1.2688,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -16.192277908325195,
	"rewards/margins": 5.5290937423706055,
	"rewards/rejected": -21.721370697021484,
	"step": 395
	},
	{
	"epoch": 0.8550434201736807,
	"grad_norm": 63.10639530225684,
	"learning_rate": 6.148679950161672e-08,
	"logits/chosen": -1.3169952630996704,
	"logits/rejected": -1.2985506057739258,
	"logps/chosen": -1.6467092037200928,
	"logps/rejected": -2.164301633834839,
	"loss": 1.2114,
	"rewards/accuracies": 0.8187500238418579,
	"rewards/chosen": -16.467090606689453,
	"rewards/margins": 5.17592716217041,
	"rewards/rejected": -21.643016815185547,
	"step": 400
	},
	{
	"epoch": 0.8550434201736807,
	"eval_logits/chosen": -1.4850261211395264,
	"eval_logits/rejected": -1.493988037109375,
	"eval_logps/chosen": -1.664995551109314,
	"eval_logps/rejected": -2.2206830978393555,
	"eval_loss": 1.2490928173065186,
	"eval_rewards/accuracies": 0.8414633870124817,
	"eval_rewards/chosen": -16.64995574951172,
	"eval_rewards/margins": 5.556875228881836,
	"eval_rewards/rejected": -22.206830978393555,
	"eval_runtime": 95.4555,
	"eval_samples_per_second": 20.544,
	"eval_steps_per_second": 1.289,
	"step": 400
	},
	{
	"epoch": 0.8657314629258517,
	"grad_norm": 102.60713365281785,
	"learning_rate": 5.2811296166831666e-08,
	"logits/chosen": -1.267327904701233,
	"logits/rejected": -1.2850300073623657,
	"logps/chosen": -1.7324796915054321,
	"logps/rejected": -2.2837843894958496,
	"loss": 1.2554,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": -17.32479476928711,
	"rewards/margins": 5.513047218322754,
	"rewards/rejected": -22.83784294128418,
	"step": 405
	},
	{
	"epoch": 0.8764195056780227,
	"grad_norm": 159.07261192162792,
	"learning_rate": 4.4761226670592066e-08,
	"logits/chosen": -1.2908105850219727,
	"logits/rejected": -1.2769014835357666,
	"logps/chosen": -1.6668212413787842,
	"logps/rejected": -2.2075092792510986,
	"loss": 1.3804,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -16.668210983276367,
	"rewards/margins": 5.406882286071777,
	"rewards/rejected": -22.075092315673828,
	"step": 410
	},
	{
	"epoch": 0.8871075484301937,
	"grad_norm": 76.85488373819665,
	"learning_rate": 3.734784976300165e-08,
	"logits/chosen": -1.2890928983688354,
	"logits/rejected": -1.2320820093154907,
	"logps/chosen": -1.5973718166351318,
	"logps/rejected": -2.237947940826416,
	"loss": 1.4163,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": -15.973716735839844,
	"rewards/margins": 6.40576171875,
	"rewards/rejected": -22.37947654724121,
	"step": 415
	},
	{
	"epoch": 0.8977955911823647,
	"grad_norm": 92.42320617715352,
	"learning_rate": 3.058153372200695e-08,
	"logits/chosen": -1.3191107511520386,
	"logits/rejected": -1.2656759023666382,
	"logps/chosen": -1.5610657930374146,
	"logps/rejected": -2.152204990386963,
	"loss": 1.2658,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -15.610658645629883,
	"rewards/margins": 5.911390781402588,
	"rewards/rejected": -21.522048950195312,
	"step": 420
	},
	{
	"epoch": 0.9084836339345357,
	"grad_norm": 102.84147971960329,
	"learning_rate": 2.4471741852423233e-08,
	"logits/chosen": -1.3186463117599487,
	"logits/rejected": -1.3073859214782715,
	"logps/chosen": -1.736202597618103,
	"logps/rejected": -2.2703185081481934,
	"loss": 1.4248,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -17.362024307250977,
	"rewards/margins": 5.34116268157959,
	"rewards/rejected": -22.70318603515625,
	"step": 425
	},
	{
	"epoch": 0.9191716766867067,
	"grad_norm": 108.04777919102577,
	"learning_rate": 1.9027019250647036e-08,
	"logits/chosen": -1.2982522249221802,
	"logits/rejected": -1.2813619375228882,
	"logps/chosen": -1.7414271831512451,
	"logps/rejected": -2.3307671546936035,
	"loss": 1.2802,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -17.41427230834961,
	"rewards/margins": 5.893403053283691,
	"rewards/rejected": -23.30767250061035,
	"step": 430
	},
	{
	"epoch": 0.9298597194388778,
	"grad_norm": 85.6236171514638,
	"learning_rate": 1.4254980853566246e-08,
	"logits/chosen": -1.262458324432373,
	"logits/rejected": -1.2183687686920166,
	"logps/chosen": -1.5962882041931152,
	"logps/rejected": -2.182863712310791,
	"loss": 1.222,
	"rewards/accuracies": 0.8687499761581421,
	"rewards/chosen": -15.962882995605469,
	"rewards/margins": 5.865753650665283,
	"rewards/rejected": -21.828638076782227,
	"step": 435
	},
	{
	"epoch": 0.9405477621910487,
	"grad_norm": 88.93173263482028,
	"learning_rate": 1.016230078838226e-08,
	"logits/chosen": -1.2786242961883545,
	"logits/rejected": -1.2167497873306274,
	"logps/chosen": -1.7170331478118896,
	"logps/rejected": -2.2510578632354736,
	"loss": 1.2694,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -17.170331954956055,
	"rewards/margins": 5.340245723724365,
	"rewards/rejected": -22.510578155517578,
	"step": 440
	},
	{
	"epoch": 0.9512358049432198,
	"grad_norm": 80.06878550984797,
	"learning_rate": 6.754703038239329e-09,
	"logits/chosen": -1.229853868484497,
	"logits/rejected": -1.2106773853302002,
	"logps/chosen": -1.688746690750122,
	"logps/rejected": -2.332123279571533,
	"loss": 1.1496,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -16.88746452331543,
	"rewards/margins": 6.433764457702637,
	"rewards/rejected": -23.321231842041016,
	"step": 445
	},
	{
	"epoch": 0.9619238476953907,
	"grad_norm": 87.87225651237878,
	"learning_rate": 4.036953436716895e-09,
	"logits/chosen": -1.3426064252853394,
	"logits/rejected": -1.3202402591705322,
	"logps/chosen": -1.6350570917129517,
	"logps/rejected": -2.1853957176208496,
	"loss": 1.3199,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": -16.350570678710938,
	"rewards/margins": 5.503388404846191,
	"rewards/rejected": -21.853958129882812,
	"step": 450
	},
	{
	"epoch": 0.9726118904475618,
	"grad_norm": 97.584405727653,
	"learning_rate": 2.0128530023804656e-09,
	"logits/chosen": -1.3094408512115479,
	"logits/rejected": -1.2717828750610352,
	"logps/chosen": -1.6554279327392578,
	"logps/rejected": -2.304875373840332,
	"loss": 1.0871,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/chosen": -16.554279327392578,
	"rewards/margins": 6.494471549987793,
	"rewards/rejected": -23.048751831054688,
	"step": 455
	},
	{
	"epoch": 0.9832999331997327,
	"grad_norm": 94.99231466494224,
	"learning_rate": 6.852326227130833e-10,
	"logits/chosen": -1.3035484552383423,
	"logits/rejected": -1.2918545007705688,
	"logps/chosen": -1.7271077632904053,
	"logps/rejected": -2.327470541000366,
	"loss": 1.2419,
	"rewards/accuracies": 0.8374999761581421,
	"rewards/chosen": -17.27107810974121,
	"rewards/margins": 6.003628730773926,
	"rewards/rejected": -23.27470588684082,
	"step": 460
	},
	{
	"epoch": 0.9939879759519038,
	"grad_norm": 86.3036149732278,
	"learning_rate": 5.594909486328348e-11,
	"logits/chosen": -1.286787986755371,
	"logits/rejected": -1.2908694744110107,
	"logps/chosen": -1.7435226440429688,
	"logps/rejected": -2.3610475063323975,
	"loss": 1.3748,
	"rewards/accuracies": 0.8187500238418579,
	"rewards/chosen": -17.435226440429688,
	"rewards/margins": 6.175250053405762,
	"rewards/rejected": -23.610477447509766,
	"step": 465
	},
	{
	"epoch": 0.9982631930527722,
	"step": 467,
	"total_flos": 0.0,
	"train_loss": 1.8360214427400707,
	"train_runtime": 11486.9698,
	"train_samples_per_second": 5.213,
	"train_steps_per_second": 0.041
	}
	],
	"logging_steps": 5,
	"max_steps": 467,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 1000000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}