{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 100,
  "global_step": 3873,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "learning_rate": 1.2886597938144328e-09,
      "logits/chosen": -4.2921271324157715,
      "logits/rejected": -3.812117338180542,
      "logps/chosen": -664.6867065429688,
      "logps/rejected": -226.7833709716797,
      "loss": 0.6931,
      "rewards/accuracies": 0.0,
      "rewards/chosen": 0.0,
      "rewards/margins": 0.0,
      "rewards/rejected": 0.0,
      "step": 1
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.2886597938144328e-08,
      "logits/chosen": -4.003667831420898,
      "logits/rejected": -4.013306140899658,
      "logps/chosen": -559.2938232421875,
      "logps/rejected": -452.70074462890625,
      "loss": 0.6948,
      "rewards/accuracies": 0.2638888955116272,
      "rewards/chosen": -0.007192640565335751,
      "rewards/margins": -0.006332792341709137,
      "rewards/rejected": -0.000859847932588309,
      "step": 10
    },
    {
      "epoch": 0.01,
      "learning_rate": 2.5773195876288656e-08,
      "logits/chosen": -4.353642463684082,
      "logits/rejected": -4.292398929595947,
      "logps/chosen": -554.0906982421875,
      "logps/rejected": -500.97119140625,
      "loss": 0.6937,
      "rewards/accuracies": 0.5375000238418579,
      "rewards/chosen": -0.001169868279248476,
      "rewards/margins": 0.001462915213778615,
      "rewards/rejected": -0.0026327825617045164,
      "step": 20
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.865979381443299e-08,
      "logits/chosen": -4.102766513824463,
      "logits/rejected": -4.200378894805908,
      "logps/chosen": -617.0684204101562,
      "logps/rejected": -476.2395935058594,
      "loss": 0.695,
      "rewards/accuracies": 0.5,
      "rewards/chosen": 0.001789045287296176,
      "rewards/margins": -0.003806379158049822,
      "rewards/rejected": 0.005595424212515354,
      "step": 30
    },
    {
      "epoch": 0.01,
      "learning_rate": 5.154639175257731e-08,
      "logits/chosen": -4.30725622177124,
      "logits/rejected": -4.225460052490234,
      "logps/chosen": -497.7335510253906,
      "logps/rejected": -415.4452209472656,
      "loss": 0.6929,
      "rewards/accuracies": 0.5,
      "rewards/chosen": 0.0006419029086828232,
      "rewards/margins": 0.0031944490037858486,
      "rewards/rejected": -0.0025525467935949564,
      "step": 40
    },
    {
      "epoch": 0.01,
      "learning_rate": 6.443298969072164e-08,
      "logits/chosen": -3.88063383102417,
      "logits/rejected": -3.8105220794677734,
      "logps/chosen": -627.067626953125,
      "logps/rejected": -403.6964111328125,
      "loss": 0.6976,
      "rewards/accuracies": 0.4000000059604645,
      "rewards/chosen": -0.00458294665440917,
      "rewards/margins": -0.016261283308267593,
      "rewards/rejected": 0.011678336188197136,
      "step": 50
    },
    {
      "epoch": 0.02,
      "learning_rate": 7.731958762886598e-08,
      "logits/chosen": -4.216163635253906,
      "logits/rejected": -4.099843978881836,
      "logps/chosen": -470.12115478515625,
      "logps/rejected": -469.4156799316406,
      "loss": 0.6928,
      "rewards/accuracies": 0.5,
      "rewards/chosen": 0.0052711316384375095,
      "rewards/margins": -0.0011110258055850863,
      "rewards/rejected": 0.00638215895742178,
      "step": 60
    },
    {
      "epoch": 0.02,
      "learning_rate": 9.02061855670103e-08,
      "logits/chosen": -4.200804233551025,
      "logits/rejected": -4.1986494064331055,
      "logps/chosen": -648.3743896484375,
      "logps/rejected": -488.0792541503906,
      "loss": 0.6905,
      "rewards/accuracies": 0.550000011920929,
      "rewards/chosen": 0.0002953239600174129,
      "rewards/margins": 0.00705097708851099,
      "rewards/rejected": -0.006755652371793985,
      "step": 70
    },
    {
      "epoch": 0.02,
      "learning_rate": 1.0309278350515462e-07,
      "logits/chosen": -4.013070106506348,
      "logits/rejected": -4.1909003257751465,
      "logps/chosen": -538.8270263671875,
      "logps/rejected": -391.4429931640625,
      "loss": 0.6919,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": 0.007235817611217499,
      "rewards/margins": 0.009682310745120049,
      "rewards/rejected": -0.002446494298055768,
      "step": 80
    },
    {
      "epoch": 0.02,
      "learning_rate": 1.1597938144329897e-07,
      "logits/chosen": -3.9400150775909424,
      "logits/rejected": -3.9281005859375,
      "logps/chosen": -588.8606567382812,
      "logps/rejected": -484.28839111328125,
      "loss": 0.692,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.004685616586357355,
      "rewards/margins": 0.008750900626182556,
      "rewards/rejected": -0.004065284971147776,
      "step": 90
    },
    {
      "epoch": 0.03,
      "learning_rate": 1.2886597938144328e-07,
      "logits/chosen": -4.089522361755371,
      "logits/rejected": -4.070917129516602,
      "logps/chosen": -573.93310546875,
      "logps/rejected": -485.439697265625,
      "loss": 0.6906,
      "rewards/accuracies": 0.574999988079071,
      "rewards/chosen": 0.010096365585923195,
      "rewards/margins": 0.0105238426476717,
      "rewards/rejected": -0.00042747752740979195,
      "step": 100
    },
    {
      "epoch": 0.03,
      "eval_logits/chosen": -4.051466941833496,
      "eval_logits/rejected": -4.089292526245117,
      "eval_logps/chosen": -549.3683471679688,
      "eval_logps/rejected": -437.9984130859375,
      "eval_loss": 0.6931844353675842,
      "eval_rewards/accuracies": 0.4860000014305115,
      "eval_rewards/chosen": 0.0008278049062937498,
      "eval_rewards/margins": 0.00017659256991464645,
      "eval_rewards/rejected": 0.0006512125837616622,
      "eval_runtime": 148.2369,
      "eval_samples_per_second": 13.492,
      "eval_steps_per_second": 1.686,
      "step": 100
    },
    {
      "epoch": 0.03,
      "learning_rate": 1.417525773195876e-07,
      "logits/chosen": -4.135636329650879,
      "logits/rejected": -4.231348991394043,
      "logps/chosen": -458.62255859375,
      "logps/rejected": -379.28094482421875,
      "loss": 0.691,
      "rewards/accuracies": 0.5,
      "rewards/chosen": 0.003453848185017705,
      "rewards/margins": 0.0036365636624395847,
      "rewards/rejected": -0.00018271691806148738,
      "step": 110
    },
    {
      "epoch": 0.03,
      "learning_rate": 1.5463917525773197e-07,
      "logits/chosen": -4.357504844665527,
      "logits/rejected": -4.165073871612549,
      "logps/chosen": -392.82891845703125,
      "logps/rejected": -405.0232849121094,
      "loss": 0.6946,
      "rewards/accuracies": 0.5,
      "rewards/chosen": 0.0029750962276011705,
      "rewards/margins": -0.0063691637478768826,
      "rewards/rejected": 0.009344260208308697,
      "step": 120
    },
    {
      "epoch": 0.03,
      "learning_rate": 1.6752577319587627e-07,
      "logits/chosen": -4.224671840667725,
      "logits/rejected": -4.147946357727051,
      "logps/chosen": -530.8834228515625,
      "logps/rejected": -379.1323547363281,
      "loss": 0.6934,
      "rewards/accuracies": 0.5249999761581421,
      "rewards/chosen": -0.001731688855215907,
      "rewards/margins": -0.0059483470395207405,
      "rewards/rejected": 0.004216659348458052,
      "step": 130
    },
    {
      "epoch": 0.04,
      "learning_rate": 1.804123711340206e-07,
      "logits/chosen": -4.243564128875732,
      "logits/rejected": -4.247513771057129,
      "logps/chosen": -555.7782592773438,
      "logps/rejected": -475.36474609375,
      "loss": 0.6932,
      "rewards/accuracies": 0.4625000059604645,
      "rewards/chosen": 0.0019786651246249676,
      "rewards/margins": -0.0012128886301070452,
      "rewards/rejected": 0.0031915525905787945,
      "step": 140
    },
    {
      "epoch": 0.04,
      "learning_rate": 1.9329896907216494e-07,
      "logits/chosen": -4.274221897125244,
      "logits/rejected": -4.187704086303711,
      "logps/chosen": -537.5848388671875,
      "logps/rejected": -444.8301696777344,
      "loss": 0.6938,
      "rewards/accuracies": 0.4749999940395355,
      "rewards/chosen": 0.0053375037387013435,
      "rewards/margins": 1.6005151337594725e-05,
      "rewards/rejected": 0.005321498028934002,
      "step": 150
    },
    {
      "epoch": 0.04,
      "learning_rate": 2.0618556701030925e-07,
      "logits/chosen": -4.137946128845215,
      "logits/rejected": -4.2239580154418945,
      "logps/chosen": -473.9889221191406,
      "logps/rejected": -406.7872619628906,
      "loss": 0.6876,
      "rewards/accuracies": 0.5874999761581421,
      "rewards/chosen": 0.015802519395947456,
      "rewards/margins": 0.01578442193567753,
      "rewards/rejected": 1.8098298824043013e-05,
      "step": 160
    },
    {
      "epoch": 0.04,
      "learning_rate": 2.190721649484536e-07,
      "logits/chosen": -4.182999134063721,
      "logits/rejected": -4.228874683380127,
      "logps/chosen": -527.0224609375,
      "logps/rejected": -448.3179626464844,
      "loss": 0.6961,
      "rewards/accuracies": 0.42500001192092896,
      "rewards/chosen": 0.019780535250902176,
      "rewards/margins": -0.006507801823318005,
      "rewards/rejected": 0.026288334280252457,
      "step": 170
    },
    {
      "epoch": 0.05,
      "learning_rate": 2.3195876288659794e-07,
      "logits/chosen": -4.098742485046387,
      "logits/rejected": -4.176650524139404,
      "logps/chosen": -594.6082763671875,
      "logps/rejected": -453.4469299316406,
      "loss": 0.6877,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.03402475267648697,
      "rewards/margins": 0.01976330205798149,
      "rewards/rejected": 0.014261451549828053,
      "step": 180
    },
    {
      "epoch": 0.05,
      "learning_rate": 2.4484536082474224e-07,
      "logits/chosen": -4.383849143981934,
      "logits/rejected": -4.319648742675781,
      "logps/chosen": -584.6770629882812,
      "logps/rejected": -408.61370849609375,
      "loss": 0.6902,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": 0.025487428531050682,
      "rewards/margins": 0.011225923895835876,
      "rewards/rejected": 0.014261503703892231,
      "step": 190
    },
    {
      "epoch": 0.05,
      "learning_rate": 2.5773195876288655e-07,
      "logits/chosen": -4.132022857666016,
      "logits/rejected": -4.150428295135498,
      "logps/chosen": -518.2391357421875,
      "logps/rejected": -388.0254821777344,
      "loss": 0.6844,
      "rewards/accuracies": 0.5874999761581421,
      "rewards/chosen": 0.02871655486524105,
      "rewards/margins": 0.022094249725341797,
      "rewards/rejected": 0.0066223046742379665,
      "step": 200
    },
    {
      "epoch": 0.05,
      "eval_logits/chosen": -4.050084114074707,
      "eval_logits/rejected": -4.087072849273682,
      "eval_logps/chosen": -549.053955078125,
      "eval_logps/rejected": -437.8319396972656,
      "eval_loss": 0.6855266094207764,
      "eval_rewards/accuracies": 0.5640000104904175,
      "eval_rewards/chosen": 0.032268982380628586,
      "eval_rewards/margins": 0.014963901601731777,
      "eval_rewards/rejected": 0.017305083572864532,
      "eval_runtime": 146.4759,
      "eval_samples_per_second": 13.654,
      "eval_steps_per_second": 1.707,
      "step": 200
    },
    {
      "epoch": 0.05,
      "learning_rate": 2.706185567010309e-07,
      "logits/chosen": -4.013279438018799,
      "logits/rejected": -4.023941516876221,
      "logps/chosen": -581.2147827148438,
      "logps/rejected": -522.2059936523438,
      "loss": 0.6897,
      "rewards/accuracies": 0.4625000059604645,
      "rewards/chosen": 0.030506515875458717,
      "rewards/margins": -0.003913003019988537,
      "rewards/rejected": 0.03441951796412468,
      "step": 210
    },
    {
      "epoch": 0.06,
      "learning_rate": 2.835051546391752e-07,
      "logits/chosen": -4.057482719421387,
      "logits/rejected": -4.15061092376709,
      "logps/chosen": -469.19769287109375,
      "logps/rejected": -427.91595458984375,
      "loss": 0.6862,
      "rewards/accuracies": 0.5,
      "rewards/chosen": 0.03468897193670273,
      "rewards/margins": 0.013076464645564556,
      "rewards/rejected": 0.021612513810396194,
      "step": 220
    },
    {
      "epoch": 0.06,
      "learning_rate": 2.963917525773196e-07,
      "logits/chosen": -4.064208507537842,
      "logits/rejected": -4.0749077796936035,
      "logps/chosen": -530.9828491210938,
      "logps/rejected": -439.2674865722656,
      "loss": 0.684,
      "rewards/accuracies": 0.574999988079071,
      "rewards/chosen": 0.04473203793168068,
      "rewards/margins": 0.025556465610861778,
      "rewards/rejected": 0.01917557418346405,
      "step": 230
    },
    {
      "epoch": 0.06,
      "learning_rate": 3.0927835051546394e-07,
      "logits/chosen": -4.100975036621094,
      "logits/rejected": -4.096819877624512,
      "logps/chosen": -526.16748046875,
      "logps/rejected": -439.20452880859375,
      "loss": 0.6816,
      "rewards/accuracies": 0.5874999761581421,
      "rewards/chosen": 0.059132933616638184,
      "rewards/margins": 0.019664695486426353,
      "rewards/rejected": 0.03946823999285698,
      "step": 240
    },
    {
      "epoch": 0.06,
      "learning_rate": 3.2216494845360824e-07,
      "logits/chosen": -4.139791488647461,
      "logits/rejected": -4.0367560386657715,
      "logps/chosen": -521.2025146484375,
      "logps/rejected": -388.7520751953125,
      "loss": 0.678,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": 0.06324665248394012,
      "rewards/margins": 0.04009511321783066,
      "rewards/rejected": 0.02315153181552887,
      "step": 250
    },
    {
      "epoch": 0.07,
      "learning_rate": 3.3505154639175255e-07,
      "logits/chosen": -4.206658363342285,
      "logits/rejected": -4.1859846115112305,
      "logps/chosen": -668.1943969726562,
      "logps/rejected": -461.34259033203125,
      "loss": 0.6769,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.07276210933923721,
      "rewards/margins": 0.03734602779150009,
      "rewards/rejected": 0.03541607782244682,
      "step": 260
    },
    {
      "epoch": 0.07,
      "learning_rate": 3.4793814432989685e-07,
      "logits/chosen": -3.937157392501831,
      "logits/rejected": -4.101494312286377,
      "logps/chosen": -664.857666015625,
      "logps/rejected": -487.4693908691406,
      "loss": 0.6737,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.10912873595952988,
      "rewards/margins": 0.05263194441795349,
      "rewards/rejected": 0.056496791541576385,
      "step": 270
    },
    {
      "epoch": 0.07,
      "learning_rate": 3.608247422680412e-07,
      "logits/chosen": -4.2088494300842285,
      "logits/rejected": -4.2679290771484375,
      "logps/chosen": -711.7024536132812,
      "logps/rejected": -427.2392578125,
      "loss": 0.6648,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.12602953612804413,
      "rewards/margins": 0.07799698412418365,
      "rewards/rejected": 0.048032552003860474,
      "step": 280
    },
    {
      "epoch": 0.07,
      "learning_rate": 3.737113402061856e-07,
      "logits/chosen": -4.126033782958984,
      "logits/rejected": -4.118724346160889,
      "logps/chosen": -527.9533081054688,
      "logps/rejected": -442.7091369628906,
      "loss": 0.6779,
      "rewards/accuracies": 0.4749999940395355,
      "rewards/chosen": 0.06928877532482147,
      "rewards/margins": 0.021227989345788956,
      "rewards/rejected": 0.04806078225374222,
      "step": 290
    },
    {
      "epoch": 0.08,
      "learning_rate": 3.865979381443299e-07,
      "logits/chosen": -4.21649169921875,
      "logits/rejected": -4.306222438812256,
      "logps/chosen": -558.1029663085938,
      "logps/rejected": -426.37646484375,
      "loss": 0.6685,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.10165311396121979,
      "rewards/margins": 0.0537085235118866,
      "rewards/rejected": 0.047944579273462296,
      "step": 300
    },
    {
      "epoch": 0.08,
      "eval_logits/chosen": -4.043172359466553,
      "eval_logits/rejected": -4.078800201416016,
      "eval_logps/chosen": -548.3015747070312,
      "eval_logps/rejected": -437.4681701660156,
      "eval_loss": 0.6674865484237671,
      "eval_rewards/accuracies": 0.6159999966621399,
      "eval_rewards/chosen": 0.10750828683376312,
      "eval_rewards/margins": 0.05382777377963066,
      "eval_rewards/rejected": 0.053680501878261566,
      "eval_runtime": 146.1324,
      "eval_samples_per_second": 13.686,
      "eval_steps_per_second": 1.711,
      "step": 300
    },
    {
      "epoch": 0.08,
      "learning_rate": 3.9948453608247424e-07,
      "logits/chosen": -4.439688205718994,
      "logits/rejected": -4.406257629394531,
      "logps/chosen": -576.0067138671875,
      "logps/rejected": -442.0852966308594,
      "loss": 0.6703,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.11767254769802094,
      "rewards/margins": 0.05607324838638306,
      "rewards/rejected": 0.06159929558634758,
      "step": 310
    },
    {
      "epoch": 0.08,
      "learning_rate": 4.123711340206185e-07,
      "logits/chosen": -4.040421962738037,
      "logits/rejected": -3.995241165161133,
      "logps/chosen": -634.211181640625,
      "logps/rejected": -444.74945068359375,
      "loss": 0.6634,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.14802002906799316,
      "rewards/margins": 0.08729343116283417,
      "rewards/rejected": 0.0607265941798687,
      "step": 320
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.2525773195876285e-07,
      "logits/chosen": -4.013192176818848,
      "logits/rejected": -3.9118850231170654,
      "logps/chosen": -531.2618408203125,
      "logps/rejected": -369.8399963378906,
      "loss": 0.6573,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.14214035868644714,
      "rewards/margins": 0.0905950665473938,
      "rewards/rejected": 0.051545269787311554,
      "step": 330
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.381443298969072e-07,
      "logits/chosen": -4.299261569976807,
      "logits/rejected": -4.219182968139648,
      "logps/chosen": -580.9090576171875,
      "logps/rejected": -442.6720275878906,
      "loss": 0.6589,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": 0.16068990528583527,
      "rewards/margins": 0.07925193011760712,
      "rewards/rejected": 0.08143799006938934,
      "step": 340
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.510309278350515e-07,
      "logits/chosen": -4.036250114440918,
      "logits/rejected": -3.9510204792022705,
      "logps/chosen": -485.1849670410156,
      "logps/rejected": -423.96746826171875,
      "loss": 0.6691,
      "rewards/accuracies": 0.5874999761581421,
      "rewards/chosen": 0.16000322997570038,
      "rewards/margins": 0.0713193342089653,
      "rewards/rejected": 0.08868391811847687,
      "step": 350
    },
    {
      "epoch": 0.09,
      "learning_rate": 4.639175257731959e-07,
      "logits/chosen": -3.97419810295105,
      "logits/rejected": -3.945896863937378,
      "logps/chosen": -588.8265380859375,
      "logps/rejected": -500.585205078125,
      "loss": 0.664,
      "rewards/accuracies": 0.612500011920929,
      "rewards/chosen": 0.16587187349796295,
      "rewards/margins": 0.048247091472148895,
      "rewards/rejected": 0.11762477457523346,
      "step": 360
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.7680412371134024e-07,
      "logits/chosen": -4.279057502746582,
      "logits/rejected": -4.3186540603637695,
      "logps/chosen": -577.9805908203125,
      "logps/rejected": -508.83880615234375,
      "loss": 0.6621,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": 0.1850723773241043,
      "rewards/margins": 0.04405021667480469,
      "rewards/rejected": 0.14102217555046082,
      "step": 370
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.896907216494845e-07,
      "logits/chosen": -4.560557842254639,
      "logits/rejected": -4.472795009613037,
      "logps/chosen": -585.3865966796875,
      "logps/rejected": -427.63092041015625,
      "loss": 0.6453,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.22210833430290222,
      "rewards/margins": 0.14162525534629822,
      "rewards/rejected": 0.0804830864071846,
      "step": 380
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.997130559540889e-07,
      "logits/chosen": -4.149146556854248,
      "logits/rejected": -4.130012035369873,
      "logps/chosen": -458.86334228515625,
      "logps/rejected": -402.4290466308594,
      "loss": 0.6574,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.155195951461792,
      "rewards/margins": 0.0719287320971489,
      "rewards/rejected": 0.0832671970129013,
      "step": 390
    },
    {
      "epoch": 0.1,
      "learning_rate": 4.982783357245337e-07,
      "logits/chosen": -4.101078987121582,
      "logits/rejected": -3.9474518299102783,
      "logps/chosen": -594.5633544921875,
      "logps/rejected": -459.3837890625,
      "loss": 0.6579,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.22732532024383545,
      "rewards/margins": 0.15504160523414612,
      "rewards/rejected": 0.07228370010852814,
      "step": 400
    },
    {
      "epoch": 0.1,
      "eval_logits/chosen": -4.030913829803467,
      "eval_logits/rejected": -4.064504623413086,
      "eval_logps/chosen": -547.223388671875,
      "eval_logps/rejected": -437.06365966796875,
      "eval_loss": 0.6425994038581848,
      "eval_rewards/accuracies": 0.6430000066757202,
      "eval_rewards/chosen": 0.21532239019870758,
      "eval_rewards/margins": 0.12119224667549133,
      "eval_rewards/rejected": 0.09413015842437744,
      "eval_runtime": 146.406,
      "eval_samples_per_second": 13.661,
      "eval_steps_per_second": 1.708,
      "step": 400
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.968436154949784e-07,
      "logits/chosen": -4.3761677742004395,
      "logits/rejected": -4.4744062423706055,
      "logps/chosen": -486.56976318359375,
      "logps/rejected": -388.5422058105469,
      "loss": 0.6246,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.2251121997833252,
      "rewards/margins": 0.1718236207962036,
      "rewards/rejected": 0.05328858643770218,
      "step": 410
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.954088952654232e-07,
      "logits/chosen": -3.916259288787842,
      "logits/rejected": -4.022424221038818,
      "logps/chosen": -609.468017578125,
      "logps/rejected": -489.47503662109375,
      "loss": 0.6397,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.2788829207420349,
      "rewards/margins": 0.13126085698604584,
      "rewards/rejected": 0.14762204885482788,
      "step": 420
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.93974175035868e-07,
      "logits/chosen": -4.073642253875732,
      "logits/rejected": -3.992410182952881,
      "logps/chosen": -589.1423950195312,
      "logps/rejected": -387.6160583496094,
      "loss": 0.625,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.27620893716812134,
      "rewards/margins": 0.2046860158443451,
      "rewards/rejected": 0.07152291387319565,
      "step": 430
    },
    {
      "epoch": 0.11,
      "learning_rate": 4.925394548063128e-07,
      "logits/chosen": -4.047796249389648,
      "logits/rejected": -4.099135875701904,
      "logps/chosen": -556.1654663085938,
      "logps/rejected": -459.1832580566406,
      "loss": 0.6249,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.26381629705429077,
      "rewards/margins": 0.18791969120502472,
      "rewards/rejected": 0.07589660584926605,
      "step": 440
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.911047345767575e-07,
      "logits/chosen": -3.9531607627868652,
      "logits/rejected": -3.9822494983673096,
      "logps/chosen": -603.289306640625,
      "logps/rejected": -452.654541015625,
      "loss": 0.6246,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.24003124237060547,
      "rewards/margins": 0.1340305507183075,
      "rewards/rejected": 0.10600068420171738,
      "step": 450
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.896700143472023e-07,
      "logits/chosen": -4.046868801116943,
      "logits/rejected": -3.973362684249878,
      "logps/chosen": -543.8755493164062,
      "logps/rejected": -415.2347106933594,
      "loss": 0.6243,
      "rewards/accuracies": 0.612500011920929,
      "rewards/chosen": 0.27269724011421204,
      "rewards/margins": 0.13904382288455963,
      "rewards/rejected": 0.1336534321308136,
      "step": 460
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.88235294117647e-07,
      "logits/chosen": -3.9586892127990723,
      "logits/rejected": -3.949618101119995,
      "logps/chosen": -521.1124267578125,
      "logps/rejected": -476.64599609375,
      "loss": 0.6414,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.26220518350601196,
      "rewards/margins": 0.10140831768512726,
      "rewards/rejected": 0.1607969105243683,
      "step": 470
    },
    {
      "epoch": 0.12,
      "learning_rate": 4.868005738880918e-07,
      "logits/chosen": -4.340029716491699,
      "logits/rejected": -4.296602249145508,
      "logps/chosen": -498.50628662109375,
      "logps/rejected": -436.04193115234375,
      "loss": 0.6262,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.23516115546226501,
      "rewards/margins": 0.14310702681541443,
      "rewards/rejected": 0.09205415844917297,
      "step": 480
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.853658536585365e-07,
      "logits/chosen": -3.9785568714141846,
      "logits/rejected": -3.9936375617980957,
      "logps/chosen": -535.5206298828125,
      "logps/rejected": -418.255126953125,
      "loss": 0.6359,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.26155534386634827,
      "rewards/margins": 0.19521105289459229,
      "rewards/rejected": 0.06634429097175598,
      "step": 490
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.839311334289813e-07,
      "logits/chosen": -4.171419620513916,
      "logits/rejected": -4.2884111404418945,
      "logps/chosen": -497.77874755859375,
      "logps/rejected": -401.29046630859375,
      "loss": 0.6331,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.2628328502178192,
      "rewards/margins": 0.19560939073562622,
      "rewards/rejected": 0.06722346693277359,
      "step": 500
    },
    {
      "epoch": 0.13,
      "eval_logits/chosen": -4.0221147537231445,
      "eval_logits/rejected": -4.052542686462402,
      "eval_logps/chosen": -546.3970336914062,
      "eval_logps/rejected": -436.89892578125,
      "eval_loss": 0.6240983605384827,
      "eval_rewards/accuracies": 0.6430000066757202,
      "eval_rewards/chosen": 0.2979632318019867,
      "eval_rewards/margins": 0.18736404180526733,
      "eval_rewards/rejected": 0.11059919744729996,
      "eval_runtime": 146.1671,
      "eval_samples_per_second": 13.683,
      "eval_steps_per_second": 1.71,
      "step": 500
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.824964131994261e-07,
      "logits/chosen": -4.073412895202637,
      "logits/rejected": -4.001163959503174,
      "logps/chosen": -588.8052978515625,
      "logps/rejected": -525.47314453125,
      "loss": 0.6532,
      "rewards/accuracies": 0.574999988079071,
      "rewards/chosen": 0.2637428641319275,
      "rewards/margins": 0.08834028244018555,
      "rewards/rejected": 0.17540256679058075,
      "step": 510
    },
    {
      "epoch": 0.13,
      "learning_rate": 4.810616929698708e-07,
      "logits/chosen": -4.054637908935547,
      "logits/rejected": -4.115445613861084,
      "logps/chosen": -586.9202270507812,
      "logps/rejected": -401.8949890136719,
      "loss": 0.6252,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.2919687032699585,
      "rewards/margins": 0.22300024330615997,
      "rewards/rejected": 0.06896845996379852,
      "step": 520
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.796269727403156e-07,
      "logits/chosen": -4.366249084472656,
      "logits/rejected": -4.296690940856934,
      "logps/chosen": -501.8008728027344,
      "logps/rejected": -414.6390686035156,
      "loss": 0.6275,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.2946510314941406,
      "rewards/margins": 0.20942220091819763,
      "rewards/rejected": 0.0852288231253624,
      "step": 530
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.781922525107604e-07,
      "logits/chosen": -4.214944362640381,
      "logits/rejected": -4.242516040802002,
      "logps/chosen": -582.1668701171875,
      "logps/rejected": -438.54376220703125,
      "loss": 0.6205,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.3577159643173218,
      "rewards/margins": 0.19794291257858276,
      "rewards/rejected": 0.159773051738739,
      "step": 540
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7675753228120513e-07,
      "logits/chosen": -4.113412380218506,
      "logits/rejected": -3.993567705154419,
      "logps/chosen": -564.5824584960938,
      "logps/rejected": -398.8680419921875,
      "loss": 0.6193,
      "rewards/accuracies": 0.7875000238418579,
      "rewards/chosen": 0.316133588552475,
      "rewards/margins": 0.27710846066474915,
      "rewards/rejected": 0.039025187492370605,
      "step": 550
    },
    {
      "epoch": 0.14,
      "learning_rate": 4.7532281205164993e-07,
      "logits/chosen": -4.085113048553467,
      "logits/rejected": -4.045032024383545,
      "logps/chosen": -643.7376708984375,
      "logps/rejected": -498.99859619140625,
      "loss": 0.6274,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.34889236092567444,
      "rewards/margins": 0.22896642982959747,
      "rewards/rejected": 0.11992595344781876,
      "step": 560
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.738880918220947e-07,
      "logits/chosen": -4.168662071228027,
      "logits/rejected": -4.141668319702148,
      "logps/chosen": -560.7593994140625,
      "logps/rejected": -406.78143310546875,
      "loss": 0.6173,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.331714928150177,
      "rewards/margins": 0.245022252202034,
      "rewards/rejected": 0.0866926982998848,
      "step": 570
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.7245337159253943e-07,
      "logits/chosen": -4.329155445098877,
      "logits/rejected": -4.298244476318359,
      "logps/chosen": -563.4876708984375,
      "logps/rejected": -376.99725341796875,
      "loss": 0.6147,
      "rewards/accuracies": 0.612500011920929,
      "rewards/chosen": 0.2851625382900238,
      "rewards/margins": 0.19439759850502014,
      "rewards/rejected": 0.09076493978500366,
      "step": 580
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.710186513629842e-07,
      "logits/chosen": -4.025614261627197,
      "logits/rejected": -3.995368242263794,
      "logps/chosen": -570.0155029296875,
      "logps/rejected": -456.23223876953125,
      "loss": 0.6397,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.38556593656539917,
      "rewards/margins": 0.24411602318286896,
      "rewards/rejected": 0.1414499133825302,
      "step": 590
    },
    {
      "epoch": 0.15,
      "learning_rate": 4.69583931133429e-07,
      "logits/chosen": -4.11724853515625,
      "logits/rejected": -4.225184440612793,
      "logps/chosen": -600.27685546875,
      "logps/rejected": -416.496826171875,
      "loss": 0.6229,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.3451527953147888,
      "rewards/margins": 0.26950401067733765,
      "rewards/rejected": 0.07564878463745117,
      "step": 600
    },
    {
      "epoch": 0.15,
      "eval_logits/chosen": -4.0116496086120605,
      "eval_logits/rejected": -4.040153503417969,
      "eval_logps/chosen": -545.94873046875,
      "eval_logps/rejected": -436.90228271484375,
      "eval_loss": 0.6138368844985962,
      "eval_rewards/accuracies": 0.6579999923706055,
      "eval_rewards/chosen": 0.3427916169166565,
      "eval_rewards/margins": 0.2325276881456375,
      "eval_rewards/rejected": 0.11026395857334137,
      "eval_runtime": 145.937,
      "eval_samples_per_second": 13.705,
      "eval_steps_per_second": 1.713,
      "step": 600
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.681492109038737e-07,
      "logits/chosen": -4.138489723205566,
      "logits/rejected": -4.042520046234131,
      "logps/chosen": -544.0598754882812,
      "logps/rejected": -387.63031005859375,
      "loss": 0.5897,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.3607966899871826,
      "rewards/margins": 0.3171598017215729,
      "rewards/rejected": 0.043636929243803024,
      "step": 610
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.667144906743185e-07,
      "logits/chosen": -4.025771617889404,
      "logits/rejected": -3.9127840995788574,
      "logps/chosen": -517.0219116210938,
      "logps/rejected": -439.63800048828125,
      "loss": 0.5769,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": 0.3815905749797821,
      "rewards/margins": 0.3481997549533844,
      "rewards/rejected": 0.033390797674655914,
      "step": 620
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.6527977044476324e-07,
      "logits/chosen": -4.107082843780518,
      "logits/rejected": -4.197465419769287,
      "logps/chosen": -576.8883056640625,
      "logps/rejected": -426.826904296875,
      "loss": 0.5992,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.4150086045265198,
      "rewards/margins": 0.3171616792678833,
      "rewards/rejected": 0.09784691035747528,
      "step": 630
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6384505021520805e-07,
      "logits/chosen": -4.232905864715576,
      "logits/rejected": -4.251595497131348,
      "logps/chosen": -526.0496215820312,
      "logps/rejected": -378.66778564453125,
      "loss": 0.6053,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.36744990944862366,
      "rewards/margins": 0.237229585647583,
      "rewards/rejected": 0.13022030889987946,
      "step": 640
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6241032998565275e-07,
      "logits/chosen": -3.990309953689575,
      "logits/rejected": -3.9665799140930176,
      "logps/chosen": -535.3065795898438,
      "logps/rejected": -371.23883056640625,
      "loss": 0.5688,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": 0.35981225967407227,
      "rewards/margins": 0.3149539828300476,
      "rewards/rejected": 0.044858284294605255,
      "step": 650
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.6097560975609755e-07,
      "logits/chosen": -4.290364742279053,
      "logits/rejected": -4.3908371925354,
      "logps/chosen": -602.7872314453125,
      "logps/rejected": -467.87841796875,
      "loss": 0.6302,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.4449954628944397,
      "rewards/margins": 0.33234038949012756,
      "rewards/rejected": 0.11265511810779572,
      "step": 660
    },
    {
      "epoch": 0.17,
      "learning_rate": 4.595408895265423e-07,
      "logits/chosen": -4.181097507476807,
      "logits/rejected": -4.184117317199707,
      "logps/chosen": -562.30908203125,
      "logps/rejected": -419.0519104003906,
      "loss": 0.6057,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.41988906264305115,
      "rewards/margins": 0.33613476157188416,
      "rewards/rejected": 0.08375430852174759,
      "step": 670
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.581061692969871e-07,
      "logits/chosen": -3.9935073852539062,
      "logits/rejected": -4.078420162200928,
      "logps/chosen": -594.1588134765625,
      "logps/rejected": -442.93218994140625,
      "loss": 0.5912,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.3990897536277771,
      "rewards/margins": 0.3166866898536682,
      "rewards/rejected": 0.08240304887294769,
      "step": 680
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.566714490674318e-07,
      "logits/chosen": -3.8547301292419434,
      "logits/rejected": -3.8780627250671387,
      "logps/chosen": -467.4917907714844,
      "logps/rejected": -409.6250915527344,
      "loss": 0.5982,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.3181690573692322,
      "rewards/margins": 0.30037710070610046,
      "rewards/rejected": 0.01779193803668022,
      "step": 690
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.552367288378766e-07,
      "logits/chosen": -3.856755018234253,
      "logits/rejected": -3.7566399574279785,
      "logps/chosen": -496.44580078125,
      "logps/rejected": -416.92791748046875,
      "loss": 0.6008,
      "rewards/accuracies": 0.574999988079071,
      "rewards/chosen": 0.3064565062522888,
      "rewards/margins": 0.19347265362739563,
      "rewards/rejected": 0.1129838228225708,
      "step": 700
    },
    {
      "epoch": 0.18,
      "eval_logits/chosen": -4.004153728485107,
      "eval_logits/rejected": -4.03006649017334,
      "eval_logps/chosen": -545.5549926757812,
      "eval_logps/rejected": -437.035400390625,
      "eval_loss": 0.6053361892700195,
      "eval_rewards/accuracies": 0.656000018119812,
      "eval_rewards/chosen": 0.3821641206741333,
      "eval_rewards/margins": 0.28520864248275757,
      "eval_rewards/rejected": 0.09695547074079514,
      "eval_runtime": 146.9276,
      "eval_samples_per_second": 13.612,
      "eval_steps_per_second": 1.702,
      "step": 700
    },
    {
      "epoch": 0.18,
      "learning_rate": 4.5380200860832136e-07,
      "logits/chosen": -4.1166276931762695,
      "logits/rejected": -4.0413994789123535,
      "logps/chosen": -559.1090087890625,
      "logps/rejected": -445.1997985839844,
      "loss": 0.6028,
      "rewards/accuracies": 0.612500011920929,
      "rewards/chosen": 0.37777018547058105,
      "rewards/margins": 0.23465311527252197,
      "rewards/rejected": 0.1431170552968979,
      "step": 710
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.5236728837876616e-07,
      "logits/chosen": -4.048049449920654,
      "logits/rejected": -3.983046293258667,
      "logps/chosen": -521.6533813476562,
      "logps/rejected": -423.5769958496094,
      "loss": 0.6113,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.3277244567871094,
      "rewards/margins": 0.251709520816803,
      "rewards/rejected": 0.07601495087146759,
      "step": 720
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.5093256814921086e-07,
      "logits/chosen": -3.96891713142395,
      "logits/rejected": -4.157193660736084,
      "logps/chosen": -527.0986328125,
      "logps/rejected": -350.09735107421875,
      "loss": 0.6191,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.3868439793586731,
      "rewards/margins": 0.27587562799453735,
      "rewards/rejected": 0.11096830666065216,
      "step": 730
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.4949784791965567e-07,
      "logits/chosen": -4.01112174987793,
      "logits/rejected": -3.9385008811950684,
      "logps/chosen": -575.333740234375,
      "logps/rejected": -411.80865478515625,
      "loss": 0.6002,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.4110191762447357,
      "rewards/margins": 0.3183595538139343,
      "rewards/rejected": 0.0926596075296402,
      "step": 740
    },
    {
      "epoch": 0.19,
      "learning_rate": 4.480631276901004e-07,
      "logits/chosen": -3.8952746391296387,
      "logits/rejected": -3.9051570892333984,
      "logps/chosen": -587.7459716796875,
      "logps/rejected": -426.0521545410156,
      "loss": 0.6019,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.4798852503299713,
      "rewards/margins": 0.3581300377845764,
      "rewards/rejected": 0.12175522744655609,
      "step": 750
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.466284074605452e-07,
      "logits/chosen": -4.128601551055908,
      "logits/rejected": -4.192216396331787,
      "logps/chosen": -555.259033203125,
      "logps/rejected": -431.3056640625,
      "loss": 0.5987,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.4251033365726471,
      "rewards/margins": 0.35620301961898804,
      "rewards/rejected": 0.06890030205249786,
      "step": 760
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.451936872309899e-07,
      "logits/chosen": -4.191853046417236,
      "logits/rejected": -4.073651313781738,
      "logps/chosen": -564.2633056640625,
      "logps/rejected": -462.38232421875,
      "loss": 0.5874,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.46583813428878784,
      "rewards/margins": 0.4038007855415344,
      "rewards/rejected": 0.0620373897254467,
      "step": 770
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.437589670014347e-07,
      "logits/chosen": -3.9436306953430176,
      "logits/rejected": -4.079471111297607,
      "logps/chosen": -569.0813598632812,
      "logps/rejected": -438.1226501464844,
      "loss": 0.592,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.32991427183151245,
      "rewards/margins": 0.34178251028060913,
      "rewards/rejected": -0.011868256144225597,
      "step": 780
    },
    {
      "epoch": 0.2,
      "learning_rate": 4.423242467718795e-07,
      "logits/chosen": -4.243984699249268,
      "logits/rejected": -4.39116907119751,
      "logps/chosen": -674.5192260742188,
      "logps/rejected": -492.4161682128906,
      "loss": 0.5828,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.5247339010238647,
      "rewards/margins": 0.3629537522792816,
      "rewards/rejected": 0.1617802083492279,
      "step": 790
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.4088952654232423e-07,
      "logits/chosen": -3.945283889770508,
      "logits/rejected": -3.931304454803467,
      "logps/chosen": -520.6378173828125,
      "logps/rejected": -340.75103759765625,
      "loss": 0.5751,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.41377678513526917,
      "rewards/margins": 0.4200451374053955,
      "rewards/rejected": -0.006268366239964962,
      "step": 800
    },
    {
      "epoch": 0.21,
      "eval_logits/chosen": -4.009909629821777,
      "eval_logits/rejected": -4.035899639129639,
      "eval_logps/chosen": -545.2993774414062,
      "eval_logps/rejected": -437.1260070800781,
      "eval_loss": 0.5998407006263733,
      "eval_rewards/accuracies": 0.6539999842643738,
      "eval_rewards/chosen": 0.4077303409576416,
      "eval_rewards/margins": 0.3198363780975342,
      "eval_rewards/rejected": 0.0878940224647522,
      "eval_runtime": 145.3508,
      "eval_samples_per_second": 13.76,
      "eval_steps_per_second": 1.72,
      "step": 800
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.39454806312769e-07,
      "logits/chosen": -3.9220452308654785,
      "logits/rejected": -4.041108131408691,
      "logps/chosen": -615.2744750976562,
      "logps/rejected": -500.8890686035156,
      "loss": 0.5732,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.49199342727661133,
      "rewards/margins": 0.3499099612236023,
      "rewards/rejected": 0.1420835256576538,
      "step": 810
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.380200860832138e-07,
      "logits/chosen": -3.90093994140625,
      "logits/rejected": -3.9337615966796875,
      "logps/chosen": -616.523681640625,
      "logps/rejected": -451.52996826171875,
      "loss": 0.5575,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.5319877862930298,
      "rewards/margins": 0.5240375399589539,
      "rewards/rejected": 0.007950320839881897,
      "step": 820
    },
    {
      "epoch": 0.21,
      "learning_rate": 4.3658536585365853e-07,
      "logits/chosen": -4.105984687805176,
      "logits/rejected": -4.126413345336914,
      "logps/chosen": -491.058349609375,
      "logps/rejected": -472.4222106933594,
      "loss": 0.6289,
      "rewards/accuracies": 0.574999988079071,
      "rewards/chosen": 0.3649570047855377,
      "rewards/margins": 0.19882622361183167,
      "rewards/rejected": 0.16613081097602844,
      "step": 830
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.351506456241033e-07,
      "logits/chosen": -4.366209983825684,
      "logits/rejected": -4.29564905166626,
      "logps/chosen": -573.9385375976562,
      "logps/rejected": -327.5928649902344,
      "loss": 0.5732,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.47058337926864624,
      "rewards/margins": 0.47838321328163147,
      "rewards/rejected": -0.007799782790243626,
      "step": 840
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.3371592539454804e-07,
      "logits/chosen": -3.7974257469177246,
      "logits/rejected": -3.734402894973755,
      "logps/chosen": -471.0333557128906,
      "logps/rejected": -374.65673828125,
      "loss": 0.6266,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.34169143438339233,
      "rewards/margins": 0.2484813630580902,
      "rewards/rejected": 0.09321005642414093,
      "step": 850
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.322812051649928e-07,
      "logits/chosen": -4.0287275314331055,
      "logits/rejected": -4.05717134475708,
      "logps/chosen": -469.2396545410156,
      "logps/rejected": -434.5414123535156,
      "loss": 0.5803,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.4505770206451416,
      "rewards/margins": 0.4199690818786621,
      "rewards/rejected": 0.03060789778828621,
      "step": 860
    },
    {
      "epoch": 0.22,
      "learning_rate": 4.308464849354376e-07,
      "logits/chosen": -3.7610325813293457,
      "logits/rejected": -3.8557701110839844,
      "logps/chosen": -529.0855712890625,
      "logps/rejected": -426.6482849121094,
      "loss": 0.5811,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.43691587448120117,
      "rewards/margins": 0.37098073959350586,
      "rewards/rejected": 0.0659351572394371,
      "step": 870
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.294117647058823e-07,
      "logits/chosen": -4.040841102600098,
      "logits/rejected": -4.051581382751465,
      "logps/chosen": -590.5636596679688,
      "logps/rejected": -456.1898498535156,
      "loss": 0.582,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.3900124430656433,
      "rewards/margins": 0.41093358397483826,
      "rewards/rejected": -0.020921092480421066,
      "step": 880
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.279770444763271e-07,
      "logits/chosen": -4.3830671310424805,
      "logits/rejected": -4.194474220275879,
      "logps/chosen": -587.708251953125,
      "logps/rejected": -454.063720703125,
      "loss": 0.6117,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.4363631308078766,
      "rewards/margins": 0.3432873785495758,
      "rewards/rejected": 0.09307573735713959,
      "step": 890
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.2654232424677185e-07,
      "logits/chosen": -4.166562080383301,
      "logits/rejected": -4.1289520263671875,
      "logps/chosen": -507.2445373535156,
      "logps/rejected": -396.4598083496094,
      "loss": 0.6485,
      "rewards/accuracies": 0.5249999761581421,
      "rewards/chosen": 0.27186277508735657,
      "rewards/margins": 0.16729417443275452,
      "rewards/rejected": 0.10456860065460205,
      "step": 900
    },
    {
      "epoch": 0.23,
      "eval_logits/chosen": -3.9936437606811523,
      "eval_logits/rejected": -4.016723155975342,
      "eval_logps/chosen": -545.1683349609375,
      "eval_logps/rejected": -437.3501281738281,
      "eval_loss": 0.5922096371650696,
      "eval_rewards/accuracies": 0.6600000262260437,
      "eval_rewards/chosen": 0.4208315312862396,
      "eval_rewards/margins": 0.3553457260131836,
      "eval_rewards/rejected": 0.06548583507537842,
      "eval_runtime": 146.2261,
      "eval_samples_per_second": 13.677,
      "eval_steps_per_second": 1.71,
      "step": 900
    },
    {
      "epoch": 0.23,
      "learning_rate": 4.2510760401721665e-07,
      "logits/chosen": -4.098907947540283,
      "logits/rejected": -4.098723411560059,
      "logps/chosen": -650.6366577148438,
      "logps/rejected": -495.94879150390625,
      "loss": 0.5866,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": 0.5507170557975769,
      "rewards/margins": 0.5398961305618286,
      "rewards/rejected": 0.010820944793522358,
      "step": 910
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.2367288378766135e-07,
      "logits/chosen": -4.1348772048950195,
      "logits/rejected": -4.166952610015869,
      "logps/chosen": -591.7069702148438,
      "logps/rejected": -477.39776611328125,
      "loss": 0.5992,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.47026628255844116,
      "rewards/margins": 0.3723362982273102,
      "rewards/rejected": 0.09792999923229218,
      "step": 920
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.2223816355810615e-07,
      "logits/chosen": -4.0753397941589355,
      "logits/rejected": -4.123549461364746,
      "logps/chosen": -559.75634765625,
      "logps/rejected": -458.8775329589844,
      "loss": 0.5799,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.39656537771224976,
      "rewards/margins": 0.3553692698478699,
      "rewards/rejected": 0.04119610786437988,
      "step": 930
    },
    {
      "epoch": 0.24,
      "learning_rate": 4.208034433285509e-07,
      "logits/chosen": -4.269906520843506,
      "logits/rejected": -4.303974628448486,
      "logps/chosen": -593.5145874023438,
      "logps/rejected": -494.8085021972656,
      "loss": 0.5647,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.5839260816574097,
      "rewards/margins": 0.44306641817092896,
      "rewards/rejected": 0.14085964858531952,
      "step": 940
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.1936872309899565e-07,
      "logits/chosen": -3.792731523513794,
      "logits/rejected": -3.8398139476776123,
      "logps/chosen": -489.6437072753906,
      "logps/rejected": -401.5340576171875,
      "loss": 0.6287,
      "rewards/accuracies": 0.5874999761581421,
      "rewards/chosen": 0.2587449550628662,
      "rewards/margins": 0.2045062780380249,
      "rewards/rejected": 0.054238706827163696,
      "step": 950
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.179340028694404e-07,
      "logits/chosen": -4.206066131591797,
      "logits/rejected": -4.116007328033447,
      "logps/chosen": -482.42816162109375,
      "logps/rejected": -382.22845458984375,
      "loss": 0.5962,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.3317318558692932,
      "rewards/margins": 0.34027567505836487,
      "rewards/rejected": -0.008543826639652252,
      "step": 960
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.164992826398852e-07,
      "logits/chosen": -4.003951549530029,
      "logits/rejected": -3.9982573986053467,
      "logps/chosen": -494.906005859375,
      "logps/rejected": -401.5001220703125,
      "loss": 0.6299,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": 0.266286164522171,
      "rewards/margins": 0.27161869406700134,
      "rewards/rejected": -0.005332520697265863,
      "step": 970
    },
    {
      "epoch": 0.25,
      "learning_rate": 4.1506456241032996e-07,
      "logits/chosen": -4.05717134475708,
      "logits/rejected": -3.8585472106933594,
      "logps/chosen": -563.6212768554688,
      "logps/rejected": -387.9486999511719,
      "loss": 0.5832,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.3436369299888611,
      "rewards/margins": 0.378772109746933,
      "rewards/rejected": -0.035135164856910706,
      "step": 980
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.136298421807747e-07,
      "logits/chosen": -4.064385890960693,
      "logits/rejected": -4.122750759124756,
      "logps/chosen": -587.16162109375,
      "logps/rejected": -431.41796875,
      "loss": 0.572,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.4710933566093445,
      "rewards/margins": 0.4460281431674957,
      "rewards/rejected": 0.02506522461771965,
      "step": 990
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.1219512195121946e-07,
      "logits/chosen": -4.021462917327881,
      "logits/rejected": -3.989718198776245,
      "logps/chosen": -584.3521728515625,
      "logps/rejected": -455.634033203125,
      "loss": 0.6164,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.48522061109542847,
      "rewards/margins": 0.3698544502258301,
      "rewards/rejected": 0.11536619812250137,
      "step": 1000
    },
    {
      "epoch": 0.26,
      "eval_logits/chosen": -3.986903429031372,
      "eval_logits/rejected": -4.009212017059326,
      "eval_logps/chosen": -545.3309326171875,
      "eval_logps/rejected": -437.7181701660156,
      "eval_loss": 0.5879542827606201,
      "eval_rewards/accuracies": 0.6620000004768372,
      "eval_rewards/chosen": 0.40457141399383545,
      "eval_rewards/margins": 0.37589016556739807,
      "eval_rewards/rejected": 0.028681199997663498,
      "eval_runtime": 146.6025,
      "eval_samples_per_second": 13.642,
      "eval_steps_per_second": 1.705,
      "step": 1000
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.1076040172166427e-07,
      "logits/chosen": -4.139552116394043,
      "logits/rejected": -3.9534621238708496,
      "logps/chosen": -571.7590942382812,
      "logps/rejected": -444.6793518066406,
      "loss": 0.6451,
      "rewards/accuracies": 0.612500011920929,
      "rewards/chosen": 0.3784537613391876,
      "rewards/margins": 0.23798270523548126,
      "rewards/rejected": 0.14047105610370636,
      "step": 1010
    },
    {
      "epoch": 0.26,
      "learning_rate": 4.09325681492109e-07,
      "logits/chosen": -4.049252510070801,
      "logits/rejected": -4.108782768249512,
      "logps/chosen": -644.1297607421875,
      "logps/rejected": -546.4414672851562,
      "loss": 0.6455,
      "rewards/accuracies": 0.574999988079071,
      "rewards/chosen": 0.3904695510864258,
      "rewards/margins": 0.23047880828380585,
      "rewards/rejected": 0.15999077260494232,
      "step": 1020
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.0789096126255377e-07,
      "logits/chosen": -4.110049247741699,
      "logits/rejected": -4.13530969619751,
      "logps/chosen": -601.107666015625,
      "logps/rejected": -430.6465759277344,
      "loss": 0.5972,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.39451712369918823,
      "rewards/margins": 0.3030509948730469,
      "rewards/rejected": 0.09146615862846375,
      "step": 1030
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.064562410329985e-07,
      "logits/chosen": -4.069981575012207,
      "logits/rejected": -4.104067802429199,
      "logps/chosen": -562.4483642578125,
      "logps/rejected": -496.1336975097656,
      "loss": 0.5667,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.46653634309768677,
      "rewards/margins": 0.4154808521270752,
      "rewards/rejected": 0.051055438816547394,
      "step": 1040
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.050215208034433e-07,
      "logits/chosen": -4.096522331237793,
      "logits/rejected": -4.07404088973999,
      "logps/chosen": -597.645751953125,
      "logps/rejected": -389.2298889160156,
      "loss": 0.566,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.43959060311317444,
      "rewards/margins": 0.4319628179073334,
      "rewards/rejected": 0.007627798710018396,
      "step": 1050
    },
    {
      "epoch": 0.27,
      "learning_rate": 4.035868005738881e-07,
      "logits/chosen": -4.101964950561523,
      "logits/rejected": -3.971134901046753,
      "logps/chosen": -654.4503784179688,
      "logps/rejected": -446.3114318847656,
      "loss": 0.5856,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.5462326407432556,
      "rewards/margins": 0.52418452501297,
      "rewards/rejected": 0.022048136219382286,
      "step": 1060
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.0215208034433283e-07,
      "logits/chosen": -4.149927139282227,
      "logits/rejected": -4.159340858459473,
      "logps/chosen": -569.7572631835938,
      "logps/rejected": -407.02545166015625,
      "loss": 0.575,
      "rewards/accuracies": 0.5874999761581421,
      "rewards/chosen": 0.25654059648513794,
      "rewards/margins": 0.33243244886398315,
      "rewards/rejected": -0.0758919045329094,
      "step": 1070
    },
    {
      "epoch": 0.28,
      "learning_rate": 4.007173601147776e-07,
      "logits/chosen": -4.003470420837402,
      "logits/rejected": -3.9572086334228516,
      "logps/chosen": -565.874267578125,
      "logps/rejected": -392.24761962890625,
      "loss": 0.6221,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": 0.3559120297431946,
      "rewards/margins": 0.3540252149105072,
      "rewards/rejected": 0.0018868416082113981,
      "step": 1080
    },
    {
      "epoch": 0.28,
      "learning_rate": 3.992826398852224e-07,
      "logits/chosen": -4.156329154968262,
      "logits/rejected": -4.075765132904053,
      "logps/chosen": -503.8531188964844,
      "logps/rejected": -443.68731689453125,
      "loss": 0.5874,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.3798424005508423,
      "rewards/margins": 0.3366612493991852,
      "rewards/rejected": 0.04318114370107651,
      "step": 1090
    },
    {
      "epoch": 0.28,
      "learning_rate": 3.978479196556671e-07,
      "logits/chosen": -4.099778652191162,
      "logits/rejected": -4.040897846221924,
      "logps/chosen": -482.4664001464844,
      "logps/rejected": -434.3218688964844,
      "loss": 0.6225,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": 0.2912788987159729,
      "rewards/margins": 0.3869735598564148,
      "rewards/rejected": -0.09569470584392548,
      "step": 1100
    },
    {
      "epoch": 0.28,
      "eval_logits/chosen": -3.998389720916748,
      "eval_logits/rejected": -4.024014949798584,
      "eval_logps/chosen": -545.3189086914062,
      "eval_logps/rejected": -437.8950500488281,
      "eval_loss": 0.5851995944976807,
      "eval_rewards/accuracies": 0.6679999828338623,
      "eval_rewards/chosen": 0.40576791763305664,
      "eval_rewards/margins": 0.3947778642177582,
      "eval_rewards/rejected": 0.01099009346216917,
      "eval_runtime": 145.9401,
      "eval_samples_per_second": 13.704,
      "eval_steps_per_second": 1.713,
      "step": 1100
    },
    {
      "epoch": 0.29,
      "learning_rate": 3.964131994261119e-07,
      "logits/chosen": -4.306766986846924,
      "logits/rejected": -4.230467796325684,
      "logps/chosen": -549.1437377929688,
      "logps/rejected": -444.1548767089844,
      "loss": 0.5957,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.4746015965938568,
      "rewards/margins": 0.5222647786140442,
      "rewards/rejected": -0.047663114964962006,
      "step": 1110
    },
    {
      "epoch": 0.29,
      "learning_rate": 3.9497847919655664e-07,
      "logits/chosen": -4.1666669845581055,
      "logits/rejected": -4.193212509155273,
      "logps/chosen": -506.9803161621094,
      "logps/rejected": -432.77783203125,
      "loss": 0.6335,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.3090699315071106,
      "rewards/margins": 0.2045580893754959,
      "rewards/rejected": 0.10451184213161469,
      "step": 1120
    },
    {
      "epoch": 0.29,
      "learning_rate": 3.9354375896700144e-07,
      "logits/chosen": -3.8870487213134766,
      "logits/rejected": -3.9582340717315674,
      "logps/chosen": -616.6710815429688,
      "logps/rejected": -508.39813232421875,
      "loss": 0.5705,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.48951154947280884,
      "rewards/margins": 0.4596976637840271,
      "rewards/rejected": 0.02981388568878174,
      "step": 1130
    },
    {
      "epoch": 0.29,
      "learning_rate": 3.9210903873744614e-07,
      "logits/chosen": -3.9056262969970703,
      "logits/rejected": -3.7358765602111816,
      "logps/chosen": -550.6695556640625,
      "logps/rejected": -412.7212829589844,
      "loss": 0.5673,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.3575005829334259,
      "rewards/margins": 0.3841975927352905,
      "rewards/rejected": -0.02669701538980007,
      "step": 1140
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.9067431850789094e-07,
      "logits/chosen": -3.873683452606201,
      "logits/rejected": -3.945786714553833,
      "logps/chosen": -598.2088623046875,
      "logps/rejected": -395.6291198730469,
      "loss": 0.6215,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.40675464272499084,
      "rewards/margins": 0.4558509886264801,
      "rewards/rejected": -0.04909630864858627,
      "step": 1150
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.892395982783357e-07,
      "logits/chosen": -3.874563217163086,
      "logits/rejected": -3.988626480102539,
      "logps/chosen": -580.8389282226562,
      "logps/rejected": -464.979248046875,
      "loss": 0.5563,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.4360577464103699,
      "rewards/margins": 0.436431884765625,
      "rewards/rejected": -0.0003741338732652366,
      "step": 1160
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.878048780487805e-07,
      "logits/chosen": -3.8558075428009033,
      "logits/rejected": -3.862384080886841,
      "logps/chosen": -603.0067138671875,
      "logps/rejected": -453.36126708984375,
      "loss": 0.5751,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.5401335954666138,
      "rewards/margins": 0.4825173020362854,
      "rewards/rejected": 0.05761627480387688,
      "step": 1170
    },
    {
      "epoch": 0.3,
      "learning_rate": 3.863701578192252e-07,
      "logits/chosen": -4.10439395904541,
      "logits/rejected": -4.0709943771362305,
      "logps/chosen": -562.9437255859375,
      "logps/rejected": -468.41046142578125,
      "loss": 0.5989,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.5524980425834656,
      "rewards/margins": 0.43577200174331665,
      "rewards/rejected": 0.1167261153459549,
      "step": 1180
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.8493543758967e-07,
      "logits/chosen": -3.9623591899871826,
      "logits/rejected": -3.9735617637634277,
      "logps/chosen": -496.47479248046875,
      "logps/rejected": -354.4454040527344,
      "loss": 0.639,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.2600507140159607,
      "rewards/margins": 0.2917958199977875,
      "rewards/rejected": -0.031745124608278275,
      "step": 1190
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.8350071736011475e-07,
      "logits/chosen": -3.906859874725342,
      "logits/rejected": -3.9087185859680176,
      "logps/chosen": -427.0773010253906,
      "logps/rejected": -349.86077880859375,
      "loss": 0.6289,
      "rewards/accuracies": 0.574999988079071,
      "rewards/chosen": 0.2505320608615875,
      "rewards/margins": 0.1847679316997528,
      "rewards/rejected": 0.06576415151357651,
      "step": 1200
    },
    {
      "epoch": 0.31,
      "eval_logits/chosen": -3.9994406700134277,
      "eval_logits/rejected": -4.025309085845947,
      "eval_logps/chosen": -545.2498168945312,
      "eval_logps/rejected": -437.9264831542969,
      "eval_loss": 0.5823842287063599,
      "eval_rewards/accuracies": 0.6669999957084656,
      "eval_rewards/chosen": 0.41267773509025574,
      "eval_rewards/margins": 0.4048316776752472,
      "eval_rewards/rejected": 0.007846098393201828,
      "eval_runtime": 147.2172,
      "eval_samples_per_second": 13.585,
      "eval_steps_per_second": 1.698,
      "step": 1200
    },
    {
      "epoch": 0.31,
      "learning_rate": 3.8206599713055956e-07,
      "logits/chosen": -4.042483329772949,
      "logits/rejected": -3.88130259513855,
      "logps/chosen": -579.4273681640625,
      "logps/rejected": -485.6758728027344,
      "loss": 0.6176,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.34652236104011536,
      "rewards/margins": 0.2972865104675293,
      "rewards/rejected": 0.049235861748456955,
      "step": 1210
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.8063127690100426e-07,
      "logits/chosen": -4.063638210296631,
      "logits/rejected": -4.126063346862793,
      "logps/chosen": -599.88916015625,
      "logps/rejected": -484.5962829589844,
      "loss": 0.5938,
      "rewards/accuracies": 0.5874999761581421,
      "rewards/chosen": 0.32978740334510803,
      "rewards/margins": 0.2084900587797165,
      "rewards/rejected": 0.12129731476306915,
      "step": 1220
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.7919655667144906e-07,
      "logits/chosen": -3.99627947807312,
      "logits/rejected": -3.940380573272705,
      "logps/chosen": -546.5948486328125,
      "logps/rejected": -412.3846740722656,
      "loss": 0.5958,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.44469523429870605,
      "rewards/margins": 0.48819655179977417,
      "rewards/rejected": -0.0435013584792614,
      "step": 1230
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.777618364418938e-07,
      "logits/chosen": -3.9554569721221924,
      "logits/rejected": -3.9587948322296143,
      "logps/chosen": -467.00677490234375,
      "logps/rejected": -398.10955810546875,
      "loss": 0.5939,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": 0.2916651964187622,
      "rewards/margins": 0.2515104413032532,
      "rewards/rejected": 0.040154773741960526,
      "step": 1240
    },
    {
      "epoch": 0.32,
      "learning_rate": 3.763271162123386e-07,
      "logits/chosen": -3.7756049633026123,
      "logits/rejected": -3.755903720855713,
      "logps/chosen": -591.2271728515625,
      "logps/rejected": -444.3221130371094,
      "loss": 0.5495,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": 0.4893193244934082,
      "rewards/margins": 0.5091069936752319,
      "rewards/rejected": -0.019787678495049477,
      "step": 1250
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.748923959827833e-07,
      "logits/chosen": -4.159283638000488,
      "logits/rejected": -4.039699077606201,
      "logps/chosen": -449.0978088378906,
      "logps/rejected": -326.54791259765625,
      "loss": 0.624,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.2927771806716919,
      "rewards/margins": 0.25214409828186035,
      "rewards/rejected": 0.040633104741573334,
      "step": 1260
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.734576757532281e-07,
      "logits/chosen": -4.083529472351074,
      "logits/rejected": -4.100892543792725,
      "logps/chosen": -642.364501953125,
      "logps/rejected": -476.1664123535156,
      "loss": 0.5597,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": 0.5070067644119263,
      "rewards/margins": 0.6494277715682983,
      "rewards/rejected": -0.1424209624528885,
      "step": 1270
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.7202295552367287e-07,
      "logits/chosen": -4.093569755554199,
      "logits/rejected": -4.279056549072266,
      "logps/chosen": -589.33642578125,
      "logps/rejected": -452.7460021972656,
      "loss": 0.5692,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.5026015639305115,
      "rewards/margins": 0.4538155198097229,
      "rewards/rejected": 0.048786066472530365,
      "step": 1280
    },
    {
      "epoch": 0.33,
      "learning_rate": 3.705882352941176e-07,
      "logits/chosen": -4.209478855133057,
      "logits/rejected": -4.320340633392334,
      "logps/chosen": -601.5377197265625,
      "logps/rejected": -405.8938293457031,
      "loss": 0.5319,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.5548459887504578,
      "rewards/margins": 0.6283925771713257,
      "rewards/rejected": -0.07354650646448135,
      "step": 1290
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.6915351506456237e-07,
      "logits/chosen": -4.303310871124268,
      "logits/rejected": -4.392244338989258,
      "logps/chosen": -526.3382568359375,
      "logps/rejected": -336.311279296875,
      "loss": 0.5818,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.2645590901374817,
      "rewards/margins": 0.33163318037986755,
      "rewards/rejected": -0.06707411259412766,
      "step": 1300
    },
    {
      "epoch": 0.34,
      "eval_logits/chosen": -3.9953150749206543,
      "eval_logits/rejected": -4.021241188049316,
      "eval_logps/chosen": -545.1544189453125,
      "eval_logps/rejected": -437.90802001953125,
      "eval_loss": 0.5818018913269043,
      "eval_rewards/accuracies": 0.6679999828338623,
      "eval_rewards/chosen": 0.42221859097480774,
      "eval_rewards/margins": 0.41252991557121277,
      "eval_rewards/rejected": 0.009688721038401127,
      "eval_runtime": 146.2307,
      "eval_samples_per_second": 13.677,
      "eval_steps_per_second": 1.71,
      "step": 1300
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.677187948350072e-07,
      "logits/chosen": -4.2785139083862305,
      "logits/rejected": -4.281913757324219,
      "logps/chosen": -631.8258056640625,
      "logps/rejected": -432.3312072753906,
      "loss": 0.5513,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.4580743908882141,
      "rewards/margins": 0.5590990781784058,
      "rewards/rejected": -0.10102470219135284,
      "step": 1310
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.6628407460545193e-07,
      "logits/chosen": -4.18049955368042,
      "logits/rejected": -4.1783599853515625,
      "logps/chosen": -482.9546813964844,
      "logps/rejected": -441.1940002441406,
      "loss": 0.6002,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.4040532112121582,
      "rewards/margins": 0.2903508245944977,
      "rewards/rejected": 0.11370239406824112,
      "step": 1320
    },
    {
      "epoch": 0.34,
      "learning_rate": 3.648493543758967e-07,
      "logits/chosen": -4.047448635101318,
      "logits/rejected": -4.031399726867676,
      "logps/chosen": -513.3343505859375,
      "logps/rejected": -439.59857177734375,
      "loss": 0.5949,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": 0.5155481696128845,
      "rewards/margins": 0.5262617468833923,
      "rewards/rejected": -0.01071359496563673,
      "step": 1330
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6341463414634143e-07,
      "logits/chosen": -4.256237983703613,
      "logits/rejected": -4.140265941619873,
      "logps/chosen": -586.2674560546875,
      "logps/rejected": -513.4707641601562,
      "loss": 0.6051,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.4771571159362793,
      "rewards/margins": 0.3665952682495117,
      "rewards/rejected": 0.11056187003850937,
      "step": 1340
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.6197991391678623e-07,
      "logits/chosen": -4.259045600891113,
      "logits/rejected": -4.169145584106445,
      "logps/chosen": -492.68572998046875,
      "logps/rejected": -336.1100769042969,
      "loss": 0.5918,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.3294292390346527,
      "rewards/margins": 0.42583298683166504,
      "rewards/rejected": -0.09640369564294815,
      "step": 1350
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.60545193687231e-07,
      "logits/chosen": -4.042055130004883,
      "logits/rejected": -4.034060478210449,
      "logps/chosen": -437.0550231933594,
      "logps/rejected": -344.05828857421875,
      "loss": 0.5862,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.3367193341255188,
      "rewards/margins": 0.3423077464103699,
      "rewards/rejected": -0.0055884262546896935,
      "step": 1360
    },
    {
      "epoch": 0.35,
      "learning_rate": 3.5911047345767574e-07,
      "logits/chosen": -3.9995014667510986,
      "logits/rejected": -4.026850700378418,
      "logps/chosen": -576.7128295898438,
      "logps/rejected": -466.55010986328125,
      "loss": 0.6112,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.4717404246330261,
      "rewards/margins": 0.5018633604049683,
      "rewards/rejected": -0.030122917145490646,
      "step": 1370
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.576757532281205e-07,
      "logits/chosen": -3.9444518089294434,
      "logits/rejected": -3.91229510307312,
      "logps/chosen": -586.0652465820312,
      "logps/rejected": -464.03271484375,
      "loss": 0.5891,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.3900233507156372,
      "rewards/margins": 0.42400288581848145,
      "rewards/rejected": -0.03397948667407036,
      "step": 1380
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.562410329985653e-07,
      "logits/chosen": -3.970731735229492,
      "logits/rejected": -4.1245927810668945,
      "logps/chosen": -567.556884765625,
      "logps/rejected": -479.55841064453125,
      "loss": 0.6725,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": 0.331743061542511,
      "rewards/margins": 0.251522034406662,
      "rewards/rejected": 0.08022100478410721,
      "step": 1390
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.5480631276901004e-07,
      "logits/chosen": -4.056004524230957,
      "logits/rejected": -4.051678657531738,
      "logps/chosen": -536.676513671875,
      "logps/rejected": -385.55767822265625,
      "loss": 0.567,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.28222841024398804,
      "rewards/margins": 0.38999465107917786,
      "rewards/rejected": -0.10776624828577042,
      "step": 1400
    },
    {
      "epoch": 0.36,
      "eval_logits/chosen": -4.006156921386719,
      "eval_logits/rejected": -4.033264636993408,
      "eval_logps/chosen": -545.279052734375,
      "eval_logps/rejected": -438.14556884765625,
      "eval_loss": 0.5797023773193359,
      "eval_rewards/accuracies": 0.6729999780654907,
      "eval_rewards/chosen": 0.409759521484375,
      "eval_rewards/margins": 0.42382344603538513,
      "eval_rewards/rejected": -0.014063959941267967,
      "eval_runtime": 147.9054,
      "eval_samples_per_second": 13.522,
      "eval_steps_per_second": 1.69,
      "step": 1400
    },
    {
      "epoch": 0.36,
      "learning_rate": 3.533715925394548e-07,
      "logits/chosen": -3.957362413406372,
      "logits/rejected": -3.8286430835723877,
      "logps/chosen": -518.3594970703125,
      "logps/rejected": -345.4431457519531,
      "loss": 0.5558,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": 0.4510959982872009,
      "rewards/margins": 0.5645402669906616,
      "rewards/rejected": -0.11344428360462189,
      "step": 1410
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5193687230989955e-07,
      "logits/chosen": -4.1850199699401855,
      "logits/rejected": -4.076201915740967,
      "logps/chosen": -611.8565673828125,
      "logps/rejected": -568.882080078125,
      "loss": 0.6438,
      "rewards/accuracies": 0.5874999761581421,
      "rewards/chosen": 0.4028521478176117,
      "rewards/margins": 0.12559688091278076,
      "rewards/rejected": 0.2772553265094757,
      "step": 1420
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.5050215208034435e-07,
      "logits/chosen": -4.432595252990723,
      "logits/rejected": -4.352065086364746,
      "logps/chosen": -611.6333618164062,
      "logps/rejected": -451.0577697753906,
      "loss": 0.5624,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.40066614747047424,
      "rewards/margins": 0.4248287081718445,
      "rewards/rejected": -0.024162566289305687,
      "step": 1430
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.4906743185078905e-07,
      "logits/chosen": -4.167354106903076,
      "logits/rejected": -4.119304656982422,
      "logps/chosen": -597.4181518554688,
      "logps/rejected": -468.30126953125,
      "loss": 0.5355,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.5246739983558655,
      "rewards/margins": 0.6675662994384766,
      "rewards/rejected": -0.1428922414779663,
      "step": 1440
    },
    {
      "epoch": 0.37,
      "learning_rate": 3.4763271162123385e-07,
      "logits/chosen": -3.9422059059143066,
      "logits/rejected": -4.009974002838135,
      "logps/chosen": -456.62103271484375,
      "logps/rejected": -456.80462646484375,
      "loss": 0.6016,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": 0.46443605422973633,
      "rewards/margins": 0.3656379282474518,
      "rewards/rejected": 0.09879810363054276,
      "step": 1450
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.461979913916786e-07,
      "logits/chosen": -4.015919208526611,
      "logits/rejected": -4.085513114929199,
      "logps/chosen": -490.6377868652344,
      "logps/rejected": -374.94866943359375,
      "loss": 0.5377,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.44695836305618286,
      "rewards/margins": 0.5198525190353394,
      "rewards/rejected": -0.07289411872625351,
      "step": 1460
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.447632711621234e-07,
      "logits/chosen": -4.100437164306641,
      "logits/rejected": -4.218926906585693,
      "logps/chosen": -555.1058349609375,
      "logps/rejected": -427.87139892578125,
      "loss": 0.6011,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.3257507383823395,
      "rewards/margins": 0.39021044969558716,
      "rewards/rejected": -0.06445976346731186,
      "step": 1470
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.433285509325681e-07,
      "logits/chosen": -3.8781065940856934,
      "logits/rejected": -3.8362109661102295,
      "logps/chosen": -423.455078125,
      "logps/rejected": -366.01617431640625,
      "loss": 0.609,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.23626752197742462,
      "rewards/margins": 0.28217631578445435,
      "rewards/rejected": -0.04590878635644913,
      "step": 1480
    },
    {
      "epoch": 0.38,
      "learning_rate": 3.418938307030129e-07,
      "logits/chosen": -4.141830921173096,
      "logits/rejected": -4.139374256134033,
      "logps/chosen": -490.91473388671875,
      "logps/rejected": -431.1683654785156,
      "loss": 0.5698,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.3411320149898529,
      "rewards/margins": 0.3740822374820709,
      "rewards/rejected": -0.032950229942798615,
      "step": 1490
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.4045911047345766e-07,
      "logits/chosen": -4.246241569519043,
      "logits/rejected": -4.1093244552612305,
      "logps/chosen": -595.197509765625,
      "logps/rejected": -455.29656982421875,
      "loss": 0.5659,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.3736713230609894,
      "rewards/margins": 0.5091021060943604,
      "rewards/rejected": -0.13543078303337097,
      "step": 1500
    },
    {
      "epoch": 0.39,
      "eval_logits/chosen": -3.996328353881836,
      "eval_logits/rejected": -4.024491786956787,
      "eval_logps/chosen": -545.1725463867188,
      "eval_logps/rejected": -438.1591491699219,
      "eval_loss": 0.5790306925773621,
      "eval_rewards/accuracies": 0.6779999732971191,
      "eval_rewards/chosen": 0.4204104244709015,
      "eval_rewards/margins": 0.43583211302757263,
      "eval_rewards/rejected": -0.015421712771058083,
      "eval_runtime": 145.84,
      "eval_samples_per_second": 13.714,
      "eval_steps_per_second": 1.714,
      "step": 1500
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3902439024390247e-07,
      "logits/chosen": -3.910076141357422,
      "logits/rejected": -4.025428295135498,
      "logps/chosen": -489.580322265625,
      "logps/rejected": -334.91131591796875,
      "loss": 0.5546,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.26078709959983826,
      "rewards/margins": 0.4329034686088562,
      "rewards/rejected": -0.17211636900901794,
      "step": 1510
    },
    {
      "epoch": 0.39,
      "learning_rate": 3.3758967001434716e-07,
      "logits/chosen": -4.3428544998168945,
      "logits/rejected": -4.32183837890625,
      "logps/chosen": -733.9967041015625,
      "logps/rejected": -545.9852905273438,
      "loss": 0.5303,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.6733923554420471,
      "rewards/margins": 0.6076704263687134,
      "rewards/rejected": 0.06572196632623672,
      "step": 1520
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.3615494978479197e-07,
      "logits/chosen": -4.124747276306152,
      "logits/rejected": -4.166211128234863,
      "logps/chosen": -608.829345703125,
      "logps/rejected": -383.62518310546875,
      "loss": 0.5576,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.39822494983673096,
      "rewards/margins": 0.5036035776138306,
      "rewards/rejected": -0.1053786501288414,
      "step": 1530
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.347202295552367e-07,
      "logits/chosen": -4.033061981201172,
      "logits/rejected": -4.068852424621582,
      "logps/chosen": -511.05682373046875,
      "logps/rejected": -465.43475341796875,
      "loss": 0.6175,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.35540980100631714,
      "rewards/margins": 0.31782034039497375,
      "rewards/rejected": 0.03758946806192398,
      "step": 1540
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.332855093256815e-07,
      "logits/chosen": -4.0989203453063965,
      "logits/rejected": -4.1430792808532715,
      "logps/chosen": -612.7939453125,
      "logps/rejected": -483.2908630371094,
      "loss": 0.5781,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.567456841468811,
      "rewards/margins": 0.6063565611839294,
      "rewards/rejected": -0.03889976069331169,
      "step": 1550
    },
    {
      "epoch": 0.4,
      "learning_rate": 3.318507890961262e-07,
      "logits/chosen": -4.184214115142822,
      "logits/rejected": -4.299299716949463,
      "logps/chosen": -540.6097412109375,
      "logps/rejected": -396.2356872558594,
      "loss": 0.5515,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.401826947927475,
      "rewards/margins": 0.48910683393478394,
      "rewards/rejected": -0.08727996051311493,
      "step": 1560
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.3041606886657103e-07,
      "logits/chosen": -3.9090118408203125,
      "logits/rejected": -3.9316658973693848,
      "logps/chosen": -574.2691650390625,
      "logps/rejected": -485.7064514160156,
      "loss": 0.674,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.4122130274772644,
      "rewards/margins": 0.2545969486236572,
      "rewards/rejected": 0.1576160490512848,
      "step": 1570
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.289813486370158e-07,
      "logits/chosen": -4.144872665405273,
      "logits/rejected": -4.0689921379089355,
      "logps/chosen": -513.11181640625,
      "logps/rejected": -471.02606201171875,
      "loss": 0.6057,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.34228435158729553,
      "rewards/margins": 0.4427550733089447,
      "rewards/rejected": -0.10047070682048798,
      "step": 1580
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.275466284074606e-07,
      "logits/chosen": -3.9695823192596436,
      "logits/rejected": -4.070342063903809,
      "logps/chosen": -653.9967651367188,
      "logps/rejected": -471.898193359375,
      "loss": 0.5594,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": 0.57194983959198,
      "rewards/margins": 0.6099370121955872,
      "rewards/rejected": -0.03798716515302658,
      "step": 1590
    },
    {
      "epoch": 0.41,
      "learning_rate": 3.261119081779053e-07,
      "logits/chosen": -4.089110851287842,
      "logits/rejected": -4.0619401931762695,
      "logps/chosen": -515.8906860351562,
      "logps/rejected": -470.29541015625,
      "loss": 0.5993,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.42164483666419983,
      "rewards/margins": 0.3623473346233368,
      "rewards/rejected": 0.05929745361208916,
      "step": 1600
    },
    {
      "epoch": 0.41,
      "eval_logits/chosen": -3.990658760070801,
      "eval_logits/rejected": -4.0185322761535645,
      "eval_logps/chosen": -545.216064453125,
      "eval_logps/rejected": -438.2904052734375,
      "eval_loss": 0.5782522559165955,
      "eval_rewards/accuracies": 0.671999990940094,
      "eval_rewards/chosen": 0.41605862975120544,
      "eval_rewards/margins": 0.4446040093898773,
      "eval_rewards/rejected": -0.02854539081454277,
      "eval_runtime": 147.5337,
      "eval_samples_per_second": 13.556,
      "eval_steps_per_second": 1.695,
      "step": 1600
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.246771879483501e-07,
      "logits/chosen": -3.944901704788208,
      "logits/rejected": -3.9903030395507812,
      "logps/chosen": -475.91363525390625,
      "logps/rejected": -396.0389099121094,
      "loss": 0.5996,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.2757423520088196,
      "rewards/margins": 0.3251574635505676,
      "rewards/rejected": -0.049415141344070435,
      "step": 1610
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.2324246771879484e-07,
      "logits/chosen": -4.066908359527588,
      "logits/rejected": -3.8957467079162598,
      "logps/chosen": -538.4827880859375,
      "logps/rejected": -386.1225280761719,
      "loss": 0.5916,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.40634027123451233,
      "rewards/margins": 0.44673413038253784,
      "rewards/rejected": -0.04039386659860611,
      "step": 1620
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.2180774748923953e-07,
      "logits/chosen": -4.119419097900391,
      "logits/rejected": -3.880350112915039,
      "logps/chosen": -571.5280151367188,
      "logps/rejected": -467.98321533203125,
      "loss": 0.5709,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.3607470393180847,
      "rewards/margins": 0.40588730573654175,
      "rewards/rejected": -0.04514027386903763,
      "step": 1630
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.2037302725968434e-07,
      "logits/chosen": -3.995079517364502,
      "logits/rejected": -3.9660801887512207,
      "logps/chosen": -528.3262939453125,
      "logps/rejected": -391.5002746582031,
      "loss": 0.6413,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.3550952970981598,
      "rewards/margins": 0.4048345685005188,
      "rewards/rejected": -0.049739234149456024,
      "step": 1640
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.189383070301291e-07,
      "logits/chosen": -4.0606889724731445,
      "logits/rejected": -4.020025253295898,
      "logps/chosen": -606.38330078125,
      "logps/rejected": -492.71759033203125,
      "loss": 0.5607,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.392439067363739,
      "rewards/margins": 0.29129353165626526,
      "rewards/rejected": 0.10114555060863495,
      "step": 1650
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.175035868005739e-07,
      "logits/chosen": -4.366388320922852,
      "logits/rejected": -4.3169779777526855,
      "logps/chosen": -572.692626953125,
      "logps/rejected": -431.1947326660156,
      "loss": 0.6249,
      "rewards/accuracies": 0.5874999761581421,
      "rewards/chosen": 0.4136829972267151,
      "rewards/margins": 0.31379351019859314,
      "rewards/rejected": 0.09988941252231598,
      "step": 1660
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.160688665710186e-07,
      "logits/chosen": -4.261553764343262,
      "logits/rejected": -4.20203971862793,
      "logps/chosen": -548.4271240234375,
      "logps/rejected": -461.83563232421875,
      "loss": 0.5295,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.4961729943752289,
      "rewards/margins": 0.5303093194961548,
      "rewards/rejected": -0.034136295318603516,
      "step": 1670
    },
    {
      "epoch": 0.43,
      "learning_rate": 3.146341463414634e-07,
      "logits/chosen": -4.172554016113281,
      "logits/rejected": -4.170234680175781,
      "logps/chosen": -538.4212036132812,
      "logps/rejected": -511.212890625,
      "loss": 0.5634,
      "rewards/accuracies": 0.574999988079071,
      "rewards/chosen": 0.45014914870262146,
      "rewards/margins": 0.44471946358680725,
      "rewards/rejected": 0.005429693963378668,
      "step": 1680
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.1319942611190815e-07,
      "logits/chosen": -3.915037155151367,
      "logits/rejected": -3.8585174083709717,
      "logps/chosen": -497.04229736328125,
      "logps/rejected": -471.8094787597656,
      "loss": 0.5919,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.2910478711128235,
      "rewards/margins": 0.37008222937583923,
      "rewards/rejected": -0.07903440296649933,
      "step": 1690
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.1176470588235295e-07,
      "logits/chosen": -3.864201307296753,
      "logits/rejected": -3.8585095405578613,
      "logps/chosen": -542.01953125,
      "logps/rejected": -397.53424072265625,
      "loss": 0.5999,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.17917154729366302,
      "rewards/margins": 0.28133153915405273,
      "rewards/rejected": -0.10215996205806732,
      "step": 1700
    },
    {
      "epoch": 0.44,
      "eval_logits/chosen": -3.99351167678833,
      "eval_logits/rejected": -4.020653247833252,
      "eval_logps/chosen": -545.3095092773438,
      "eval_logps/rejected": -438.4728698730469,
      "eval_loss": 0.5767195820808411,
      "eval_rewards/accuracies": 0.6840000152587891,
      "eval_rewards/chosen": 0.40671002864837646,
      "eval_rewards/margins": 0.4535037875175476,
      "eval_rewards/rejected": -0.04679381474852562,
      "eval_runtime": 147.2862,
      "eval_samples_per_second": 13.579,
      "eval_steps_per_second": 1.697,
      "step": 1700
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.1032998565279765e-07,
      "logits/chosen": -4.243551254272461,
      "logits/rejected": -4.064631938934326,
      "logps/chosen": -478.11187744140625,
      "logps/rejected": -458.78692626953125,
      "loss": 0.5753,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.40352755784988403,
      "rewards/margins": 0.4834938645362854,
      "rewards/rejected": -0.07996630668640137,
      "step": 1710
    },
    {
      "epoch": 0.44,
      "learning_rate": 3.0889526542324245e-07,
      "logits/chosen": -4.1683268547058105,
      "logits/rejected": -4.173158645629883,
      "logps/chosen": -652.5173950195312,
      "logps/rejected": -432.58428955078125,
      "loss": 0.5737,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": 0.4788149297237396,
      "rewards/margins": 0.5799158811569214,
      "rewards/rejected": -0.10110093653202057,
      "step": 1720
    },
    {
      "epoch": 0.45,
      "learning_rate": 3.074605451936872e-07,
      "logits/chosen": -4.137356758117676,
      "logits/rejected": -4.176325798034668,
      "logps/chosen": -576.1214599609375,
      "logps/rejected": -380.2808837890625,
      "loss": 0.5699,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.4571780562400818,
      "rewards/margins": 0.49380144476890564,
      "rewards/rejected": -0.03662336990237236,
      "step": 1730
    },
    {
      "epoch": 0.45,
      "learning_rate": 3.06025824964132e-07,
      "logits/chosen": -4.188223838806152,
      "logits/rejected": -4.05302095413208,
      "logps/chosen": -480.8373107910156,
      "logps/rejected": -422.5328063964844,
      "loss": 0.5799,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.2358378916978836,
      "rewards/margins": 0.28218406438827515,
      "rewards/rejected": -0.04634615033864975,
      "step": 1740
    },
    {
      "epoch": 0.45,
      "learning_rate": 3.045911047345767e-07,
      "logits/chosen": -4.110243797302246,
      "logits/rejected": -4.0695366859436035,
      "logps/chosen": -615.70263671875,
      "logps/rejected": -426.46075439453125,
      "loss": 0.5073,
      "rewards/accuracies": 0.824999988079071,
      "rewards/chosen": 0.5083123445510864,
      "rewards/margins": 0.7217694520950317,
      "rewards/rejected": -0.2134571522474289,
      "step": 1750
    },
    {
      "epoch": 0.45,
      "learning_rate": 3.031563845050215e-07,
      "logits/chosen": -4.203267574310303,
      "logits/rejected": -4.161170482635498,
      "logps/chosen": -590.3410034179688,
      "logps/rejected": -447.26715087890625,
      "loss": 0.5185,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.5431427955627441,
      "rewards/margins": 0.68207848072052,
      "rewards/rejected": -0.13893572986125946,
      "step": 1760
    },
    {
      "epoch": 0.46,
      "learning_rate": 3.0172166427546626e-07,
      "logits/chosen": -4.285967826843262,
      "logits/rejected": -4.167950630187988,
      "logps/chosen": -533.8848876953125,
      "logps/rejected": -413.30975341796875,
      "loss": 0.5936,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": 0.39957305788993835,
      "rewards/margins": 0.3795527517795563,
      "rewards/rejected": 0.020020361989736557,
      "step": 1770
    },
    {
      "epoch": 0.46,
      "learning_rate": 3.00286944045911e-07,
      "logits/chosen": -4.027644634246826,
      "logits/rejected": -3.9792587757110596,
      "logps/chosen": -626.9630737304688,
      "logps/rejected": -397.4438781738281,
      "loss": 0.6014,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.45451897382736206,
      "rewards/margins": 0.5369467735290527,
      "rewards/rejected": -0.08242778480052948,
      "step": 1780
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.9885222381635577e-07,
      "logits/chosen": -4.1345133781433105,
      "logits/rejected": -4.244950771331787,
      "logps/chosen": -562.5131225585938,
      "logps/rejected": -422.6846618652344,
      "loss": 0.5804,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.40697044134140015,
      "rewards/margins": 0.48475074768066406,
      "rewards/rejected": -0.07778030633926392,
      "step": 1790
    },
    {
      "epoch": 0.46,
      "learning_rate": 2.9741750358680057e-07,
      "logits/chosen": -4.032704830169678,
      "logits/rejected": -3.9772307872772217,
      "logps/chosen": -568.47802734375,
      "logps/rejected": -502.3460998535156,
      "loss": 0.6004,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.46621161699295044,
      "rewards/margins": 0.4852283000946045,
      "rewards/rejected": -0.019016731530427933,
      "step": 1800
    },
    {
      "epoch": 0.46,
      "eval_logits/chosen": -3.9943645000457764,
      "eval_logits/rejected": -4.0218825340271,
      "eval_logps/chosen": -545.1437377929688,
      "eval_logps/rejected": -438.3991394042969,
      "eval_loss": 0.5730865597724915,
      "eval_rewards/accuracies": 0.6830000281333923,
      "eval_rewards/chosen": 0.4232881963253021,
      "eval_rewards/margins": 0.46270594000816345,
      "eval_rewards/rejected": -0.03941771015524864,
      "eval_runtime": 148.86,
      "eval_samples_per_second": 13.435,
      "eval_steps_per_second": 1.679,
      "step": 1800
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.959827833572453e-07,
      "logits/chosen": -4.1379075050354,
      "logits/rejected": -4.1423420906066895,
      "logps/chosen": -620.6439819335938,
      "logps/rejected": -438.18084716796875,
      "loss": 0.5651,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.5286334753036499,
      "rewards/margins": 0.5047623515129089,
      "rewards/rejected": 0.02387116476893425,
      "step": 1810
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.9454806312769007e-07,
      "logits/chosen": -4.126761436462402,
      "logits/rejected": -4.265500545501709,
      "logps/chosen": -494.80206298828125,
      "logps/rejected": -427.181640625,
      "loss": 0.6087,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.4608178734779358,
      "rewards/margins": 0.36958831548690796,
      "rewards/rejected": 0.09122952073812485,
      "step": 1820
    },
    {
      "epoch": 0.47,
      "learning_rate": 2.931133428981348e-07,
      "logits/chosen": -4.138312339782715,
      "logits/rejected": -4.2697319984436035,
      "logps/chosen": -492.8348693847656,
      "logps/rejected": -405.1728515625,
      "loss": 0.6199,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": 0.21532472968101501,
      "rewards/margins": 0.19911542534828186,
      "rewards/rejected": 0.016209278255701065,
      "step": 1830
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.9167862266857963e-07,
      "logits/chosen": -4.26310396194458,
      "logits/rejected": -4.242154121398926,
      "logps/chosen": -562.9186401367188,
      "logps/rejected": -377.67303466796875,
      "loss": 0.5497,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": 0.5041324496269226,
      "rewards/margins": 0.5989420413970947,
      "rewards/rejected": -0.09480961412191391,
      "step": 1840
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.902439024390244e-07,
      "logits/chosen": -4.286158561706543,
      "logits/rejected": -4.289405345916748,
      "logps/chosen": -607.9891357421875,
      "logps/rejected": -496.7867126464844,
      "loss": 0.5634,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.5594509840011597,
      "rewards/margins": 0.6072807908058167,
      "rewards/rejected": -0.04782974720001221,
      "step": 1850
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.8880918220946913e-07,
      "logits/chosen": -4.170632839202881,
      "logits/rejected": -4.215968132019043,
      "logps/chosen": -445.17559814453125,
      "logps/rejected": -355.8191223144531,
      "loss": 0.6043,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.31880825757980347,
      "rewards/margins": 0.2609938383102417,
      "rewards/rejected": 0.05781441926956177,
      "step": 1860
    },
    {
      "epoch": 0.48,
      "learning_rate": 2.873744619799139e-07,
      "logits/chosen": -4.265324592590332,
      "logits/rejected": -4.255076885223389,
      "logps/chosen": -590.837158203125,
      "logps/rejected": -441.911376953125,
      "loss": 0.6081,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.33519288897514343,
      "rewards/margins": 0.3991120457649231,
      "rewards/rejected": -0.06391920149326324,
      "step": 1870
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.859397417503587e-07,
      "logits/chosen": -4.415879249572754,
      "logits/rejected": -4.314742565155029,
      "logps/chosen": -501.2169494628906,
      "logps/rejected": -451.86553955078125,
      "loss": 0.6035,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.33651891350746155,
      "rewards/margins": 0.30277958512306213,
      "rewards/rejected": 0.03373932093381882,
      "step": 1880
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.8450502152080344e-07,
      "logits/chosen": -3.878053665161133,
      "logits/rejected": -4.040474891662598,
      "logps/chosen": -647.9942626953125,
      "logps/rejected": -437.6617736816406,
      "loss": 0.5379,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.5844290852546692,
      "rewards/margins": 0.661879301071167,
      "rewards/rejected": -0.07745026051998138,
      "step": 1890
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.830703012912482e-07,
      "logits/chosen": -4.195162296295166,
      "logits/rejected": -4.2288408279418945,
      "logps/chosen": -590.7817993164062,
      "logps/rejected": -428.28387451171875,
      "loss": 0.5349,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": 0.510196328163147,
      "rewards/margins": 0.6029139757156372,
      "rewards/rejected": -0.09271766245365143,
      "step": 1900
    },
    {
      "epoch": 0.49,
      "eval_logits/chosen": -4.0012006759643555,
      "eval_logits/rejected": -4.029512405395508,
      "eval_logps/chosen": -545.0914306640625,
      "eval_logps/rejected": -438.4334716796875,
      "eval_loss": 0.5719799995422363,
      "eval_rewards/accuracies": 0.6830000281333923,
      "eval_rewards/chosen": 0.4285166561603546,
      "eval_rewards/margins": 0.4713680148124695,
      "eval_rewards/rejected": -0.04285132512450218,
      "eval_runtime": 148.6253,
      "eval_samples_per_second": 13.457,
      "eval_steps_per_second": 1.682,
      "step": 1900
    },
    {
      "epoch": 0.49,
      "learning_rate": 2.8163558106169294e-07,
      "logits/chosen": -4.198761940002441,
      "logits/rejected": -4.1362786293029785,
      "logps/chosen": -616.3384399414062,
      "logps/rejected": -427.9803771972656,
      "loss": 0.5013,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": 0.5358282327651978,
      "rewards/margins": 0.5532472729682922,
      "rewards/rejected": -0.017419060692191124,
      "step": 1910
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.8020086083213774e-07,
      "logits/chosen": -4.3343377113342285,
      "logits/rejected": -4.233187198638916,
      "logps/chosen": -663.6807861328125,
      "logps/rejected": -496.68121337890625,
      "loss": 0.5346,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": 0.5831555128097534,
      "rewards/margins": 0.7528368830680847,
      "rewards/rejected": -0.16968131065368652,
      "step": 1920
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.7876614060258244e-07,
      "logits/chosen": -4.208827018737793,
      "logits/rejected": -4.191887378692627,
      "logps/chosen": -546.9085693359375,
      "logps/rejected": -454.7889099121094,
      "loss": 0.6139,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.4015926420688629,
      "rewards/margins": 0.4776438772678375,
      "rewards/rejected": -0.0760512501001358,
      "step": 1930
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.7733142037302725e-07,
      "logits/chosen": -3.8217597007751465,
      "logits/rejected": -3.925053119659424,
      "logps/chosen": -661.263916015625,
      "logps/rejected": -534.646728515625,
      "loss": 0.5292,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": 0.4541807770729065,
      "rewards/margins": 0.5835798382759094,
      "rewards/rejected": -0.12939909100532532,
      "step": 1940
    },
    {
      "epoch": 0.5,
      "learning_rate": 2.75896700143472e-07,
      "logits/chosen": -4.182621955871582,
      "logits/rejected": -3.9824492931365967,
      "logps/chosen": -570.587890625,
      "logps/rejected": -394.5463562011719,
      "loss": 0.5491,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.5437583923339844,
      "rewards/margins": 0.5803283452987671,
      "rewards/rejected": -0.03656994178891182,
      "step": 1950
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.744619799139168e-07,
      "logits/chosen": -4.0817694664001465,
      "logits/rejected": -4.021645545959473,
      "logps/chosen": -562.7216796875,
      "logps/rejected": -408.1803894042969,
      "loss": 0.6227,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.38751038908958435,
      "rewards/margins": 0.412889301776886,
      "rewards/rejected": -0.025378871709108353,
      "step": 1960
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.730272596843615e-07,
      "logits/chosen": -4.210979461669922,
      "logits/rejected": -4.233429908752441,
      "logps/chosen": -531.6992797851562,
      "logps/rejected": -415.34130859375,
      "loss": 0.5544,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": 0.4554630219936371,
      "rewards/margins": 0.6501585841178894,
      "rewards/rejected": -0.1946956068277359,
      "step": 1970
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.715925394548063e-07,
      "logits/chosen": -3.991922378540039,
      "logits/rejected": -3.861186981201172,
      "logps/chosen": -516.5054931640625,
      "logps/rejected": -480.88043212890625,
      "loss": 0.6105,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": 0.35484379529953003,
      "rewards/margins": 0.21209315955638885,
      "rewards/rejected": 0.14275071024894714,
      "step": 1980
    },
    {
      "epoch": 0.51,
      "learning_rate": 2.7015781922525106e-07,
      "logits/chosen": -3.956188678741455,
      "logits/rejected": -3.9556357860565186,
      "logps/chosen": -464.2613830566406,
      "logps/rejected": -448.0741271972656,
      "loss": 0.6277,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.34133443236351013,
      "rewards/margins": 0.3067266345024109,
      "rewards/rejected": 0.03460781276226044,
      "step": 1990
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.6872309899569586e-07,
      "logits/chosen": -4.143117427825928,
      "logits/rejected": -4.186631679534912,
      "logps/chosen": -578.9446411132812,
      "logps/rejected": -439.56658935546875,
      "loss": 0.5377,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": 0.5403174161911011,
      "rewards/margins": 0.633220911026001,
      "rewards/rejected": -0.0929035171866417,
      "step": 2000
    },
    {
      "epoch": 0.52,
      "eval_logits/chosen": -4.000906944274902,
      "eval_logits/rejected": -4.028975009918213,
      "eval_logps/chosen": -545.1220092773438,
      "eval_logps/rejected": -438.54486083984375,
      "eval_loss": 0.5702030062675476,
      "eval_rewards/accuracies": 0.6850000023841858,
      "eval_rewards/chosen": 0.4254603683948517,
      "eval_rewards/margins": 0.4794518053531647,
      "eval_rewards/rejected": -0.0539914108812809,
      "eval_runtime": 147.8823,
      "eval_samples_per_second": 13.524,
      "eval_steps_per_second": 1.691,
      "step": 2000
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.6728837876614056e-07,
      "logits/chosen": -4.1301422119140625,
      "logits/rejected": -4.1415839195251465,
      "logps/chosen": -582.57666015625,
      "logps/rejected": -450.591552734375,
      "loss": 0.5582,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": 0.5017611384391785,
      "rewards/margins": 0.6365527510643005,
      "rewards/rejected": -0.13479158282279968,
      "step": 2010
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.6585365853658536e-07,
      "logits/chosen": -4.098201274871826,
      "logits/rejected": -4.06491756439209,
      "logps/chosen": -536.2640380859375,
      "logps/rejected": -417.99481201171875,
      "loss": 0.5795,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.4373628497123718,
      "rewards/margins": 0.393180251121521,
      "rewards/rejected": 0.044182561337947845,
      "step": 2020
    },
    {
      "epoch": 0.52,
      "learning_rate": 2.644189383070301e-07,
      "logits/chosen": -4.560007572174072,
      "logits/rejected": -4.380262851715088,
      "logps/chosen": -560.2337646484375,
      "logps/rejected": -399.133056640625,
      "loss": 0.5672,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": 0.5478136539459229,
      "rewards/margins": 0.6600695252418518,
      "rewards/rejected": -0.11225590854883194,
      "step": 2030
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.629842180774749e-07,
      "logits/chosen": -4.084300518035889,
      "logits/rejected": -4.194989204406738,
      "logps/chosen": -615.1845703125,
      "logps/rejected": -399.0810546875,
      "loss": 0.5302,
      "rewards/accuracies": 0.875,
      "rewards/chosen": 0.5594775676727295,
      "rewards/margins": 0.8519641160964966,
      "rewards/rejected": -0.2924865782260895,
      "step": 2040
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.615494978479196e-07,
      "logits/chosen": -3.948491334915161,
      "logits/rejected": -3.790837049484253,
      "logps/chosen": -506.5896911621094,
      "logps/rejected": -390.9329528808594,
      "loss": 0.5634,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.3724905848503113,
      "rewards/margins": 0.4565068781375885,
      "rewards/rejected": -0.08401624858379364,
      "step": 2050
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.601147776183644e-07,
      "logits/chosen": -4.237751007080078,
      "logits/rejected": -4.1675705909729,
      "logps/chosen": -569.1129150390625,
      "logps/rejected": -415.8509826660156,
      "loss": 0.5397,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.3635835647583008,
      "rewards/margins": 0.4130166471004486,
      "rewards/rejected": -0.04943311959505081,
      "step": 2060
    },
    {
      "epoch": 0.53,
      "learning_rate": 2.5868005738880917e-07,
      "logits/chosen": -4.343452453613281,
      "logits/rejected": -4.299803733825684,
      "logps/chosen": -468.18768310546875,
      "logps/rejected": -420.81256103515625,
      "loss": 0.5592,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.4336473047733307,
      "rewards/margins": 0.4215630888938904,
      "rewards/rejected": 0.012084214016795158,
      "step": 2070
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.57245337159254e-07,
      "logits/chosen": -4.12381649017334,
      "logits/rejected": -4.066357135772705,
      "logps/chosen": -512.6734619140625,
      "logps/rejected": -421.00872802734375,
      "loss": 0.5649,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.26631009578704834,
      "rewards/margins": 0.49776148796081543,
      "rewards/rejected": -0.23145142197608948,
      "step": 2080
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.558106169296987e-07,
      "logits/chosen": -4.055663108825684,
      "logits/rejected": -4.202220439910889,
      "logps/chosen": -531.7757568359375,
      "logps/rejected": -427.21051025390625,
      "loss": 0.5916,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.35120105743408203,
      "rewards/margins": 0.329306036233902,
      "rewards/rejected": 0.021895062178373337,
      "step": 2090
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.543758967001435e-07,
      "logits/chosen": -3.896604537963867,
      "logits/rejected": -3.8615658283233643,
      "logps/chosen": -546.3208618164062,
      "logps/rejected": -435.53143310546875,
      "loss": 0.4988,
      "rewards/accuracies": 0.7875000238418579,
      "rewards/chosen": 0.46676820516586304,
      "rewards/margins": 0.7485499382019043,
      "rewards/rejected": -0.28178170323371887,
      "step": 2100
    },
    {
      "epoch": 0.54,
      "eval_logits/chosen": -4.003889560699463,
      "eval_logits/rejected": -4.031704425811768,
      "eval_logps/chosen": -545.0299072265625,
      "eval_logps/rejected": -438.5533142089844,
      "eval_loss": 0.5712563395500183,
      "eval_rewards/accuracies": 0.6840000152587891,
      "eval_rewards/chosen": 0.43467363715171814,
      "eval_rewards/margins": 0.4895067512989044,
      "eval_rewards/rejected": -0.05483310669660568,
      "eval_runtime": 148.9309,
      "eval_samples_per_second": 13.429,
      "eval_steps_per_second": 1.679,
      "step": 2100
    },
    {
      "epoch": 0.54,
      "learning_rate": 2.5294117647058823e-07,
      "logits/chosen": -4.0738677978515625,
      "logits/rejected": -4.02095890045166,
      "logps/chosen": -547.7879638671875,
      "logps/rejected": -461.1922302246094,
      "loss": 0.5612,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.4428838789463043,
      "rewards/margins": 0.4759696424007416,
      "rewards/rejected": -0.03308583423495293,
      "step": 2110
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.51506456241033e-07,
      "logits/chosen": -4.027615547180176,
      "logits/rejected": -4.137267112731934,
      "logps/chosen": -519.4240112304688,
      "logps/rejected": -418.49884033203125,
      "loss": 0.5573,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.33291319012641907,
      "rewards/margins": 0.5208204388618469,
      "rewards/rejected": -0.18790724873542786,
      "step": 2120
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.5007173601147773e-07,
      "logits/chosen": -3.9522101879119873,
      "logits/rejected": -4.056872367858887,
      "logps/chosen": -581.5064697265625,
      "logps/rejected": -583.0844116210938,
      "loss": 0.5702,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.40307894349098206,
      "rewards/margins": 0.49982690811157227,
      "rewards/rejected": -0.09674793481826782,
      "step": 2130
    },
    {
      "epoch": 0.55,
      "learning_rate": 2.486370157819225e-07,
      "logits/chosen": -4.075150966644287,
      "logits/rejected": -3.9781277179718018,
      "logps/chosen": -570.3604736328125,
      "logps/rejected": -457.1639099121094,
      "loss": 0.5703,
      "rewards/accuracies": 0.574999988079071,
      "rewards/chosen": 0.4488401412963867,
      "rewards/margins": 0.4194963574409485,
      "rewards/rejected": 0.029343824833631516,
      "step": 2140
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.472022955523673e-07,
      "logits/chosen": -3.9273715019226074,
      "logits/rejected": -4.03403377532959,
      "logps/chosen": -576.674072265625,
      "logps/rejected": -480.82330322265625,
      "loss": 0.5837,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.4813673496246338,
      "rewards/margins": 0.5193904638290405,
      "rewards/rejected": -0.038023076951503754,
      "step": 2150
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.4576757532281204e-07,
      "logits/chosen": -4.104135513305664,
      "logits/rejected": -4.141896724700928,
      "logps/chosen": -570.6798095703125,
      "logps/rejected": -480.5628967285156,
      "loss": 0.6344,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.4069296419620514,
      "rewards/margins": 0.38408637046813965,
      "rewards/rejected": 0.02284328266978264,
      "step": 2160
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.443328550932568e-07,
      "logits/chosen": -3.959376811981201,
      "logits/rejected": -3.8872084617614746,
      "logps/chosen": -552.5087280273438,
      "logps/rejected": -436.44189453125,
      "loss": 0.568,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.29828330874443054,
      "rewards/margins": 0.3948608338832855,
      "rewards/rejected": -0.09657756984233856,
      "step": 2170
    },
    {
      "epoch": 0.56,
      "learning_rate": 2.4289813486370154e-07,
      "logits/chosen": -4.081685543060303,
      "logits/rejected": -4.045130729675293,
      "logps/chosen": -545.3685302734375,
      "logps/rejected": -373.71600341796875,
      "loss": 0.5179,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.462582528591156,
      "rewards/margins": 0.6623843908309937,
      "rewards/rejected": -0.19980189204216003,
      "step": 2180
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.4146341463414635e-07,
      "logits/chosen": -4.286005973815918,
      "logits/rejected": -4.341670036315918,
      "logps/chosen": -546.548828125,
      "logps/rejected": -416.674072265625,
      "loss": 0.5689,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.4305512011051178,
      "rewards/margins": 0.6499841213226318,
      "rewards/rejected": -0.21943287551403046,
      "step": 2190
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.400286944045911e-07,
      "logits/chosen": -3.9777417182922363,
      "logits/rejected": -3.9910645484924316,
      "logps/chosen": -470.6476135253906,
      "logps/rejected": -453.6451721191406,
      "loss": 0.6093,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.38502687215805054,
      "rewards/margins": 0.30599719285964966,
      "rewards/rejected": 0.07902970165014267,
      "step": 2200
    },
    {
      "epoch": 0.57,
      "eval_logits/chosen": -4.001364231109619,
      "eval_logits/rejected": -4.028832912445068,
      "eval_logps/chosen": -544.912841796875,
      "eval_logps/rejected": -438.4606628417969,
      "eval_loss": 0.5706081986427307,
      "eval_rewards/accuracies": 0.6809999942779541,
      "eval_rewards/chosen": 0.44638243317604065,
      "eval_rewards/margins": 0.49195748567581177,
      "eval_rewards/rejected": -0.045575033873319626,
      "eval_runtime": 146.1996,
      "eval_samples_per_second": 13.68,
      "eval_steps_per_second": 1.71,
      "step": 2200
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.3859397417503585e-07,
      "logits/chosen": -4.030927658081055,
      "logits/rejected": -3.9580256938934326,
      "logps/chosen": -514.30712890625,
      "logps/rejected": -354.2815246582031,
      "loss": 0.5861,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.4988827705383301,
      "rewards/margins": 0.5217560529708862,
      "rewards/rejected": -0.0228732917457819,
      "step": 2210
    },
    {
      "epoch": 0.57,
      "learning_rate": 2.3715925394548063e-07,
      "logits/chosen": -4.007624626159668,
      "logits/rejected": -4.2475457191467285,
      "logps/chosen": -661.9398193359375,
      "logps/rejected": -411.38848876953125,
      "loss": 0.538,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": 0.663671612739563,
      "rewards/margins": 0.7176098227500916,
      "rewards/rejected": -0.05393817275762558,
      "step": 2220
    },
    {
      "epoch": 0.58,
      "learning_rate": 2.3572453371592538e-07,
      "logits/chosen": -4.090206146240234,
      "logits/rejected": -4.1433539390563965,
      "logps/chosen": -504.1729431152344,
      "logps/rejected": -387.82623291015625,
      "loss": 0.5351,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.45734721422195435,
      "rewards/margins": 0.4615212082862854,
      "rewards/rejected": -0.0041740150190889835,
      "step": 2230
    },
    {
      "epoch": 0.58,
      "learning_rate": 2.3428981348637013e-07,
      "logits/chosen": -4.289696216583252,
      "logits/rejected": -4.263758659362793,
      "logps/chosen": -579.8231201171875,
      "logps/rejected": -404.7850646972656,
      "loss": 0.5307,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": 0.6702554225921631,
      "rewards/margins": 0.7904798984527588,
      "rewards/rejected": -0.12022446095943451,
      "step": 2240
    },
    {
      "epoch": 0.58,
      "learning_rate": 2.328550932568149e-07,
      "logits/chosen": -3.835402727127075,
      "logits/rejected": -3.8511269092559814,
      "logps/chosen": -510.6192932128906,
      "logps/rejected": -446.6246643066406,
      "loss": 0.6048,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.38664764165878296,
      "rewards/margins": 0.3122571110725403,
      "rewards/rejected": 0.07439050823450089,
      "step": 2250
    },
    {
      "epoch": 0.58,
      "learning_rate": 2.3142037302725966e-07,
      "logits/chosen": -3.915778398513794,
      "logits/rejected": -3.8879055976867676,
      "logps/chosen": -513.9568481445312,
      "logps/rejected": -410.12310791015625,
      "loss": 0.5356,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.4804447293281555,
      "rewards/margins": 0.5258998274803162,
      "rewards/rejected": -0.04545507952570915,
      "step": 2260
    },
    {
      "epoch": 0.59,
      "learning_rate": 2.2998565279770444e-07,
      "logits/chosen": -4.199291229248047,
      "logits/rejected": -4.164752006530762,
      "logps/chosen": -644.1868896484375,
      "logps/rejected": -394.4111022949219,
      "loss": 0.603,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.38507136702537537,
      "rewards/margins": 0.504477858543396,
      "rewards/rejected": -0.11940644681453705,
      "step": 2270
    },
    {
      "epoch": 0.59,
      "learning_rate": 2.285509325681492e-07,
      "logits/chosen": -4.0966033935546875,
      "logits/rejected": -4.1276421546936035,
      "logps/chosen": -525.5519409179688,
      "logps/rejected": -452.3783264160156,
      "loss": 0.5688,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.3376069664955139,
      "rewards/margins": 0.48656487464904785,
      "rewards/rejected": -0.14895787835121155,
      "step": 2280
    },
    {
      "epoch": 0.59,
      "learning_rate": 2.2711621233859396e-07,
      "logits/chosen": -3.9321861267089844,
      "logits/rejected": -3.8997440338134766,
      "logps/chosen": -524.1985473632812,
      "logps/rejected": -368.1291198730469,
      "loss": 0.5533,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.33177611231803894,
      "rewards/margins": 0.49390387535095215,
      "rewards/rejected": -0.1621277630329132,
      "step": 2290
    },
    {
      "epoch": 0.59,
      "learning_rate": 2.2568149210903872e-07,
      "logits/chosen": -4.461883544921875,
      "logits/rejected": -4.530648708343506,
      "logps/chosen": -619.8561401367188,
      "logps/rejected": -468.6748046875,
      "loss": 0.5356,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.5222944021224976,
      "rewards/margins": 0.6014097929000854,
      "rewards/rejected": -0.07911545038223267,
      "step": 2300
    },
    {
      "epoch": 0.59,
      "eval_logits/chosen": -3.998574733734131,
      "eval_logits/rejected": -4.025696277618408,
      "eval_logps/chosen": -544.8922119140625,
      "eval_logps/rejected": -438.4912109375,
      "eval_loss": 0.5689104199409485,
      "eval_rewards/accuracies": 0.6880000233650208,
      "eval_rewards/chosen": 0.448445200920105,
      "eval_rewards/margins": 0.49707192182540894,
      "eval_rewards/rejected": -0.04862673580646515,
      "eval_runtime": 148.9177,
      "eval_samples_per_second": 13.43,
      "eval_steps_per_second": 1.679,
      "step": 2300
    },
    {
      "epoch": 0.6,
      "learning_rate": 2.242467718794835e-07,
      "logits/chosen": -3.9245476722717285,
      "logits/rejected": -4.00443696975708,
      "logps/chosen": -561.0607299804688,
      "logps/rejected": -444.2076110839844,
      "loss": 0.542,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": 0.41927021741867065,
      "rewards/margins": 0.5216065049171448,
      "rewards/rejected": -0.10233630239963531,
      "step": 2310
    },
    {
      "epoch": 0.6,
      "learning_rate": 2.2281205164992824e-07,
      "logits/chosen": -4.177279949188232,
      "logits/rejected": -4.077963352203369,
      "logps/chosen": -504.2713928222656,
      "logps/rejected": -444.5032653808594,
      "loss": 0.6156,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.43868088722229004,
      "rewards/margins": 0.4138507843017578,
      "rewards/rejected": 0.024830086156725883,
      "step": 2320
    },
    {
      "epoch": 0.6,
      "learning_rate": 2.2137733142037302e-07,
      "logits/chosen": -3.990638017654419,
      "logits/rejected": -4.014552593231201,
      "logps/chosen": -549.037353515625,
      "logps/rejected": -442.3534240722656,
      "loss": 0.5213,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.5215023756027222,
      "rewards/margins": 0.638957679271698,
      "rewards/rejected": -0.11745530366897583,
      "step": 2330
    },
    {
      "epoch": 0.6,
      "learning_rate": 2.1994261119081777e-07,
      "logits/chosen": -4.201764106750488,
      "logits/rejected": -4.19627046585083,
      "logps/chosen": -564.8765258789062,
      "logps/rejected": -433.4271545410156,
      "loss": 0.5939,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.4676602780818939,
      "rewards/margins": 0.5004759430885315,
      "rewards/rejected": -0.03281565010547638,
      "step": 2340
    },
    {
      "epoch": 0.61,
      "learning_rate": 2.1850789096126255e-07,
      "logits/chosen": -3.911675214767456,
      "logits/rejected": -4.010054588317871,
      "logps/chosen": -611.3627319335938,
      "logps/rejected": -452.5043029785156,
      "loss": 0.663,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.40320587158203125,
      "rewards/margins": 0.3427828252315521,
      "rewards/rejected": 0.060423027724027634,
      "step": 2350
    },
    {
      "epoch": 0.61,
      "learning_rate": 2.170731707317073e-07,
      "logits/chosen": -4.167824745178223,
      "logits/rejected": -4.243043422698975,
      "logps/chosen": -556.890625,
      "logps/rejected": -397.8431091308594,
      "loss": 0.551,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": 0.4790073037147522,
      "rewards/margins": 0.5861107110977173,
      "rewards/rejected": -0.10710340738296509,
      "step": 2360
    },
    {
      "epoch": 0.61,
      "learning_rate": 2.1563845050215208e-07,
      "logits/chosen": -4.110980033874512,
      "logits/rejected": -4.188474655151367,
      "logps/chosen": -569.0153198242188,
      "logps/rejected": -404.994384765625,
      "loss": 0.5716,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.4905467927455902,
      "rewards/margins": 0.5199242830276489,
      "rewards/rejected": -0.029377540573477745,
      "step": 2370
    },
    {
      "epoch": 0.61,
      "learning_rate": 2.1420373027259683e-07,
      "logits/chosen": -4.269859313964844,
      "logits/rejected": -4.332370758056641,
      "logps/chosen": -543.8313598632812,
      "logps/rejected": -437.123046875,
      "loss": 0.5571,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": 0.500403106212616,
      "rewards/margins": 0.7072377800941467,
      "rewards/rejected": -0.20683467388153076,
      "step": 2380
    },
    {
      "epoch": 0.62,
      "learning_rate": 2.127690100430416e-07,
      "logits/chosen": -3.926335096359253,
      "logits/rejected": -3.9738330841064453,
      "logps/chosen": -533.0458984375,
      "logps/rejected": -424.850341796875,
      "loss": 0.6198,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.35639142990112305,
      "rewards/margins": 0.4018617570400238,
      "rewards/rejected": -0.04547032713890076,
      "step": 2390
    },
    {
      "epoch": 0.62,
      "learning_rate": 2.1133428981348636e-07,
      "logits/chosen": -3.779186248779297,
      "logits/rejected": -3.8913798332214355,
      "logps/chosen": -617.508056640625,
      "logps/rejected": -492.209228515625,
      "loss": 0.5753,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.5383332371711731,
      "rewards/margins": 0.467332661151886,
      "rewards/rejected": 0.07100055366754532,
      "step": 2400
    },
    {
      "epoch": 0.62,
      "eval_logits/chosen": -3.9845926761627197,
      "eval_logits/rejected": -4.009966850280762,
      "eval_logps/chosen": -544.7802124023438,
      "eval_logps/rejected": -438.44573974609375,
      "eval_loss": 0.5681360960006714,
      "eval_rewards/accuracies": 0.6850000023841858,
      "eval_rewards/chosen": 0.4596436619758606,
      "eval_rewards/margins": 0.5037252306938171,
      "eval_rewards/rejected": -0.04408155009150505,
      "eval_runtime": 148.5709,
      "eval_samples_per_second": 13.462,
      "eval_steps_per_second": 1.683,
      "step": 2400
    },
    {
      "epoch": 0.62,
      "learning_rate": 2.098995695839311e-07,
      "logits/chosen": -3.978921890258789,
      "logits/rejected": -3.8923873901367188,
      "logps/chosen": -556.697998046875,
      "logps/rejected": -416.08184814453125,
      "loss": 0.534,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": 0.4480956494808197,
      "rewards/margins": 0.6271561980247498,
      "rewards/rejected": -0.17906051874160767,
      "step": 2410
    },
    {
      "epoch": 0.62,
      "learning_rate": 2.084648493543759e-07,
      "logits/chosen": -4.281157493591309,
      "logits/rejected": -4.271050453186035,
      "logps/chosen": -673.8267211914062,
      "logps/rejected": -463.4944763183594,
      "loss": 0.5461,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.5151551365852356,
      "rewards/margins": 0.6002731919288635,
      "rewards/rejected": -0.08511805534362793,
      "step": 2420
    },
    {
      "epoch": 0.63,
      "learning_rate": 2.0703012912482064e-07,
      "logits/chosen": -3.901240110397339,
      "logits/rejected": -3.862910509109497,
      "logps/chosen": -591.2846069335938,
      "logps/rejected": -389.8904113769531,
      "loss": 0.6189,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.2968345284461975,
      "rewards/margins": 0.3309480547904968,
      "rewards/rejected": -0.03411349281668663,
      "step": 2430
    },
    {
      "epoch": 0.63,
      "learning_rate": 2.0559540889526542e-07,
      "logits/chosen": -4.235989570617676,
      "logits/rejected": -4.060244560241699,
      "logps/chosen": -597.9428100585938,
      "logps/rejected": -404.6048889160156,
      "loss": 0.5864,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.46942558884620667,
      "rewards/margins": 0.5440183877944946,
      "rewards/rejected": -0.07459276914596558,
      "step": 2440
    },
    {
      "epoch": 0.63,
      "learning_rate": 2.0416068866571017e-07,
      "logits/chosen": -3.8396244049072266,
      "logits/rejected": -3.752044677734375,
      "logps/chosen": -601.25341796875,
      "logps/rejected": -435.07647705078125,
      "loss": 0.5917,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.49751096963882446,
      "rewards/margins": 0.46320000290870667,
      "rewards/rejected": 0.03431097790598869,
      "step": 2450
    },
    {
      "epoch": 0.64,
      "learning_rate": 2.0272596843615495e-07,
      "logits/chosen": -4.197469711303711,
      "logits/rejected": -4.122381687164307,
      "logps/chosen": -553.6739501953125,
      "logps/rejected": -420.4598083496094,
      "loss": 0.5932,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.453556627035141,
      "rewards/margins": 0.4589596390724182,
      "rewards/rejected": -0.005403043236583471,
      "step": 2460
    },
    {
      "epoch": 0.64,
      "learning_rate": 2.012912482065997e-07,
      "logits/chosen": -4.135566711425781,
      "logits/rejected": -4.087862968444824,
      "logps/chosen": -528.1041259765625,
      "logps/rejected": -432.2552795410156,
      "loss": 0.5474,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.5243477821350098,
      "rewards/margins": 0.636970043182373,
      "rewards/rejected": -0.11262223869562149,
      "step": 2470
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.9985652797704448e-07,
      "logits/chosen": -3.9298617839813232,
      "logits/rejected": -3.9982573986053467,
      "logps/chosen": -466.2574157714844,
      "logps/rejected": -393.4660339355469,
      "loss": 0.5623,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.469001442193985,
      "rewards/margins": 0.48559433221817017,
      "rewards/rejected": -0.016592923551797867,
      "step": 2480
    },
    {
      "epoch": 0.64,
      "learning_rate": 1.9842180774748923e-07,
      "logits/chosen": -3.9439053535461426,
      "logits/rejected": -3.8986332416534424,
      "logps/chosen": -559.919921875,
      "logps/rejected": -430.98162841796875,
      "loss": 0.5399,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.4386838376522064,
      "rewards/margins": 0.4418070912361145,
      "rewards/rejected": -0.003123197006061673,
      "step": 2490
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.96987087517934e-07,
      "logits/chosen": -4.274647235870361,
      "logits/rejected": -4.253532409667969,
      "logps/chosen": -593.2935791015625,
      "logps/rejected": -445.554931640625,
      "loss": 0.5709,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.4176342487335205,
      "rewards/margins": 0.4632183909416199,
      "rewards/rejected": -0.04558416083455086,
      "step": 2500
    },
    {
      "epoch": 0.65,
      "eval_logits/chosen": -3.984861135482788,
      "eval_logits/rejected": -4.0099897384643555,
      "eval_logps/chosen": -544.6834716796875,
      "eval_logps/rejected": -438.3924255371094,
      "eval_loss": 0.5672796368598938,
      "eval_rewards/accuracies": 0.6909999847412109,
      "eval_rewards/chosen": 0.4693204462528229,
      "eval_rewards/margins": 0.5080692172050476,
      "eval_rewards/rejected": -0.03874876722693443,
      "eval_runtime": 146.2016,
      "eval_samples_per_second": 13.68,
      "eval_steps_per_second": 1.71,
      "step": 2500
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.9555236728837876e-07,
      "logits/chosen": -4.1506547927856445,
      "logits/rejected": -4.121700286865234,
      "logps/chosen": -559.0662231445312,
      "logps/rejected": -428.6475524902344,
      "loss": 0.5692,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.5197519659996033,
      "rewards/margins": 0.5856004953384399,
      "rewards/rejected": -0.06584848463535309,
      "step": 2510
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.9411764705882353e-07,
      "logits/chosen": -4.2824015617370605,
      "logits/rejected": -4.196056365966797,
      "logps/chosen": -598.8436279296875,
      "logps/rejected": -525.2330322265625,
      "loss": 0.5574,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.4597892165184021,
      "rewards/margins": 0.5178920030593872,
      "rewards/rejected": -0.05810274928808212,
      "step": 2520
    },
    {
      "epoch": 0.65,
      "learning_rate": 1.9268292682926829e-07,
      "logits/chosen": -4.085073947906494,
      "logits/rejected": -4.154143810272217,
      "logps/chosen": -669.5693359375,
      "logps/rejected": -449.7344665527344,
      "loss": 0.5496,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.6506977081298828,
      "rewards/margins": 0.7707425355911255,
      "rewards/rejected": -0.12004482746124268,
      "step": 2530
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.9124820659971306e-07,
      "logits/chosen": -3.931575059890747,
      "logits/rejected": -3.969634532928467,
      "logps/chosen": -670.7431640625,
      "logps/rejected": -442.46405029296875,
      "loss": 0.5956,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.47314882278442383,
      "rewards/margins": 0.5320797562599182,
      "rewards/rejected": -0.058930885046720505,
      "step": 2540
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.8981348637015781e-07,
      "logits/chosen": -3.7605667114257812,
      "logits/rejected": -3.7463626861572266,
      "logps/chosen": -507.4091796875,
      "logps/rejected": -419.73919677734375,
      "loss": 0.6149,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.4424256384372711,
      "rewards/margins": 0.36436089873313904,
      "rewards/rejected": 0.07806471735239029,
      "step": 2550
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.883787661406026e-07,
      "logits/chosen": -3.9714431762695312,
      "logits/rejected": -4.080648899078369,
      "logps/chosen": -589.9671630859375,
      "logps/rejected": -402.8089904785156,
      "loss": 0.5552,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.5086973309516907,
      "rewards/margins": 0.7329601645469666,
      "rewards/rejected": -0.2242628037929535,
      "step": 2560
    },
    {
      "epoch": 0.66,
      "learning_rate": 1.8694404591104734e-07,
      "logits/chosen": -4.056425094604492,
      "logits/rejected": -4.178628444671631,
      "logps/chosen": -524.011962890625,
      "logps/rejected": -415.20233154296875,
      "loss": 0.6136,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.41316717863082886,
      "rewards/margins": 0.47009795904159546,
      "rewards/rejected": -0.056930772960186005,
      "step": 2570
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.855093256814921e-07,
      "logits/chosen": -4.216281890869141,
      "logits/rejected": -4.076776027679443,
      "logps/chosen": -544.1904296875,
      "logps/rejected": -466.5315856933594,
      "loss": 0.575,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.41413965821266174,
      "rewards/margins": 0.48670220375061035,
      "rewards/rejected": -0.07256259769201279,
      "step": 2580
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.8407460545193687e-07,
      "logits/chosen": -4.047214984893799,
      "logits/rejected": -4.0597639083862305,
      "logps/chosen": -594.7711181640625,
      "logps/rejected": -453.0791015625,
      "loss": 0.612,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.6000150442123413,
      "rewards/margins": 0.62732994556427,
      "rewards/rejected": -0.027314912527799606,
      "step": 2590
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.8263988522238162e-07,
      "logits/chosen": -3.8675410747528076,
      "logits/rejected": -3.881988525390625,
      "logps/chosen": -478.98443603515625,
      "logps/rejected": -408.0418395996094,
      "loss": 0.5565,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.34187614917755127,
      "rewards/margins": 0.5348206162452698,
      "rewards/rejected": -0.19294443726539612,
      "step": 2600
    },
    {
      "epoch": 0.67,
      "eval_logits/chosen": -3.984271764755249,
      "eval_logits/rejected": -4.009637832641602,
      "eval_logps/chosen": -544.6849975585938,
      "eval_logps/rejected": -438.4054260253906,
      "eval_loss": 0.5665393471717834,
      "eval_rewards/accuracies": 0.6819999814033508,
      "eval_rewards/chosen": 0.469163715839386,
      "eval_rewards/margins": 0.5092154145240784,
      "eval_rewards/rejected": -0.04005170986056328,
      "eval_runtime": 145.7676,
      "eval_samples_per_second": 13.72,
      "eval_steps_per_second": 1.715,
      "step": 2600
    },
    {
      "epoch": 0.67,
      "learning_rate": 1.812051649928264e-07,
      "logits/chosen": -3.83473539352417,
      "logits/rejected": -3.9073386192321777,
      "logps/chosen": -604.2052612304688,
      "logps/rejected": -456.9849548339844,
      "loss": 0.5876,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.5973328351974487,
      "rewards/margins": 0.4590074121952057,
      "rewards/rejected": 0.13832543790340424,
      "step": 2610
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.7977044476327115e-07,
      "logits/chosen": -3.848345994949341,
      "logits/rejected": -3.786773681640625,
      "logps/chosen": -502.00653076171875,
      "logps/rejected": -401.30877685546875,
      "loss": 0.6026,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.4152609407901764,
      "rewards/margins": 0.3713647425174713,
      "rewards/rejected": 0.04389624670147896,
      "step": 2620
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.7833572453371593e-07,
      "logits/chosen": -4.126666069030762,
      "logits/rejected": -4.045652389526367,
      "logps/chosen": -495.5149841308594,
      "logps/rejected": -428.750244140625,
      "loss": 0.5802,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.4449082911014557,
      "rewards/margins": 0.48476019501686096,
      "rewards/rejected": -0.03985190391540527,
      "step": 2630
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.7690100430416068e-07,
      "logits/chosen": -4.006113529205322,
      "logits/rejected": -4.05719518661499,
      "logps/chosen": -564.3095092773438,
      "logps/rejected": -465.112060546875,
      "loss": 0.5478,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.4402576982975006,
      "rewards/margins": 0.5477269887924194,
      "rewards/rejected": -0.10746929794549942,
      "step": 2640
    },
    {
      "epoch": 0.68,
      "learning_rate": 1.7546628407460546e-07,
      "logits/chosen": -4.016690254211426,
      "logits/rejected": -4.137378692626953,
      "logps/chosen": -540.1869506835938,
      "logps/rejected": -384.2567443847656,
      "loss": 0.5053,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": 0.46003857254981995,
      "rewards/margins": 0.587317168712616,
      "rewards/rejected": -0.1272786259651184,
      "step": 2650
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.740315638450502e-07,
      "logits/chosen": -4.14896297454834,
      "logits/rejected": -4.022231101989746,
      "logps/chosen": -551.8126831054688,
      "logps/rejected": -429.8963317871094,
      "loss": 0.553,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.5274641513824463,
      "rewards/margins": 0.4932268559932709,
      "rewards/rejected": 0.034237295389175415,
      "step": 2660
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.72596843615495e-07,
      "logits/chosen": -3.9441299438476562,
      "logits/rejected": -3.7229416370391846,
      "logps/chosen": -541.1564331054688,
      "logps/rejected": -522.1112060546875,
      "loss": 0.6686,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": 0.36212533712387085,
      "rewards/margins": 0.2563532590866089,
      "rewards/rejected": 0.10577203333377838,
      "step": 2670
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.7116212338593974e-07,
      "logits/chosen": -4.236396312713623,
      "logits/rejected": -4.220719337463379,
      "logps/chosen": -498.52874755859375,
      "logps/rejected": -399.10699462890625,
      "loss": 0.6321,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.4771362245082855,
      "rewards/margins": 0.3947621285915375,
      "rewards/rejected": 0.08237410336732864,
      "step": 2680
    },
    {
      "epoch": 0.69,
      "learning_rate": 1.6972740315638452e-07,
      "logits/chosen": -4.176735877990723,
      "logits/rejected": -3.9685966968536377,
      "logps/chosen": -628.45947265625,
      "logps/rejected": -414.69329833984375,
      "loss": 0.4936,
      "rewards/accuracies": 0.800000011920929,
      "rewards/chosen": 0.5496100783348083,
      "rewards/margins": 0.7379701733589172,
      "rewards/rejected": -0.1883600354194641,
      "step": 2690
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.6829268292682927e-07,
      "logits/chosen": -4.031551361083984,
      "logits/rejected": -4.172730445861816,
      "logps/chosen": -528.1746215820312,
      "logps/rejected": -456.8675231933594,
      "loss": 0.585,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.5029736757278442,
      "rewards/margins": 0.41340795159339905,
      "rewards/rejected": 0.08956580609083176,
      "step": 2700
    },
    {
      "epoch": 0.7,
      "eval_logits/chosen": -3.981973171234131,
      "eval_logits/rejected": -4.00735330581665,
      "eval_logps/chosen": -544.59619140625,
      "eval_logps/rejected": -438.3558044433594,
      "eval_loss": 0.5649946331977844,
      "eval_rewards/accuracies": 0.6940000057220459,
      "eval_rewards/chosen": 0.47803932428359985,
      "eval_rewards/margins": 0.5131266713142395,
      "eval_rewards/rejected": -0.03508726879954338,
      "eval_runtime": 146.3353,
      "eval_samples_per_second": 13.667,
      "eval_steps_per_second": 1.708,
      "step": 2700
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.6685796269727405e-07,
      "logits/chosen": -4.223569393157959,
      "logits/rejected": -4.211024284362793,
      "logps/chosen": -586.1395874023438,
      "logps/rejected": -488.5260314941406,
      "loss": 0.5806,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.5072857141494751,
      "rewards/margins": 0.45038923621177673,
      "rewards/rejected": 0.05689648538827896,
      "step": 2710
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.654232424677188e-07,
      "logits/chosen": -4.059657573699951,
      "logits/rejected": -4.050175666809082,
      "logps/chosen": -636.249755859375,
      "logps/rejected": -445.1454162597656,
      "loss": 0.5708,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.6326101422309875,
      "rewards/margins": 0.6772100925445557,
      "rewards/rejected": -0.04459994286298752,
      "step": 2720
    },
    {
      "epoch": 0.7,
      "learning_rate": 1.6398852223816355e-07,
      "logits/chosen": -3.965324878692627,
      "logits/rejected": -3.852470874786377,
      "logps/chosen": -587.070556640625,
      "logps/rejected": -468.05755615234375,
      "loss": 0.5195,
      "rewards/accuracies": 0.7875000238418579,
      "rewards/chosen": 0.6876250505447388,
      "rewards/margins": 0.6847888827323914,
      "rewards/rejected": 0.0028361976146698,
      "step": 2730
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.6255380200860833e-07,
      "logits/chosen": -3.9872021675109863,
      "logits/rejected": -4.126004695892334,
      "logps/chosen": -575.1105346679688,
      "logps/rejected": -469.9864807128906,
      "loss": 0.6969,
      "rewards/accuracies": 0.612500011920929,
      "rewards/chosen": 0.39717382192611694,
      "rewards/margins": 0.3177093267440796,
      "rewards/rejected": 0.07946449518203735,
      "step": 2740
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.6111908177905308e-07,
      "logits/chosen": -4.012079238891602,
      "logits/rejected": -3.936004161834717,
      "logps/chosen": -597.6954345703125,
      "logps/rejected": -411.5677795410156,
      "loss": 0.6023,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.4575771391391754,
      "rewards/margins": 0.4063941538333893,
      "rewards/rejected": 0.05118294805288315,
      "step": 2750
    },
    {
      "epoch": 0.71,
      "learning_rate": 1.5968436154949786e-07,
      "logits/chosen": -4.271051406860352,
      "logits/rejected": -4.011579990386963,
      "logps/chosen": -563.8511962890625,
      "logps/rejected": -387.9336853027344,
      "loss": 0.5445,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.46211299300193787,
      "rewards/margins": 0.5439087748527527,
      "rewards/rejected": -0.0817958191037178,
      "step": 2760
    },
    {
      "epoch": 0.72,
      "learning_rate": 1.582496413199426e-07,
      "logits/chosen": -4.078734397888184,
      "logits/rejected": -4.14528751373291,
      "logps/chosen": -748.7713623046875,
      "logps/rejected": -491.18206787109375,
      "loss": 0.5499,
      "rewards/accuracies": 0.7875000238418579,
      "rewards/chosen": 0.6352272033691406,
      "rewards/margins": 0.7783417701721191,
      "rewards/rejected": -0.14311453700065613,
      "step": 2770
    },
    {
      "epoch": 0.72,
      "learning_rate": 1.5681492109038739e-07,
      "logits/chosen": -4.074445724487305,
      "logits/rejected": -3.9905147552490234,
      "logps/chosen": -471.805908203125,
      "logps/rejected": -419.62109375,
      "loss": 0.5468,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.5179725885391235,
      "rewards/margins": 0.5387195348739624,
      "rewards/rejected": -0.020746838301420212,
      "step": 2780
    },
    {
      "epoch": 0.72,
      "learning_rate": 1.553802008608321e-07,
      "logits/chosen": -4.071807384490967,
      "logits/rejected": -4.146918296813965,
      "logps/chosen": -561.8287353515625,
      "logps/rejected": -447.42034912109375,
      "loss": 0.5752,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.5403738021850586,
      "rewards/margins": 0.5378284454345703,
      "rewards/rejected": 0.0025453567504882812,
      "step": 2790
    },
    {
      "epoch": 0.72,
      "learning_rate": 1.539454806312769e-07,
      "logits/chosen": -3.9499289989471436,
      "logits/rejected": -3.7599105834960938,
      "logps/chosen": -573.884765625,
      "logps/rejected": -480.6022033691406,
      "loss": 0.5883,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.5067580938339233,
      "rewards/margins": 0.46255749464035034,
      "rewards/rejected": 0.044200599193573,
      "step": 2800
    },
    {
      "epoch": 0.72,
      "eval_logits/chosen": -3.966898202896118,
      "eval_logits/rejected": -3.9893743991851807,
      "eval_logps/chosen": -544.46240234375,
      "eval_logps/rejected": -438.1562194824219,
      "eval_loss": 0.5670157074928284,
      "eval_rewards/accuracies": 0.6880000233650208,
      "eval_rewards/chosen": 0.4914305508136749,
      "eval_rewards/margins": 0.5065579414367676,
      "eval_rewards/rejected": -0.015127355232834816,
      "eval_runtime": 146.024,
      "eval_samples_per_second": 13.696,
      "eval_steps_per_second": 1.712,
      "step": 2800
    },
    {
      "epoch": 0.73,
      "learning_rate": 1.5251076040172164e-07,
      "logits/chosen": -4.044391632080078,
      "logits/rejected": -4.076410293579102,
      "logps/chosen": -598.0468139648438,
      "logps/rejected": -476.67181396484375,
      "loss": 0.5806,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.5654221773147583,
      "rewards/margins": 0.4769902229309082,
      "rewards/rejected": 0.0884319394826889,
      "step": 2810
    },
    {
      "epoch": 0.73,
      "learning_rate": 1.5107604017216642e-07,
      "logits/chosen": -3.93943452835083,
      "logits/rejected": -4.029221534729004,
      "logps/chosen": -531.6763916015625,
      "logps/rejected": -357.01910400390625,
      "loss": 0.5708,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.5427955389022827,
      "rewards/margins": 0.6645749807357788,
      "rewards/rejected": -0.12177946418523788,
      "step": 2820
    },
    {
      "epoch": 0.73,
      "learning_rate": 1.4964131994261117e-07,
      "logits/chosen": -4.1592698097229,
      "logits/rejected": -4.196699142456055,
      "logps/chosen": -555.0905151367188,
      "logps/rejected": -400.6699523925781,
      "loss": 0.5251,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": 0.5090584754943848,
      "rewards/margins": 0.5514262318611145,
      "rewards/rejected": -0.04236777871847153,
      "step": 2830
    },
    {
      "epoch": 0.73,
      "learning_rate": 1.4820659971305595e-07,
      "logits/chosen": -3.996324062347412,
      "logits/rejected": -3.8942997455596924,
      "logps/chosen": -559.6539916992188,
      "logps/rejected": -462.087890625,
      "loss": 0.5617,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.48809123039245605,
      "rewards/margins": 0.41656923294067383,
      "rewards/rejected": 0.07152204215526581,
      "step": 2840
    },
    {
      "epoch": 0.74,
      "learning_rate": 1.467718794835007e-07,
      "logits/chosen": -3.6908695697784424,
      "logits/rejected": -3.810857057571411,
      "logps/chosen": -488.4864196777344,
      "logps/rejected": -417.60400390625,
      "loss": 0.5171,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.4484861493110657,
      "rewards/margins": 0.4763699173927307,
      "rewards/rejected": -0.02788383699953556,
      "step": 2850
    },
    {
      "epoch": 0.74,
      "learning_rate": 1.4533715925394547e-07,
      "logits/chosen": -3.739753007888794,
      "logits/rejected": -3.9605700969696045,
      "logps/chosen": -507.19659423828125,
      "logps/rejected": -371.3736572265625,
      "loss": 0.5889,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.5019505023956299,
      "rewards/margins": 0.4500049650669098,
      "rewards/rejected": 0.05194549635052681,
      "step": 2860
    },
    {
      "epoch": 0.74,
      "learning_rate": 1.4390243902439023e-07,
      "logits/chosen": -4.046762466430664,
      "logits/rejected": -4.0279541015625,
      "logps/chosen": -556.5122680664062,
      "logps/rejected": -335.6501770019531,
      "loss": 0.5436,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.6151873469352722,
      "rewards/margins": 0.7387471795082092,
      "rewards/rejected": -0.12355981022119522,
      "step": 2870
    },
    {
      "epoch": 0.74,
      "learning_rate": 1.4246771879483498e-07,
      "logits/chosen": -3.7312331199645996,
      "logits/rejected": -3.662278413772583,
      "logps/chosen": -459.88525390625,
      "logps/rejected": -383.14984130859375,
      "loss": 0.582,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.3872886300086975,
      "rewards/margins": 0.42437830567359924,
      "rewards/rejected": -0.03708968311548233,
      "step": 2880
    },
    {
      "epoch": 0.75,
      "learning_rate": 1.4103299856527975e-07,
      "logits/chosen": -4.147296905517578,
      "logits/rejected": -4.07787561416626,
      "logps/chosen": -554.8704833984375,
      "logps/rejected": -398.159912109375,
      "loss": 0.6256,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.5256353616714478,
      "rewards/margins": 0.47513723373413086,
      "rewards/rejected": 0.05049814656376839,
      "step": 2890
    },
    {
      "epoch": 0.75,
      "learning_rate": 1.395982783357245e-07,
      "logits/chosen": -3.914976119995117,
      "logits/rejected": -3.905255079269409,
      "logps/chosen": -563.65576171875,
      "logps/rejected": -461.05389404296875,
      "loss": 0.624,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.48630857467651367,
      "rewards/margins": 0.4222942888736725,
      "rewards/rejected": 0.0640142410993576,
      "step": 2900
    },
    {
      "epoch": 0.75,
      "eval_logits/chosen": -3.970454692840576,
      "eval_logits/rejected": -3.993534803390503,
      "eval_logps/chosen": -544.4996948242188,
      "eval_logps/rejected": -438.1958312988281,
      "eval_loss": 0.5662667155265808,
      "eval_rewards/accuracies": 0.6840000152587891,
      "eval_rewards/chosen": 0.4876936674118042,
      "eval_rewards/margins": 0.5067842602729797,
      "eval_rewards/rejected": -0.019090561196208,
      "eval_runtime": 146.1468,
      "eval_samples_per_second": 13.685,
      "eval_steps_per_second": 1.711,
      "step": 2900
    },
    {
      "epoch": 0.75,
      "learning_rate": 1.3816355810616928e-07,
      "logits/chosen": -3.885633945465088,
      "logits/rejected": -3.992154598236084,
      "logps/chosen": -606.8893432617188,
      "logps/rejected": -488.0694885253906,
      "loss": 0.6481,
      "rewards/accuracies": 0.612500011920929,
      "rewards/chosen": 0.506466269493103,
      "rewards/margins": 0.38042640686035156,
      "rewards/rejected": 0.12603983283042908,
      "step": 2910
    },
    {
      "epoch": 0.75,
      "learning_rate": 1.3672883787661404e-07,
      "logits/chosen": -3.9882044792175293,
      "logits/rejected": -4.012315273284912,
      "logps/chosen": -598.3148193359375,
      "logps/rejected": -423.91839599609375,
      "loss": 0.5414,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.4659012258052826,
      "rewards/margins": 0.621524453163147,
      "rewards/rejected": -0.15562327206134796,
      "step": 2920
    },
    {
      "epoch": 0.76,
      "learning_rate": 1.352941176470588e-07,
      "logits/chosen": -4.175354957580566,
      "logits/rejected": -4.1613287925720215,
      "logps/chosen": -553.1173706054688,
      "logps/rejected": -457.8443298339844,
      "loss": 0.5357,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.49676817655563354,
      "rewards/margins": 0.5213097333908081,
      "rewards/rejected": -0.024541499093174934,
      "step": 2930
    },
    {
      "epoch": 0.76,
      "learning_rate": 1.3385939741750356e-07,
      "logits/chosen": -4.05168342590332,
      "logits/rejected": -4.1532673835754395,
      "logps/chosen": -515.8355712890625,
      "logps/rejected": -411.39788818359375,
      "loss": 0.5648,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.4736366271972656,
      "rewards/margins": 0.5187323689460754,
      "rewards/rejected": -0.045095693320035934,
      "step": 2940
    },
    {
      "epoch": 0.76,
      "learning_rate": 1.3242467718794834e-07,
      "logits/chosen": -4.0590500831604,
      "logits/rejected": -4.028027534484863,
      "logps/chosen": -478.349853515625,
      "logps/rejected": -426.6962890625,
      "loss": 0.5647,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.4894079566001892,
      "rewards/margins": 0.4928358197212219,
      "rewards/rejected": -0.0034278512466698885,
      "step": 2950
    },
    {
      "epoch": 0.76,
      "learning_rate": 1.309899569583931e-07,
      "logits/chosen": -3.9538333415985107,
      "logits/rejected": -4.088204383850098,
      "logps/chosen": -615.9334106445312,
      "logps/rejected": -433.25189208984375,
      "loss": 0.5954,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.5048609972000122,
      "rewards/margins": 0.6196298599243164,
      "rewards/rejected": -0.11476895958185196,
      "step": 2960
    },
    {
      "epoch": 0.77,
      "learning_rate": 1.2955523672883787e-07,
      "logits/chosen": -3.891871690750122,
      "logits/rejected": -3.8232593536376953,
      "logps/chosen": -516.1154174804688,
      "logps/rejected": -465.57977294921875,
      "loss": 0.55,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.6237145662307739,
      "rewards/margins": 0.559754490852356,
      "rewards/rejected": 0.06396011263132095,
      "step": 2970
    },
    {
      "epoch": 0.77,
      "learning_rate": 1.2812051649928262e-07,
      "logits/chosen": -4.138208866119385,
      "logits/rejected": -4.1710052490234375,
      "logps/chosen": -514.2755737304688,
      "logps/rejected": -385.1489562988281,
      "loss": 0.6169,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.442038357257843,
      "rewards/margins": 0.44703513383865356,
      "rewards/rejected": -0.004996694624423981,
      "step": 2980
    },
    {
      "epoch": 0.77,
      "learning_rate": 1.266857962697274e-07,
      "logits/chosen": -4.293547630310059,
      "logits/rejected": -4.3495774269104,
      "logps/chosen": -570.8736572265625,
      "logps/rejected": -520.841796875,
      "loss": 0.6195,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.49560147523880005,
      "rewards/margins": 0.48620933294296265,
      "rewards/rejected": 0.009392100386321545,
      "step": 2990
    },
    {
      "epoch": 0.77,
      "learning_rate": 1.2525107604017215e-07,
      "logits/chosen": -4.126075267791748,
      "logits/rejected": -3.8955910205841064,
      "logps/chosen": -650.3043212890625,
      "logps/rejected": -456.94110107421875,
      "loss": 0.5347,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": 0.6632064580917358,
      "rewards/margins": 0.6959556341171265,
      "rewards/rejected": -0.032749250531196594,
      "step": 3000
    },
    {
      "epoch": 0.77,
      "eval_logits/chosen": -3.9776611328125,
      "eval_logits/rejected": -4.001935958862305,
      "eval_logps/chosen": -544.619873046875,
      "eval_logps/rejected": -438.3401184082031,
      "eval_loss": 0.564439594745636,
      "eval_rewards/accuracies": 0.6850000023841858,
      "eval_rewards/chosen": 0.4756743311882019,
      "eval_rewards/margins": 0.5091925859451294,
      "eval_rewards/rejected": -0.03351828455924988,
      "eval_runtime": 145.9011,
      "eval_samples_per_second": 13.708,
      "eval_steps_per_second": 1.713,
      "step": 3000
    },
    {
      "epoch": 0.78,
      "learning_rate": 1.2381635581061693e-07,
      "logits/chosen": -4.2549543380737305,
      "logits/rejected": -4.473557472229004,
      "logps/chosen": -614.374267578125,
      "logps/rejected": -472.72259521484375,
      "loss": 0.5698,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.49129754304885864,
      "rewards/margins": 0.42049235105514526,
      "rewards/rejected": 0.07080519199371338,
      "step": 3010
    },
    {
      "epoch": 0.78,
      "learning_rate": 1.2238163558106168e-07,
      "logits/chosen": -4.080137729644775,
      "logits/rejected": -4.035037040710449,
      "logps/chosen": -531.7971801757812,
      "logps/rejected": -427.37860107421875,
      "loss": 0.6113,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.28571632504463196,
      "rewards/margins": 0.4164826273918152,
      "rewards/rejected": -0.13076625764369965,
      "step": 3020
    },
    {
      "epoch": 0.78,
      "learning_rate": 1.2094691535150646e-07,
      "logits/chosen": -3.9666385650634766,
      "logits/rejected": -4.024598121643066,
      "logps/chosen": -485.36181640625,
      "logps/rejected": -329.271728515625,
      "loss": 0.5889,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.49098771810531616,
      "rewards/margins": 0.6027761697769165,
      "rewards/rejected": -0.11178841441869736,
      "step": 3030
    },
    {
      "epoch": 0.78,
      "learning_rate": 1.195121951219512e-07,
      "logits/chosen": -4.0698957443237305,
      "logits/rejected": -4.125982761383057,
      "logps/chosen": -544.8397827148438,
      "logps/rejected": -468.3692932128906,
      "loss": 0.5681,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": 0.5031709671020508,
      "rewards/margins": 0.5633045434951782,
      "rewards/rejected": -0.06013358756899834,
      "step": 3040
    },
    {
      "epoch": 0.79,
      "learning_rate": 1.1807747489239597e-07,
      "logits/chosen": -4.321501731872559,
      "logits/rejected": -4.136828899383545,
      "logps/chosen": -502.498779296875,
      "logps/rejected": -387.68841552734375,
      "loss": 0.6017,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.33200693130493164,
      "rewards/margins": 0.5042457580566406,
      "rewards/rejected": -0.17223885655403137,
      "step": 3050
    },
    {
      "epoch": 0.79,
      "learning_rate": 1.1664275466284074e-07,
      "logits/chosen": -4.194310188293457,
      "logits/rejected": -4.310281753540039,
      "logps/chosen": -580.3814086914062,
      "logps/rejected": -446.2391662597656,
      "loss": 0.5559,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.44598498940467834,
      "rewards/margins": 0.5190831422805786,
      "rewards/rejected": -0.07309817522764206,
      "step": 3060
    },
    {
      "epoch": 0.79,
      "learning_rate": 1.152080344332855e-07,
      "logits/chosen": -4.0883283615112305,
      "logits/rejected": -4.150923728942871,
      "logps/chosen": -554.2647094726562,
      "logps/rejected": -424.0943298339844,
      "loss": 0.5772,
      "rewards/accuracies": 0.7875000238418579,
      "rewards/chosen": 0.4851420521736145,
      "rewards/margins": 0.5894008874893188,
      "rewards/rejected": -0.10425883531570435,
      "step": 3070
    },
    {
      "epoch": 0.8,
      "learning_rate": 1.1377331420373027e-07,
      "logits/chosen": -4.141337871551514,
      "logits/rejected": -4.110450267791748,
      "logps/chosen": -580.8941040039062,
      "logps/rejected": -452.0682067871094,
      "loss": 0.5978,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.5248143076896667,
      "rewards/margins": 0.5298766493797302,
      "rewards/rejected": -0.005062357988208532,
      "step": 3080
    },
    {
      "epoch": 0.8,
      "learning_rate": 1.1233859397417503e-07,
      "logits/chosen": -4.203800201416016,
      "logits/rejected": -4.3287224769592285,
      "logps/chosen": -611.932373046875,
      "logps/rejected": -462.0245056152344,
      "loss": 0.5423,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.6605905890464783,
      "rewards/margins": 0.6125748753547668,
      "rewards/rejected": 0.04801566153764725,
      "step": 3090
    },
    {
      "epoch": 0.8,
      "learning_rate": 1.109038737446198e-07,
      "logits/chosen": -3.9451992511749268,
      "logits/rejected": -3.978661060333252,
      "logps/chosen": -548.4806518554688,
      "logps/rejected": -418.55255126953125,
      "loss": 0.5837,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.4787958264350891,
      "rewards/margins": 0.4884239733219147,
      "rewards/rejected": -0.009628054685890675,
      "step": 3100
    },
    {
      "epoch": 0.8,
      "eval_logits/chosen": -3.9741623401641846,
      "eval_logits/rejected": -3.997610092163086,
      "eval_logps/chosen": -544.5935668945312,
      "eval_logps/rejected": -438.3072509765625,
      "eval_loss": 0.563690721988678,
      "eval_rewards/accuracies": 0.6830000281333923,
      "eval_rewards/chosen": 0.47830715775489807,
      "eval_rewards/margins": 0.5085403323173523,
      "eval_rewards/rejected": -0.03023313544690609,
      "eval_runtime": 145.8972,
      "eval_samples_per_second": 13.708,
      "eval_steps_per_second": 1.714,
      "step": 3100
    },
    {
      "epoch": 0.8,
      "learning_rate": 1.0946915351506456e-07,
      "logits/chosen": -3.9184958934783936,
      "logits/rejected": -3.7819457054138184,
      "logps/chosen": -571.571533203125,
      "logps/rejected": -445.2757263183594,
      "loss": 0.5715,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.40955060720443726,
      "rewards/margins": 0.4587160050868988,
      "rewards/rejected": -0.049165401607751846,
      "step": 3110
    },
    {
      "epoch": 0.81,
      "learning_rate": 1.0803443328550932e-07,
      "logits/chosen": -3.905442476272583,
      "logits/rejected": -3.8821640014648438,
      "logps/chosen": -460.50372314453125,
      "logps/rejected": -420.4170837402344,
      "loss": 0.5573,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.32348185777664185,
      "rewards/margins": 0.37588781118392944,
      "rewards/rejected": -0.05240591615438461,
      "step": 3120
    },
    {
      "epoch": 0.81,
      "learning_rate": 1.0659971305595408e-07,
      "logits/chosen": -3.8710105419158936,
      "logits/rejected": -3.9780330657958984,
      "logps/chosen": -492.71075439453125,
      "logps/rejected": -370.08160400390625,
      "loss": 0.5272,
      "rewards/accuracies": 0.7875000238418579,
      "rewards/chosen": 0.4087301790714264,
      "rewards/margins": 0.49260735511779785,
      "rewards/rejected": -0.08387719094753265,
      "step": 3130
    },
    {
      "epoch": 0.81,
      "learning_rate": 1.0516499282639884e-07,
      "logits/chosen": -4.243491172790527,
      "logits/rejected": -4.153388977050781,
      "logps/chosen": -496.98260498046875,
      "logps/rejected": -367.54632568359375,
      "loss": 0.5874,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.44594526290893555,
      "rewards/margins": 0.5719509720802307,
      "rewards/rejected": -0.12600573897361755,
      "step": 3140
    },
    {
      "epoch": 0.81,
      "learning_rate": 1.037302725968436e-07,
      "logits/chosen": -3.9939746856689453,
      "logits/rejected": -4.004325866699219,
      "logps/chosen": -478.77056884765625,
      "logps/rejected": -464.50665283203125,
      "loss": 0.6232,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.35015568137168884,
      "rewards/margins": 0.37633177638053894,
      "rewards/rejected": -0.02617608569562435,
      "step": 3150
    },
    {
      "epoch": 0.82,
      "learning_rate": 1.0229555236728837e-07,
      "logits/chosen": -4.253720283508301,
      "logits/rejected": -4.267764568328857,
      "logps/chosen": -557.8858642578125,
      "logps/rejected": -412.69818115234375,
      "loss": 0.5698,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.4118489623069763,
      "rewards/margins": 0.5684719085693359,
      "rewards/rejected": -0.15662303566932678,
      "step": 3160
    },
    {
      "epoch": 0.82,
      "learning_rate": 1.0086083213773313e-07,
      "logits/chosen": -3.7371535301208496,
      "logits/rejected": -3.7913818359375,
      "logps/chosen": -562.0777587890625,
      "logps/rejected": -491.91143798828125,
      "loss": 0.5108,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.5288134813308716,
      "rewards/margins": 0.5345078706741333,
      "rewards/rejected": -0.005694452673196793,
      "step": 3170
    },
    {
      "epoch": 0.82,
      "learning_rate": 9.94261119081779e-08,
      "logits/chosen": -3.9377448558807373,
      "logits/rejected": -3.955479383468628,
      "logps/chosen": -502.92718505859375,
      "logps/rejected": -408.81976318359375,
      "loss": 0.5617,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.5690404772758484,
      "rewards/margins": 0.502609372138977,
      "rewards/rejected": 0.06643114238977432,
      "step": 3180
    },
    {
      "epoch": 0.82,
      "learning_rate": 9.799139167862266e-08,
      "logits/chosen": -4.40088415145874,
      "logits/rejected": -4.40977144241333,
      "logps/chosen": -582.387451171875,
      "logps/rejected": -508.1477966308594,
      "loss": 0.523,
      "rewards/accuracies": 0.8374999761581421,
      "rewards/chosen": 0.5947442650794983,
      "rewards/margins": 0.6568835377693176,
      "rewards/rejected": -0.06213930994272232,
      "step": 3190
    },
    {
      "epoch": 0.83,
      "learning_rate": 9.655667144906743e-08,
      "logits/chosen": -4.194244861602783,
      "logits/rejected": -4.144165992736816,
      "logps/chosen": -582.037109375,
      "logps/rejected": -409.24224853515625,
      "loss": 0.5293,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": 0.5745357275009155,
      "rewards/margins": 0.728204071521759,
      "rewards/rejected": -0.15366844832897186,
      "step": 3200
    },
    {
      "epoch": 0.83,
      "eval_logits/chosen": -3.9778196811676025,
      "eval_logits/rejected": -4.002331733703613,
      "eval_logps/chosen": -544.66162109375,
      "eval_logps/rejected": -438.367919921875,
      "eval_loss": 0.5634328126907349,
      "eval_rewards/accuracies": 0.6890000104904175,
      "eval_rewards/chosen": 0.47150418162345886,
      "eval_rewards/margins": 0.5078018307685852,
      "eval_rewards/rejected": -0.03629762679338455,
      "eval_runtime": 146.8004,
      "eval_samples_per_second": 13.624,
      "eval_steps_per_second": 1.703,
      "step": 3200
    },
    {
      "epoch": 0.83,
      "learning_rate": 9.512195121951219e-08,
      "logits/chosen": -4.067798614501953,
      "logits/rejected": -4.208149433135986,
      "logps/chosen": -511.45013427734375,
      "logps/rejected": -376.13067626953125,
      "loss": 0.5854,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.4113733768463135,
      "rewards/margins": 0.48462361097335815,
      "rewards/rejected": -0.07325027137994766,
      "step": 3210
    },
    {
      "epoch": 0.83,
      "learning_rate": 9.368723098995696e-08,
      "logits/chosen": -4.2905426025390625,
      "logits/rejected": -4.173062801361084,
      "logps/chosen": -573.29296875,
      "logps/rejected": -427.76739501953125,
      "loss": 0.5641,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.48305606842041016,
      "rewards/margins": 0.5324376225471497,
      "rewards/rejected": -0.049381546676158905,
      "step": 3220
    },
    {
      "epoch": 0.83,
      "learning_rate": 9.225251076040172e-08,
      "logits/chosen": -3.8998687267303467,
      "logits/rejected": -3.798374891281128,
      "logps/chosen": -553.4527587890625,
      "logps/rejected": -378.1935119628906,
      "loss": 0.5525,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.4461655020713806,
      "rewards/margins": 0.6628150343894958,
      "rewards/rejected": -0.21664953231811523,
      "step": 3230
    },
    {
      "epoch": 0.84,
      "learning_rate": 9.081779053084649e-08,
      "logits/chosen": -4.098966121673584,
      "logits/rejected": -4.07062292098999,
      "logps/chosen": -563.8943481445312,
      "logps/rejected": -444.6372985839844,
      "loss": 0.5853,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.5742425918579102,
      "rewards/margins": 0.5752390027046204,
      "rewards/rejected": -0.0009963444899767637,
      "step": 3240
    },
    {
      "epoch": 0.84,
      "learning_rate": 8.938307030129125e-08,
      "logits/chosen": -4.253169059753418,
      "logits/rejected": -4.21138858795166,
      "logps/chosen": -535.7103271484375,
      "logps/rejected": -373.97003173828125,
      "loss": 0.5755,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.3600585460662842,
      "rewards/margins": 0.45460644364356995,
      "rewards/rejected": -0.09454789757728577,
      "step": 3250
    },
    {
      "epoch": 0.84,
      "learning_rate": 8.794835007173601e-08,
      "logits/chosen": -3.9807746410369873,
      "logits/rejected": -3.941415309906006,
      "logps/chosen": -572.0859985351562,
      "logps/rejected": -468.2994079589844,
      "loss": 0.58,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.5067304968833923,
      "rewards/margins": 0.50401771068573,
      "rewards/rejected": 0.0027127789799124002,
      "step": 3260
    },
    {
      "epoch": 0.84,
      "learning_rate": 8.651362984218078e-08,
      "logits/chosen": -4.293785095214844,
      "logits/rejected": -4.3718976974487305,
      "logps/chosen": -584.475830078125,
      "logps/rejected": -409.7781677246094,
      "loss": 0.5662,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": 0.3756251931190491,
      "rewards/margins": 0.5408438444137573,
      "rewards/rejected": -0.16521869599819183,
      "step": 3270
    },
    {
      "epoch": 0.85,
      "learning_rate": 8.507890961262554e-08,
      "logits/chosen": -3.9542198181152344,
      "logits/rejected": -3.9630751609802246,
      "logps/chosen": -513.8878173828125,
      "logps/rejected": -526.8805541992188,
      "loss": 0.5605,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.5460586547851562,
      "rewards/margins": 0.4736880362033844,
      "rewards/rejected": 0.07237061113119125,
      "step": 3280
    },
    {
      "epoch": 0.85,
      "learning_rate": 8.364418938307031e-08,
      "logits/chosen": -3.925539493560791,
      "logits/rejected": -3.744020462036133,
      "logps/chosen": -536.7335205078125,
      "logps/rejected": -374.2388610839844,
      "loss": 0.5676,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.4619140028953552,
      "rewards/margins": 0.5450933575630188,
      "rewards/rejected": -0.08317933976650238,
      "step": 3290
    },
    {
      "epoch": 0.85,
      "learning_rate": 8.220946915351506e-08,
      "logits/chosen": -3.950735569000244,
      "logits/rejected": -3.9631354808807373,
      "logps/chosen": -522.4519653320312,
      "logps/rejected": -515.7288208007812,
      "loss": 0.5128,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.4143013060092926,
      "rewards/margins": 0.5980950593948364,
      "rewards/rejected": -0.1837938129901886,
      "step": 3300
    },
    {
      "epoch": 0.85,
      "eval_logits/chosen": -3.9803950786590576,
      "eval_logits/rejected": -4.005295753479004,
      "eval_logps/chosen": -544.6318969726562,
      "eval_logps/rejected": -438.39166259765625,
      "eval_loss": 0.5619609355926514,
      "eval_rewards/accuracies": 0.6880000233650208,
      "eval_rewards/chosen": 0.474471777677536,
      "eval_rewards/margins": 0.5131421089172363,
      "eval_rewards/rejected": -0.038670338690280914,
      "eval_runtime": 147.8686,
      "eval_samples_per_second": 13.526,
      "eval_steps_per_second": 1.691,
      "step": 3300
    },
    {
      "epoch": 0.85,
      "learning_rate": 8.077474892395982e-08,
      "logits/chosen": -4.0901780128479,
      "logits/rejected": -4.084465980529785,
      "logps/chosen": -538.7194213867188,
      "logps/rejected": -432.45892333984375,
      "loss": 0.5549,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.45796340703964233,
      "rewards/margins": 0.44825053215026855,
      "rewards/rejected": 0.009712914004921913,
      "step": 3310
    },
    {
      "epoch": 0.86,
      "learning_rate": 7.934002869440459e-08,
      "logits/chosen": -3.90226411819458,
      "logits/rejected": -4.059938907623291,
      "logps/chosen": -635.9435424804688,
      "logps/rejected": -362.847412109375,
      "loss": 0.5811,
      "rewards/accuracies": 0.612500011920929,
      "rewards/chosen": 0.3464578092098236,
      "rewards/margins": 0.35814762115478516,
      "rewards/rejected": -0.011689816601574421,
      "step": 3320
    },
    {
      "epoch": 0.86,
      "learning_rate": 7.790530846484935e-08,
      "logits/chosen": -4.0388689041137695,
      "logits/rejected": -3.9921679496765137,
      "logps/chosen": -555.1847534179688,
      "logps/rejected": -400.4381408691406,
      "loss": 0.5537,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.46570801734924316,
      "rewards/margins": 0.5739080309867859,
      "rewards/rejected": -0.1082000583410263,
      "step": 3330
    },
    {
      "epoch": 0.86,
      "learning_rate": 7.647058823529412e-08,
      "logits/chosen": -4.057839870452881,
      "logits/rejected": -3.962494373321533,
      "logps/chosen": -633.3861083984375,
      "logps/rejected": -521.1183471679688,
      "loss": 0.569,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.44552069902420044,
      "rewards/margins": 0.42656344175338745,
      "rewards/rejected": 0.01895725727081299,
      "step": 3340
    },
    {
      "epoch": 0.86,
      "learning_rate": 7.503586800573888e-08,
      "logits/chosen": -4.196125507354736,
      "logits/rejected": -4.071255683898926,
      "logps/chosen": -488.28460693359375,
      "logps/rejected": -371.49169921875,
      "loss": 0.5918,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.39670076966285706,
      "rewards/margins": 0.3868991434574127,
      "rewards/rejected": 0.009801648557186127,
      "step": 3350
    },
    {
      "epoch": 0.87,
      "learning_rate": 7.360114777618365e-08,
      "logits/chosen": -3.972092390060425,
      "logits/rejected": -4.106286525726318,
      "logps/chosen": -572.9547119140625,
      "logps/rejected": -420.35400390625,
      "loss": 0.5315,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.49660277366638184,
      "rewards/margins": 0.5567241311073303,
      "rewards/rejected": -0.06012127920985222,
      "step": 3360
    },
    {
      "epoch": 0.87,
      "learning_rate": 7.21664275466284e-08,
      "logits/chosen": -3.9770302772521973,
      "logits/rejected": -4.03969669342041,
      "logps/chosen": -547.3425903320312,
      "logps/rejected": -495.91851806640625,
      "loss": 0.604,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.48121723532676697,
      "rewards/margins": 0.4144704341888428,
      "rewards/rejected": 0.06674680858850479,
      "step": 3370
    },
    {
      "epoch": 0.87,
      "learning_rate": 7.073170731707316e-08,
      "logits/chosen": -4.059111595153809,
      "logits/rejected": -4.129426002502441,
      "logps/chosen": -564.0946655273438,
      "logps/rejected": -506.58709716796875,
      "loss": 0.549,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.40859222412109375,
      "rewards/margins": 0.3801480233669281,
      "rewards/rejected": 0.028444204479455948,
      "step": 3380
    },
    {
      "epoch": 0.88,
      "learning_rate": 6.929698708751793e-08,
      "logits/chosen": -4.225644111633301,
      "logits/rejected": -4.292551040649414,
      "logps/chosen": -588.9600830078125,
      "logps/rejected": -472.1261291503906,
      "loss": 0.5453,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.4812944531440735,
      "rewards/margins": 0.5918601155281067,
      "rewards/rejected": -0.11056558787822723,
      "step": 3390
    },
    {
      "epoch": 0.88,
      "learning_rate": 6.786226685796269e-08,
      "logits/chosen": -4.155394077301025,
      "logits/rejected": -4.14565896987915,
      "logps/chosen": -525.122314453125,
      "logps/rejected": -392.67376708984375,
      "loss": 0.6204,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.31629544496536255,
      "rewards/margins": 0.37368619441986084,
      "rewards/rejected": -0.0573907308280468,
      "step": 3400
    },
    {
      "epoch": 0.88,
      "eval_logits/chosen": -3.9814672470092773,
      "eval_logits/rejected": -4.006735324859619,
      "eval_logps/chosen": -544.69775390625,
      "eval_logps/rejected": -438.4468688964844,
      "eval_loss": 0.5624998211860657,
      "eval_rewards/accuracies": 0.6859999895095825,
      "eval_rewards/chosen": 0.46788930892944336,
      "eval_rewards/margins": 0.5120863914489746,
      "eval_rewards/rejected": -0.044197000563144684,
      "eval_runtime": 147.1881,
      "eval_samples_per_second": 13.588,
      "eval_steps_per_second": 1.699,
      "step": 3400
    },
    {
      "epoch": 0.88,
      "learning_rate": 6.642754662840746e-08,
      "logits/chosen": -4.196806907653809,
      "logits/rejected": -4.363795280456543,
      "logps/chosen": -574.8983154296875,
      "logps/rejected": -502.860107421875,
      "loss": 0.5918,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.49528592824935913,
      "rewards/margins": 0.5257723927497864,
      "rewards/rejected": -0.03048643469810486,
      "step": 3410
    },
    {
      "epoch": 0.88,
      "learning_rate": 6.499282639885222e-08,
      "logits/chosen": -3.957125186920166,
      "logits/rejected": -3.888190507888794,
      "logps/chosen": -547.2122192382812,
      "logps/rejected": -404.66595458984375,
      "loss": 0.5457,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.4918132722377777,
      "rewards/margins": 0.5843526124954224,
      "rewards/rejected": -0.09253935515880585,
      "step": 3420
    },
    {
      "epoch": 0.89,
      "learning_rate": 6.355810616929698e-08,
      "logits/chosen": -3.979330539703369,
      "logits/rejected": -4.06231164932251,
      "logps/chosen": -524.4691772460938,
      "logps/rejected": -422.9524841308594,
      "loss": 0.5182,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.4810391962528229,
      "rewards/margins": 0.5485955476760864,
      "rewards/rejected": -0.06755636632442474,
      "step": 3430
    },
    {
      "epoch": 0.89,
      "learning_rate": 6.212338593974175e-08,
      "logits/chosen": -4.29758882522583,
      "logits/rejected": -4.182176113128662,
      "logps/chosen": -595.9281616210938,
      "logps/rejected": -425.3091735839844,
      "loss": 0.5189,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.5549203157424927,
      "rewards/margins": 0.5970374941825867,
      "rewards/rejected": -0.04211718589067459,
      "step": 3440
    },
    {
      "epoch": 0.89,
      "learning_rate": 6.068866571018651e-08,
      "logits/chosen": -4.2188720703125,
      "logits/rejected": -4.125060081481934,
      "logps/chosen": -521.8778076171875,
      "logps/rejected": -426.075439453125,
      "loss": 0.6504,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": 0.3750000596046448,
      "rewards/margins": 0.34474819898605347,
      "rewards/rejected": 0.03025185689330101,
      "step": 3450
    },
    {
      "epoch": 0.89,
      "learning_rate": 5.925394548063128e-08,
      "logits/chosen": -4.250518321990967,
      "logits/rejected": -4.323083400726318,
      "logps/chosen": -596.1790161132812,
      "logps/rejected": -468.62078857421875,
      "loss": 0.628,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.49697431921958923,
      "rewards/margins": 0.5001575350761414,
      "rewards/rejected": -0.00318324426189065,
      "step": 3460
    },
    {
      "epoch": 0.9,
      "learning_rate": 5.7819225251076036e-08,
      "logits/chosen": -4.112654685974121,
      "logits/rejected": -3.997405529022217,
      "logps/chosen": -498.8377990722656,
      "logps/rejected": -473.70550537109375,
      "loss": 0.5889,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.3584319055080414,
      "rewards/margins": 0.3437018394470215,
      "rewards/rejected": 0.014730053022503853,
      "step": 3470
    },
    {
      "epoch": 0.9,
      "learning_rate": 5.63845050215208e-08,
      "logits/chosen": -4.2403950691223145,
      "logits/rejected": -4.099762916564941,
      "logps/chosen": -572.9876098632812,
      "logps/rejected": -437.2333984375,
      "loss": 0.565,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.43449336290359497,
      "rewards/margins": 0.5010371804237366,
      "rewards/rejected": -0.06654379516839981,
      "step": 3480
    },
    {
      "epoch": 0.9,
      "learning_rate": 5.4949784791965565e-08,
      "logits/chosen": -4.034601211547852,
      "logits/rejected": -4.012211322784424,
      "logps/chosen": -535.9708862304688,
      "logps/rejected": -390.2044372558594,
      "loss": 0.5451,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.5869877338409424,
      "rewards/margins": 0.674468994140625,
      "rewards/rejected": -0.087481290102005,
      "step": 3490
    },
    {
      "epoch": 0.9,
      "learning_rate": 5.351506456241032e-08,
      "logits/chosen": -4.010631561279297,
      "logits/rejected": -3.996525526046753,
      "logps/chosen": -550.5261840820312,
      "logps/rejected": -470.1412658691406,
      "loss": 0.5469,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.5485318899154663,
      "rewards/margins": 0.49418431520462036,
      "rewards/rejected": 0.054347604513168335,
      "step": 3500
    },
    {
      "epoch": 0.9,
      "eval_logits/chosen": -3.98427677154541,
      "eval_logits/rejected": -4.009834289550781,
      "eval_logps/chosen": -544.7650756835938,
      "eval_logps/rejected": -438.4956359863281,
      "eval_loss": 0.5618208050727844,
      "eval_rewards/accuracies": 0.6859999895095825,
      "eval_rewards/chosen": 0.4611594080924988,
      "eval_rewards/margins": 0.5102306604385376,
      "eval_rewards/rejected": -0.049071334302425385,
      "eval_runtime": 146.3352,
      "eval_samples_per_second": 13.667,
      "eval_steps_per_second": 1.708,
      "step": 3500
    },
    {
      "epoch": 0.91,
      "learning_rate": 5.208034433285509e-08,
      "logits/chosen": -3.8921310901641846,
      "logits/rejected": -3.848719358444214,
      "logps/chosen": -647.0032958984375,
      "logps/rejected": -568.3533935546875,
      "loss": 0.5397,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.5782560110092163,
      "rewards/margins": 0.5668593645095825,
      "rewards/rejected": 0.011396640911698341,
      "step": 3510
    },
    {
      "epoch": 0.91,
      "learning_rate": 5.064562410329985e-08,
      "logits/chosen": -4.195284843444824,
      "logits/rejected": -4.076591491699219,
      "logps/chosen": -530.7032470703125,
      "logps/rejected": -445.4291076660156,
      "loss": 0.5744,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.45487624406814575,
      "rewards/margins": 0.4947517514228821,
      "rewards/rejected": -0.03987548500299454,
      "step": 3520
    },
    {
      "epoch": 0.91,
      "learning_rate": 4.9210903873744616e-08,
      "logits/chosen": -4.124705791473389,
      "logits/rejected": -4.10734748840332,
      "logps/chosen": -541.8250122070312,
      "logps/rejected": -430.775146484375,
      "loss": 0.6309,
      "rewards/accuracies": 0.612500011920929,
      "rewards/chosen": 0.4992215633392334,
      "rewards/margins": 0.41505131125450134,
      "rewards/rejected": 0.08417025953531265,
      "step": 3530
    },
    {
      "epoch": 0.91,
      "learning_rate": 4.777618364418938e-08,
      "logits/chosen": -3.803776502609253,
      "logits/rejected": -3.8794872760772705,
      "logps/chosen": -551.4606323242188,
      "logps/rejected": -393.61907958984375,
      "loss": 0.5847,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.3885660171508789,
      "rewards/margins": 0.4686763882637024,
      "rewards/rejected": -0.08011035621166229,
      "step": 3540
    },
    {
      "epoch": 0.92,
      "learning_rate": 4.6341463414634145e-08,
      "logits/chosen": -4.222638130187988,
      "logits/rejected": -4.128180027008057,
      "logps/chosen": -616.28515625,
      "logps/rejected": -464.65692138671875,
      "loss": 0.6212,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.5344708561897278,
      "rewards/margins": 0.4752708971500397,
      "rewards/rejected": 0.059200018644332886,
      "step": 3550
    },
    {
      "epoch": 0.92,
      "learning_rate": 4.490674318507891e-08,
      "logits/chosen": -4.027795314788818,
      "logits/rejected": -3.9686641693115234,
      "logps/chosen": -548.213134765625,
      "logps/rejected": -391.7416076660156,
      "loss": 0.6047,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.4162333607673645,
      "rewards/margins": 0.338506817817688,
      "rewards/rejected": 0.07772652804851532,
      "step": 3560
    },
    {
      "epoch": 0.92,
      "learning_rate": 4.3472022955523674e-08,
      "logits/chosen": -4.117037773132324,
      "logits/rejected": -4.153426647186279,
      "logps/chosen": -632.22607421875,
      "logps/rejected": -593.6041870117188,
      "loss": 0.627,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.40994158387184143,
      "rewards/margins": 0.3304620385169983,
      "rewards/rejected": 0.07947959750890732,
      "step": 3570
    },
    {
      "epoch": 0.92,
      "learning_rate": 4.203730272596843e-08,
      "logits/chosen": -3.860865831375122,
      "logits/rejected": -3.7739486694335938,
      "logps/chosen": -516.7479248046875,
      "logps/rejected": -392.3046569824219,
      "loss": 0.6383,
      "rewards/accuracies": 0.6000000238418579,
      "rewards/chosen": 0.31629177927970886,
      "rewards/margins": 0.39345088601112366,
      "rewards/rejected": -0.07715904712677002,
      "step": 3580
    },
    {
      "epoch": 0.93,
      "learning_rate": 4.0602582496413197e-08,
      "logits/chosen": -3.8026537895202637,
      "logits/rejected": -3.838305711746216,
      "logps/chosen": -599.1148681640625,
      "logps/rejected": -478.2513122558594,
      "loss": 0.5632,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.4942142963409424,
      "rewards/margins": 0.4958348274230957,
      "rewards/rejected": -0.001620540046133101,
      "step": 3590
    },
    {
      "epoch": 0.93,
      "learning_rate": 3.916786226685796e-08,
      "logits/chosen": -3.803657054901123,
      "logits/rejected": -3.809593677520752,
      "logps/chosen": -450.1053161621094,
      "logps/rejected": -387.50457763671875,
      "loss": 0.5807,
      "rewards/accuracies": 0.612500011920929,
      "rewards/chosen": 0.4047510623931885,
      "rewards/margins": 0.3800794184207916,
      "rewards/rejected": 0.0246716421097517,
      "step": 3600
    },
    {
      "epoch": 0.93,
      "eval_logits/chosen": -3.9818077087402344,
      "eval_logits/rejected": -4.006768703460693,
      "eval_logps/chosen": -544.7014770507812,
      "eval_logps/rejected": -438.45843505859375,
      "eval_loss": 0.561528742313385,
      "eval_rewards/accuracies": 0.6890000104904175,
      "eval_rewards/chosen": 0.46752142906188965,
      "eval_rewards/margins": 0.5128761529922485,
      "eval_rewards/rejected": -0.04535466805100441,
      "eval_runtime": 146.6531,
      "eval_samples_per_second": 13.638,
      "eval_steps_per_second": 1.705,
      "step": 3600
    },
    {
      "epoch": 0.93,
      "learning_rate": 3.7733142037302726e-08,
      "logits/chosen": -4.237338066101074,
      "logits/rejected": -4.075575828552246,
      "logps/chosen": -507.56475830078125,
      "logps/rejected": -460.54864501953125,
      "loss": 0.5626,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.3922446668148041,
      "rewards/margins": 0.3932397663593292,
      "rewards/rejected": -0.000995102571323514,
      "step": 3610
    },
    {
      "epoch": 0.93,
      "learning_rate": 3.629842180774749e-08,
      "logits/chosen": -4.196072578430176,
      "logits/rejected": -4.2456374168396,
      "logps/chosen": -561.850830078125,
      "logps/rejected": -485.9574279785156,
      "loss": 0.5872,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.45551833510398865,
      "rewards/margins": 0.5499417185783386,
      "rewards/rejected": -0.09442339837551117,
      "step": 3620
    },
    {
      "epoch": 0.94,
      "learning_rate": 3.4863701578192255e-08,
      "logits/chosen": -4.031411170959473,
      "logits/rejected": -4.024487495422363,
      "logps/chosen": -486.8564453125,
      "logps/rejected": -412.80712890625,
      "loss": 0.5609,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.395702064037323,
      "rewards/margins": 0.37622708082199097,
      "rewards/rejected": 0.01947496458888054,
      "step": 3630
    },
    {
      "epoch": 0.94,
      "learning_rate": 3.342898134863702e-08,
      "logits/chosen": -4.104000091552734,
      "logits/rejected": -4.140475273132324,
      "logps/chosen": -629.5847778320312,
      "logps/rejected": -438.322021484375,
      "loss": 0.5127,
      "rewards/accuracies": 0.7749999761581421,
      "rewards/chosen": 0.6019877195358276,
      "rewards/margins": 0.7443768382072449,
      "rewards/rejected": -0.1423892229795456,
      "step": 3640
    },
    {
      "epoch": 0.94,
      "learning_rate": 3.1994261119081784e-08,
      "logits/chosen": -4.0185065269470215,
      "logits/rejected": -3.976111888885498,
      "logps/chosen": -567.458740234375,
      "logps/rejected": -433.2574157714844,
      "loss": 0.5677,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.40292826294898987,
      "rewards/margins": 0.45192545652389526,
      "rewards/rejected": -0.048997145146131516,
      "step": 3650
    },
    {
      "epoch": 0.95,
      "learning_rate": 3.055954088952654e-08,
      "logits/chosen": -3.958566665649414,
      "logits/rejected": -4.042834758758545,
      "logps/chosen": -507.0655212402344,
      "logps/rejected": -423.1856384277344,
      "loss": 0.5869,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.4078023433685303,
      "rewards/margins": 0.4608895778656006,
      "rewards/rejected": -0.05308721214532852,
      "step": 3660
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.9124820659971306e-08,
      "logits/chosen": -4.479077339172363,
      "logits/rejected": -4.497659683227539,
      "logps/chosen": -593.07666015625,
      "logps/rejected": -471.2254943847656,
      "loss": 0.5922,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.5073246359825134,
      "rewards/margins": 0.5663779973983765,
      "rewards/rejected": -0.059053339064121246,
      "step": 3670
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.7690100430416067e-08,
      "logits/chosen": -4.271915912628174,
      "logits/rejected": -4.254021644592285,
      "logps/chosen": -458.9129943847656,
      "logps/rejected": -393.89862060546875,
      "loss": 0.5112,
      "rewards/accuracies": 0.7875000238418579,
      "rewards/chosen": 0.3906114995479584,
      "rewards/margins": 0.6087072491645813,
      "rewards/rejected": -0.2180958241224289,
      "step": 3680
    },
    {
      "epoch": 0.95,
      "learning_rate": 2.625538020086083e-08,
      "logits/chosen": -4.178504943847656,
      "logits/rejected": -4.220212459564209,
      "logps/chosen": -584.3404541015625,
      "logps/rejected": -444.0389709472656,
      "loss": 0.5676,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.4277767241001129,
      "rewards/margins": 0.5100394487380981,
      "rewards/rejected": -0.08226276189088821,
      "step": 3690
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.4820659971305596e-08,
      "logits/chosen": -4.02055549621582,
      "logits/rejected": -4.129875183105469,
      "logps/chosen": -557.54345703125,
      "logps/rejected": -435.833984375,
      "loss": 0.5265,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.48887911438941956,
      "rewards/margins": 0.5414212942123413,
      "rewards/rejected": -0.05254218727350235,
      "step": 3700
    },
    {
      "epoch": 0.96,
      "eval_logits/chosen": -3.9832568168640137,
      "eval_logits/rejected": -4.008208274841309,
      "eval_logps/chosen": -544.701904296875,
      "eval_logps/rejected": -438.4403381347656,
      "eval_loss": 0.5619760751724243,
      "eval_rewards/accuracies": 0.6880000233650208,
      "eval_rewards/chosen": 0.46747326850891113,
      "eval_rewards/margins": 0.5110137462615967,
      "eval_rewards/rejected": -0.04354046657681465,
      "eval_runtime": 147.499,
      "eval_samples_per_second": 13.559,
      "eval_steps_per_second": 1.695,
      "step": 3700
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.3385939741750357e-08,
      "logits/chosen": -4.32746696472168,
      "logits/rejected": -4.259668827056885,
      "logps/chosen": -622.6856079101562,
      "logps/rejected": -556.1048583984375,
      "loss": 0.5794,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.5587274432182312,
      "rewards/margins": 0.6079638600349426,
      "rewards/rejected": -0.049236398190259933,
      "step": 3710
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.195121951219512e-08,
      "logits/chosen": -3.798098087310791,
      "logits/rejected": -4.027928829193115,
      "logps/chosen": -534.12646484375,
      "logps/rejected": -370.48907470703125,
      "loss": 0.5292,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.5056679844856262,
      "rewards/margins": 0.6213759183883667,
      "rewards/rejected": -0.11570799350738525,
      "step": 3720
    },
    {
      "epoch": 0.96,
      "learning_rate": 2.0516499282639883e-08,
      "logits/chosen": -4.053610801696777,
      "logits/rejected": -4.082070350646973,
      "logps/chosen": -639.72998046875,
      "logps/rejected": -456.34844970703125,
      "loss": 0.5726,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.5697764158248901,
      "rewards/margins": 0.5703621506690979,
      "rewards/rejected": -0.0005857095238752663,
      "step": 3730
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.9081779053084647e-08,
      "logits/chosen": -3.877751111984253,
      "logits/rejected": -3.9127018451690674,
      "logps/chosen": -583.1852416992188,
      "logps/rejected": -401.8482971191406,
      "loss": 0.5216,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.5018226504325867,
      "rewards/margins": 0.5718634724617004,
      "rewards/rejected": -0.07004072517156601,
      "step": 3740
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.7647058823529412e-08,
      "logits/chosen": -4.168404579162598,
      "logits/rejected": -4.074638366699219,
      "logps/chosen": -510.4005432128906,
      "logps/rejected": -415.7406311035156,
      "loss": 0.5916,
      "rewards/accuracies": 0.699999988079071,
      "rewards/chosen": 0.4106532037258148,
      "rewards/margins": 0.4389967918395996,
      "rewards/rejected": -0.028343593701720238,
      "step": 3750
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.6212338593974173e-08,
      "logits/chosen": -4.087225914001465,
      "logits/rejected": -3.9666972160339355,
      "logps/chosen": -465.10986328125,
      "logps/rejected": -324.4447021484375,
      "loss": 0.5872,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.3475942015647888,
      "rewards/margins": 0.424374520778656,
      "rewards/rejected": -0.07678033411502838,
      "step": 3760
    },
    {
      "epoch": 0.97,
      "learning_rate": 1.4777618364418938e-08,
      "logits/chosen": -4.230082035064697,
      "logits/rejected": -4.243712902069092,
      "logps/chosen": -635.1439208984375,
      "logps/rejected": -543.9008178710938,
      "loss": 0.5959,
      "rewards/accuracies": 0.637499988079071,
      "rewards/chosen": 0.6082009077072144,
      "rewards/margins": 0.42760133743286133,
      "rewards/rejected": 0.1805996149778366,
      "step": 3770
    },
    {
      "epoch": 0.98,
      "learning_rate": 1.3342898134863702e-08,
      "logits/chosen": -4.096220970153809,
      "logits/rejected": -4.115006446838379,
      "logps/chosen": -577.7149658203125,
      "logps/rejected": -440.178955078125,
      "loss": 0.6036,
      "rewards/accuracies": 0.6499999761581421,
      "rewards/chosen": 0.4464997351169586,
      "rewards/margins": 0.4255821108818054,
      "rewards/rejected": 0.020917650312185287,
      "step": 3780
    },
    {
      "epoch": 0.98,
      "learning_rate": 1.1908177905308463e-08,
      "logits/chosen": -3.8991074562072754,
      "logits/rejected": -3.802464246749878,
      "logps/chosen": -519.2384643554688,
      "logps/rejected": -435.0231018066406,
      "loss": 0.5509,
      "rewards/accuracies": 0.7250000238418579,
      "rewards/chosen": 0.44993266463279724,
      "rewards/margins": 0.5668569207191467,
      "rewards/rejected": -0.1169242262840271,
      "step": 3790
    },
    {
      "epoch": 0.98,
      "learning_rate": 1.0473457675753228e-08,
      "logits/chosen": -4.110097885131836,
      "logits/rejected": -4.070154190063477,
      "logps/chosen": -539.1266479492188,
      "logps/rejected": -404.272216796875,
      "loss": 0.5484,
      "rewards/accuracies": 0.762499988079071,
      "rewards/chosen": 0.5660614371299744,
      "rewards/margins": 0.6612092852592468,
      "rewards/rejected": -0.0951477512717247,
      "step": 3800
    },
    {
      "epoch": 0.98,
      "eval_logits/chosen": -3.9850714206695557,
      "eval_logits/rejected": -4.010331630706787,
      "eval_logps/chosen": -544.69189453125,
      "eval_logps/rejected": -438.4535827636719,
      "eval_loss": 0.5614883899688721,
      "eval_rewards/accuracies": 0.6930000185966492,
      "eval_rewards/chosen": 0.46847668290138245,
      "eval_rewards/margins": 0.5133422613143921,
      "eval_rewards/rejected": -0.044865623116493225,
      "eval_runtime": 146.7356,
      "eval_samples_per_second": 13.63,
      "eval_steps_per_second": 1.704,
      "step": 3800
    },
    {
      "epoch": 0.98,
      "learning_rate": 9.03873744619799e-09,
      "logits/chosen": -4.123238563537598,
      "logits/rejected": -4.03770112991333,
      "logps/chosen": -511.1904296875,
      "logps/rejected": -446.9549865722656,
      "loss": 0.5468,
      "rewards/accuracies": 0.675000011920929,
      "rewards/chosen": 0.46543973684310913,
      "rewards/margins": 0.4664246439933777,
      "rewards/rejected": -0.0009849362540990114,
      "step": 3810
    },
    {
      "epoch": 0.99,
      "learning_rate": 7.604017216642753e-09,
      "logits/chosen": -4.272444725036621,
      "logits/rejected": -4.183244705200195,
      "logps/chosen": -505.7000427246094,
      "logps/rejected": -433.4576721191406,
      "loss": 0.5317,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.5172845721244812,
      "rewards/margins": 0.5496169328689575,
      "rewards/rejected": -0.03233236074447632,
      "step": 3820
    },
    {
      "epoch": 0.99,
      "learning_rate": 6.169296987087518e-09,
      "logits/chosen": -4.149974346160889,
      "logits/rejected": -4.188473701477051,
      "logps/chosen": -587.9978637695312,
      "logps/rejected": -437.9640197753906,
      "loss": 0.557,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.5558081269264221,
      "rewards/margins": 0.5474778413772583,
      "rewards/rejected": 0.008330265991389751,
      "step": 3830
    },
    {
      "epoch": 0.99,
      "learning_rate": 4.734576757532282e-09,
      "logits/chosen": -4.119086265563965,
      "logits/rejected": -4.145096778869629,
      "logps/chosen": -511.7611389160156,
      "logps/rejected": -394.4190368652344,
      "loss": 0.5667,
      "rewards/accuracies": 0.6625000238418579,
      "rewards/chosen": 0.42686066031455994,
      "rewards/margins": 0.49367666244506836,
      "rewards/rejected": -0.06681600958108902,
      "step": 3840
    },
    {
      "epoch": 0.99,
      "learning_rate": 3.299856527977044e-09,
      "logits/chosen": -3.9760982990264893,
      "logits/rejected": -4.040436267852783,
      "logps/chosen": -612.0133056640625,
      "logps/rejected": -519.7421875,
      "loss": 0.5988,
      "rewards/accuracies": 0.7124999761581421,
      "rewards/chosen": 0.49833711981773376,
      "rewards/margins": 0.5593429803848267,
      "rewards/rejected": -0.06100592762231827,
      "step": 3850
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.8651362984218077e-09,
      "logits/chosen": -3.951416015625,
      "logits/rejected": -3.949162006378174,
      "logps/chosen": -557.078857421875,
      "logps/rejected": -389.9462890625,
      "loss": 0.5123,
      "rewards/accuracies": 0.737500011920929,
      "rewards/chosen": 0.5364678502082825,
      "rewards/margins": 0.6398257613182068,
      "rewards/rejected": -0.10335797071456909,
      "step": 3860
    },
    {
      "epoch": 1.0,
      "learning_rate": 4.30416068866571e-10,
      "logits/chosen": -4.126285076141357,
      "logits/rejected": -4.162901878356934,
      "logps/chosen": -532.77880859375,
      "logps/rejected": -499.14410400390625,
      "loss": 0.6348,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": 0.4620552659034729,
      "rewards/margins": 0.32118576765060425,
      "rewards/rejected": 0.14086945354938507,
      "step": 3870
    },
    {
      "epoch": 1.0,
      "step": 3873,
      "total_flos": 0.0,
      "train_loss": 0.5913154047772216,
      "train_runtime": 14580.3501,
      "train_samples_per_second": 4.25,
      "train_steps_per_second": 0.266
    }
  ],
  "logging_steps": 10,
  "max_steps": 3873,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "total_flos": 0.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}