{
  "best_metric": 0.6194455623626709,
  "best_model_checkpoint": "./checkpoints_dpo_final_2/Phi-3-mini-4k-instruct/checkpoint-1500",
  "epoch": 2.0,
  "eval_steps": 50,
  "global_step": 1608,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.004975124378109453,
      "grad_norm": 7.420848846435547,
      "learning_rate": 8.000000000000001e-07,
      "logits/chosen": 0.31535276770591736,
      "logits/rejected": 0.2069419026374817,
      "logps/chosen": -443.7961120605469,
      "logps/rejected": -403.4725341796875,
      "loss": 1.2553,
      "rewards/accuracies": 0.515625,
      "rewards/chosen": 7.078475475311279,
      "rewards/margins": 0.11215054243803024,
      "rewards/rejected": 6.966324329376221,
      "step": 4
    },
    {
      "epoch": 0.009950248756218905,
      "grad_norm": 7.148873805999756,
      "learning_rate": 1.6000000000000001e-06,
      "logits/chosen": 0.28295886516571045,
      "logits/rejected": 0.3022560179233551,
      "logps/chosen": -366.45233154296875,
      "logps/rejected": -426.3655090332031,
      "loss": 0.9806,
      "rewards/accuracies": 0.515625,
      "rewards/chosen": 6.658623218536377,
      "rewards/margins": -0.2977091073989868,
      "rewards/rejected": 6.956332683563232,
      "step": 8
    },
    {
      "epoch": 0.014925373134328358,
      "grad_norm": 8.879262924194336,
      "learning_rate": 2.4000000000000003e-06,
      "logits/chosen": 0.5261741876602173,
      "logits/rejected": 0.47682714462280273,
      "logps/chosen": -399.4539489746094,
      "logps/rejected": -382.5442810058594,
      "loss": 0.9681,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": 6.928550720214844,
      "rewards/margins": 0.06680499017238617,
      "rewards/rejected": 6.861745357513428,
      "step": 12
    },
    {
      "epoch": 0.01990049751243781,
      "grad_norm": 12.120668411254883,
      "learning_rate": 3.2000000000000003e-06,
      "logits/chosen": 0.7348346710205078,
      "logits/rejected": 0.45035141706466675,
      "logps/chosen": -433.3005065917969,
      "logps/rejected": -387.620361328125,
      "loss": 1.1552,
      "rewards/accuracies": 0.609375,
      "rewards/chosen": 6.386252403259277,
      "rewards/margins": 0.23828373849391937,
      "rewards/rejected": 6.147968292236328,
      "step": 16
    },
    {
      "epoch": 0.024875621890547265,
      "grad_norm": 7.843857765197754,
      "learning_rate": 4.000000000000001e-06,
      "logits/chosen": 0.5343019962310791,
      "logits/rejected": 0.24399122595787048,
      "logps/chosen": -425.4538879394531,
      "logps/rejected": -353.02947998046875,
      "loss": 0.9466,
      "rewards/accuracies": 0.5,
      "rewards/chosen": 5.57993745803833,
      "rewards/margins": 0.3308122158050537,
      "rewards/rejected": 5.249125957489014,
      "step": 20
    },
    {
      "epoch": 0.029850746268656716,
      "grad_norm": 6.334160804748535,
      "learning_rate": 4.800000000000001e-06,
      "logits/chosen": 0.27708423137664795,
      "logits/rejected": 0.22941020131111145,
      "logps/chosen": -384.0626525878906,
      "logps/rejected": -335.5965881347656,
      "loss": 0.8395,
      "rewards/accuracies": 0.421875,
      "rewards/chosen": 4.043614864349365,
      "rewards/margins": -0.3541470766067505,
      "rewards/rejected": 4.397762298583984,
      "step": 24
    },
    {
      "epoch": 0.03482587064676617,
      "grad_norm": 6.785109519958496,
      "learning_rate": 5.600000000000001e-06,
      "logits/chosen": 0.3940538465976715,
      "logits/rejected": 0.13648821413516998,
      "logps/chosen": -459.2915954589844,
      "logps/rejected": -384.01031494140625,
      "loss": 0.7924,
      "rewards/accuracies": 0.609375,
      "rewards/chosen": 3.638526439666748,
      "rewards/margins": 0.16708242893218994,
      "rewards/rejected": 3.4714441299438477,
      "step": 28
    },
    {
      "epoch": 0.03980099502487562,
      "grad_norm": 6.778156280517578,
      "learning_rate": 6.4000000000000006e-06,
      "logits/chosen": 0.6169087886810303,
      "logits/rejected": 0.4341488480567932,
      "logps/chosen": -476.3402404785156,
      "logps/rejected": -463.748779296875,
      "loss": 0.7885,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": 3.291264533996582,
      "rewards/margins": 0.29383713006973267,
      "rewards/rejected": 2.9974277019500732,
      "step": 32
    },
    {
      "epoch": 0.04477611940298507,
      "grad_norm": 7.815089702606201,
      "learning_rate": 7.2000000000000005e-06,
      "logits/chosen": 0.8724404573440552,
      "logits/rejected": 0.5648743510246277,
      "logps/chosen": -418.50372314453125,
      "logps/rejected": -364.5290222167969,
      "loss": 0.8768,
      "rewards/accuracies": 0.5,
      "rewards/chosen": 2.4819023609161377,
      "rewards/margins": -0.11123146116733551,
      "rewards/rejected": 2.5931336879730225,
      "step": 36
    },
    {
      "epoch": 0.04975124378109453,
      "grad_norm": 5.426750659942627,
      "learning_rate": 8.000000000000001e-06,
      "logits/chosen": 0.4279947876930237,
      "logits/rejected": 0.23432603478431702,
      "logps/chosen": -429.2681579589844,
      "logps/rejected": -391.44281005859375,
      "loss": 0.7756,
      "rewards/accuracies": 0.546875,
      "rewards/chosen": 2.358858585357666,
      "rewards/margins": 0.2736659348011017,
      "rewards/rejected": 2.0851926803588867,
      "step": 40
    },
    {
      "epoch": 0.05472636815920398,
      "grad_norm": 6.188413619995117,
      "learning_rate": 8.8e-06,
      "logits/chosen": 0.13682100176811218,
      "logits/rejected": 0.03174281492829323,
      "logps/chosen": -440.99224853515625,
      "logps/rejected": -466.3514404296875,
      "loss": 0.7254,
      "rewards/accuracies": 0.5,
      "rewards/chosen": 2.198638439178467,
      "rewards/margins": 0.15260140597820282,
      "rewards/rejected": 2.046036958694458,
      "step": 44
    },
    {
      "epoch": 0.05970149253731343,
      "grad_norm": 6.239718914031982,
      "learning_rate": 9.600000000000001e-06,
      "logits/chosen": 0.23234650492668152,
      "logits/rejected": 0.25346270203590393,
      "logps/chosen": -512.7527465820312,
      "logps/rejected": -494.216552734375,
      "loss": 0.7121,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": 2.1018052101135254,
      "rewards/margins": 0.08936208486557007,
      "rewards/rejected": 2.0124430656433105,
      "step": 48
    },
    {
      "epoch": 0.06218905472636816,
      "eval_logits/chosen": 0.33167123794555664,
      "eval_logits/rejected": 0.1882716715335846,
      "eval_logps/chosen": -432.4385070800781,
      "eval_logps/rejected": -392.6837158203125,
      "eval_loss": 0.7078412175178528,
      "eval_rewards/accuracies": 0.5694444179534912,
      "eval_rewards/chosen": 1.9858527183532715,
      "eval_rewards/margins": 0.0740758553147316,
      "eval_rewards/rejected": 1.9117769002914429,
      "eval_runtime": 149.9332,
      "eval_samples_per_second": 7.623,
      "eval_steps_per_second": 0.24,
      "step": 50
    },
    {
      "epoch": 0.06467661691542288,
      "grad_norm": 6.6676530838012695,
      "learning_rate": 1.04e-05,
      "logits/chosen": 0.046434201300144196,
      "logits/rejected": 0.02955937385559082,
      "logps/chosen": -452.5304260253906,
      "logps/rejected": -471.0543518066406,
      "loss": 0.6929,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 2.0271408557891846,
      "rewards/margins": 0.25260087847709656,
      "rewards/rejected": 1.7745399475097656,
      "step": 52
    },
    {
      "epoch": 0.06965174129353234,
      "grad_norm": 6.596746444702148,
      "learning_rate": 1.1200000000000001e-05,
      "logits/chosen": 0.5402776598930359,
      "logits/rejected": 0.4161326587200165,
      "logps/chosen": -451.6429748535156,
      "logps/rejected": -434.0633239746094,
      "loss": 0.7366,
      "rewards/accuracies": 0.515625,
      "rewards/chosen": 1.8598072528839111,
      "rewards/margins": -0.006673937663435936,
      "rewards/rejected": 1.8664811849594116,
      "step": 56
    },
    {
      "epoch": 0.07462686567164178,
      "grad_norm": 5.593472957611084,
      "learning_rate": 1.2e-05,
      "logits/chosen": 0.40079164505004883,
      "logits/rejected": 0.25033000111579895,
      "logps/chosen": -504.302490234375,
      "logps/rejected": -494.911376953125,
      "loss": 0.7328,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 1.5626219511032104,
      "rewards/margins": 0.10345478355884552,
      "rewards/rejected": 1.4591671228408813,
      "step": 60
    },
    {
      "epoch": 0.07960199004975124,
      "grad_norm": 5.58954381942749,
      "learning_rate": 1.2800000000000001e-05,
      "logits/chosen": 0.25867709517478943,
      "logits/rejected": 0.14657628536224365,
      "logps/chosen": -431.3748474121094,
      "logps/rejected": -424.9607849121094,
      "loss": 0.6738,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": 0.8101712465286255,
      "rewards/margins": 0.0693005919456482,
      "rewards/rejected": 0.7408705949783325,
      "step": 64
    },
    {
      "epoch": 0.0845771144278607,
      "grad_norm": 6.670442581176758,
      "learning_rate": 1.3600000000000002e-05,
      "logits/chosen": 0.3967319130897522,
      "logits/rejected": 0.3033946752548218,
      "logps/chosen": -457.9029541015625,
      "logps/rejected": -449.4042053222656,
      "loss": 0.6967,
      "rewards/accuracies": 0.578125,
      "rewards/chosen": 0.5467469692230225,
      "rewards/margins": 0.12546321749687195,
      "rewards/rejected": 0.4212837517261505,
      "step": 68
    },
    {
      "epoch": 0.08955223880597014,
      "grad_norm": 5.157428741455078,
      "learning_rate": 1.4400000000000001e-05,
      "logits/chosen": 0.5071850419044495,
      "logits/rejected": 0.3140091598033905,
      "logps/chosen": -429.99468994140625,
      "logps/rejected": -405.0130615234375,
      "loss": 0.6743,
      "rewards/accuracies": 0.640625,
      "rewards/chosen": 0.8408704996109009,
      "rewards/margins": 0.23394504189491272,
      "rewards/rejected": 0.6069254279136658,
      "step": 72
    },
    {
      "epoch": 0.0945273631840796,
      "grad_norm": 5.6009521484375,
      "learning_rate": 1.5200000000000002e-05,
      "logits/chosen": 0.2075415998697281,
      "logits/rejected": 0.07978951930999756,
      "logps/chosen": -417.7720947265625,
      "logps/rejected": -385.97576904296875,
      "loss": 0.7021,
      "rewards/accuracies": 0.609375,
      "rewards/chosen": 1.121203064918518,
      "rewards/margins": 0.08919668942689896,
      "rewards/rejected": 1.0320063829421997,
      "step": 76
    },
    {
      "epoch": 0.09950248756218906,
      "grad_norm": 5.1235575675964355,
      "learning_rate": 1.6000000000000003e-05,
      "logits/chosen": 0.4204176962375641,
      "logits/rejected": 0.03434094786643982,
      "logps/chosen": -658.8785400390625,
      "logps/rejected": -461.9447937011719,
      "loss": 0.6689,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": 0.9897336363792419,
      "rewards/margins": 0.21804025769233704,
      "rewards/rejected": 0.7716932892799377,
      "step": 80
    },
    {
      "epoch": 0.1044776119402985,
      "grad_norm": 6.649357795715332,
      "learning_rate": 1.6800000000000002e-05,
      "logits/chosen": 0.2298906296491623,
      "logits/rejected": 0.1789359152317047,
      "logps/chosen": -478.6454772949219,
      "logps/rejected": -463.6629638671875,
      "loss": 0.7429,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": 0.5649065971374512,
      "rewards/margins": 0.21340136229991913,
      "rewards/rejected": 0.35150521993637085,
      "step": 84
    },
    {
      "epoch": 0.10945273631840796,
      "grad_norm": 6.433568954467773,
      "learning_rate": 1.76e-05,
      "logits/chosen": 0.1520080417394638,
      "logits/rejected": 0.10301964730024338,
      "logps/chosen": -534.1607666015625,
      "logps/rejected": -517.918701171875,
      "loss": 0.6625,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": 0.4300222396850586,
      "rewards/margins": 0.29336607456207275,
      "rewards/rejected": 0.13665619492530823,
      "step": 88
    },
    {
      "epoch": 0.11442786069651742,
      "grad_norm": 5.594571590423584,
      "learning_rate": 1.8400000000000003e-05,
      "logits/chosen": 0.18866638839244843,
      "logits/rejected": 0.03936055302619934,
      "logps/chosen": -477.4437255859375,
      "logps/rejected": -434.723388671875,
      "loss": 0.6865,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": 0.16455253958702087,
      "rewards/margins": 0.15519294142723083,
      "rewards/rejected": 0.00935959443449974,
      "step": 92
    },
    {
      "epoch": 0.11940298507462686,
      "grad_norm": 4.924789905548096,
      "learning_rate": 1.9200000000000003e-05,
      "logits/chosen": 0.19729886949062347,
      "logits/rejected": 0.06473005563020706,
      "logps/chosen": -444.3799133300781,
      "logps/rejected": -394.0942687988281,
      "loss": 0.6609,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": 0.34238868951797485,
      "rewards/margins": 0.23226764798164368,
      "rewards/rejected": 0.11012104153633118,
      "step": 96
    },
    {
      "epoch": 0.12437810945273632,
      "grad_norm": 9.16905403137207,
      "learning_rate": 2e-05,
      "logits/chosen": 0.1745055466890335,
      "logits/rejected": 0.18110498785972595,
      "logps/chosen": -590.113525390625,
      "logps/rejected": -565.5681762695312,
      "loss": 0.672,
      "rewards/accuracies": 0.578125,
      "rewards/chosen": 0.5021845102310181,
      "rewards/margins": 0.1258457899093628,
      "rewards/rejected": 0.3763387203216553,
      "step": 100
    },
    {
      "epoch": 0.12437810945273632,
      "eval_logits/chosen": 0.27222201228141785,
      "eval_logits/rejected": 0.13300225138664246,
      "eval_logps/chosen": -448.08441162109375,
      "eval_logps/rejected": -409.7933349609375,
      "eval_loss": 0.6717547178268433,
      "eval_rewards/accuracies": 0.5972222089767456,
      "eval_rewards/chosen": 0.42125940322875977,
      "eval_rewards/margins": 0.22044435143470764,
      "eval_rewards/rejected": 0.20081506669521332,
      "eval_runtime": 150.2898,
      "eval_samples_per_second": 7.605,
      "eval_steps_per_second": 0.24,
      "step": 100
    },
    {
      "epoch": 0.12935323383084577,
      "grad_norm": 5.174230098724365,
      "learning_rate": 1.9999652796146877e-05,
      "logits/chosen": 0.4161723256111145,
      "logits/rejected": 0.32582810521125793,
      "logps/chosen": -493.2930908203125,
      "logps/rejected": -458.1988830566406,
      "loss": 0.6712,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": 0.37257951498031616,
      "rewards/margins": 0.16849718987941742,
      "rewards/rejected": 0.20408231019973755,
      "step": 104
    },
    {
      "epoch": 0.13432835820895522,
      "grad_norm": 5.811988353729248,
      "learning_rate": 1.9998611208697607e-05,
      "logits/chosen": 0.5949371457099915,
      "logits/rejected": 0.41842520236968994,
      "logps/chosen": -447.29522705078125,
      "logps/rejected": -407.77264404296875,
      "loss": 0.6549,
      "rewards/accuracies": 0.703125,
      "rewards/chosen": 0.040240589529275894,
      "rewards/margins": 0.27960366010665894,
      "rewards/rejected": -0.23936308920383453,
      "step": 108
    },
    {
      "epoch": 0.13930348258706468,
      "grad_norm": 6.341477870941162,
      "learning_rate": 1.9996875309980824e-05,
      "logits/chosen": 0.5326985120773315,
      "logits/rejected": 0.3219985067844391,
      "logps/chosen": -592.6687622070312,
      "logps/rejected": -506.40093994140625,
      "loss": 0.6684,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.08561475574970245,
      "rewards/margins": 0.18506459891796112,
      "rewards/rejected": -0.27067938446998596,
      "step": 112
    },
    {
      "epoch": 0.14427860696517414,
      "grad_norm": 6.128859519958496,
      "learning_rate": 1.9994445220538678e-05,
      "logits/chosen": 0.2585601210594177,
      "logits/rejected": 0.06527578085660934,
      "logps/chosen": -442.81512451171875,
      "logps/rejected": -460.4501953125,
      "loss": 0.6902,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": 0.07791093736886978,
      "rewards/margins": 0.12571600079536438,
      "rewards/rejected": -0.04780507832765579,
      "step": 116
    },
    {
      "epoch": 0.14925373134328357,
      "grad_norm": 5.584373950958252,
      "learning_rate": 1.999132110911845e-05,
      "logits/chosen": 0.27150627970695496,
      "logits/rejected": 0.1847885251045227,
      "logps/chosen": -469.2530517578125,
      "logps/rejected": -458.80413818359375,
      "loss": 0.6793,
      "rewards/accuracies": 0.640625,
      "rewards/chosen": 0.3338521122932434,
      "rewards/margins": 0.2423708438873291,
      "rewards/rejected": 0.09148130565881729,
      "step": 120
    },
    {
      "epoch": 0.15422885572139303,
      "grad_norm": 5.340240955352783,
      "learning_rate": 1.9987503192660842e-05,
      "logits/chosen": 0.2772689759731293,
      "logits/rejected": 0.20361235737800598,
      "logps/chosen": -403.8421630859375,
      "logps/rejected": -364.796630859375,
      "loss": 0.6732,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": 0.463238924741745,
      "rewards/margins": 0.17842896282672882,
      "rewards/rejected": 0.2848099172115326,
      "step": 124
    },
    {
      "epoch": 0.15920398009950248,
      "grad_norm": 5.592566013336182,
      "learning_rate": 1.9982991736284914e-05,
      "logits/chosen": 0.482767254114151,
      "logits/rejected": 0.42924097180366516,
      "logps/chosen": -474.4277648925781,
      "logps/rejected": -526.3604736328125,
      "loss": 0.6581,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.6025639176368713,
      "rewards/margins": 0.2601732611656189,
      "rewards/rejected": 0.3423907160758972,
      "step": 128
    },
    {
      "epoch": 0.16417910447761194,
      "grad_norm": 6.180532932281494,
      "learning_rate": 1.997778705326968e-05,
      "logits/chosen": 0.20447391271591187,
      "logits/rejected": 0.13856717944145203,
      "logps/chosen": -433.2802734375,
      "logps/rejected": -459.3676452636719,
      "loss": 0.6757,
      "rewards/accuracies": 0.671875,
      "rewards/chosen": 0.37419936060905457,
      "rewards/margins": 0.33122357726097107,
      "rewards/rejected": 0.04297574609518051,
      "step": 132
    },
    {
      "epoch": 0.1691542288557214,
      "grad_norm": 5.7720417976379395,
      "learning_rate": 1.9971889505032337e-05,
      "logits/chosen": 0.37103909254074097,
      "logits/rejected": 0.18156485259532928,
      "logps/chosen": -431.2093200683594,
      "logps/rejected": -415.803955078125,
      "loss": 0.6676,
      "rewards/accuracies": 0.671875,
      "rewards/chosen": 0.00045023113489151,
      "rewards/margins": 0.28690749406814575,
      "rewards/rejected": -0.28645727038383484,
      "step": 136
    },
    {
      "epoch": 0.17412935323383086,
      "grad_norm": 5.279744625091553,
      "learning_rate": 1.9965299501103178e-05,
      "logits/chosen": 0.6684572696685791,
      "logits/rejected": 0.4265105724334717,
      "logps/chosen": -405.96636962890625,
      "logps/rejected": -363.99810791015625,
      "loss": 0.6718,
      "rewards/accuracies": 0.578125,
      "rewards/chosen": -0.31693071126937866,
      "rewards/margins": 0.12704896926879883,
      "rewards/rejected": -0.4439797103404999,
      "step": 140
    },
    {
      "epoch": 0.1791044776119403,
      "grad_norm": 5.412991046905518,
      "learning_rate": 1.995801749909715e-05,
      "logits/chosen": 0.3472476601600647,
      "logits/rejected": 0.1070006936788559,
      "logps/chosen": -525.67529296875,
      "logps/rejected": -470.4413146972656,
      "loss": 0.6922,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.21376881003379822,
      "rewards/margins": 0.07273076474666595,
      "rewards/rejected": -0.286499559879303,
      "step": 144
    },
    {
      "epoch": 0.18407960199004975,
      "grad_norm": 5.56497049331665,
      "learning_rate": 1.995004400468209e-05,
      "logits/chosen": 0.23391787707805634,
      "logits/rejected": 0.42092186212539673,
      "logps/chosen": -431.3445739746094,
      "logps/rejected": -513.2816772460938,
      "loss": 0.6803,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": 0.5987527966499329,
      "rewards/margins": 0.20438729226589203,
      "rewards/rejected": 0.39436548948287964,
      "step": 148
    },
    {
      "epoch": 0.1865671641791045,
      "eval_logits/chosen": 0.3917093575000763,
      "eval_logits/rejected": 0.2565095126628876,
      "eval_logps/chosen": -440.29315185546875,
      "eval_logps/rejected": -402.7275390625,
      "eval_loss": 0.6632580161094666,
      "eval_rewards/accuracies": 0.6215277910232544,
      "eval_rewards/chosen": 1.2003861665725708,
      "eval_rewards/margins": 0.29299187660217285,
      "eval_rewards/rejected": 0.907394289970398,
      "eval_runtime": 150.4796,
      "eval_samples_per_second": 7.596,
      "eval_steps_per_second": 0.239,
      "step": 150
    },
    {
      "epoch": 0.1890547263681592,
      "grad_norm": 6.083770751953125,
      "learning_rate": 1.9941379571543597e-05,
      "logits/chosen": 0.33355918526649475,
      "logits/rejected": 0.4423186779022217,
      "logps/chosen": -489.43389892578125,
      "logps/rejected": -527.8333129882812,
      "loss": 0.7118,
      "rewards/accuracies": 0.609375,
      "rewards/chosen": 1.1078438758850098,
      "rewards/margins": 0.08143356442451477,
      "rewards/rejected": 1.0264102220535278,
      "step": 152
    },
    {
      "epoch": 0.19402985074626866,
      "grad_norm": 5.055530071258545,
      "learning_rate": 1.9932024801346583e-05,
      "logits/chosen": 0.37234047055244446,
      "logits/rejected": 0.23300248384475708,
      "logps/chosen": -445.1590270996094,
      "logps/rejected": -421.0417175292969,
      "loss": 0.6896,
      "rewards/accuracies": 0.546875,
      "rewards/chosen": 1.0396504402160645,
      "rewards/margins": 0.15197786688804626,
      "rewards/rejected": 0.8876725435256958,
      "step": 156
    },
    {
      "epoch": 0.19900497512437812,
      "grad_norm": 4.7338433265686035,
      "learning_rate": 1.992198034369349e-05,
      "logits/chosen": 0.016373004764318466,
      "logits/rejected": 0.12857607007026672,
      "logps/chosen": -392.64678955078125,
      "logps/rejected": -409.271240234375,
      "loss": 0.6344,
      "rewards/accuracies": 0.640625,
      "rewards/chosen": 0.56157386302948,
      "rewards/margins": 0.11771346628665924,
      "rewards/rejected": 0.44386038184165955,
      "step": 160
    },
    {
      "epoch": 0.20398009950248755,
      "grad_norm": 5.313661098480225,
      "learning_rate": 1.991124689607921e-05,
      "logits/chosen": 0.6525070667266846,
      "logits/rejected": 0.5595052242279053,
      "logps/chosen": -499.96746826171875,
      "logps/rejected": -459.646728515625,
      "loss": 0.6648,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": 0.22787390649318695,
      "rewards/margins": 0.18890802562236786,
      "rewards/rejected": 0.038965899497270584,
      "step": 164
    },
    {
      "epoch": 0.208955223880597,
      "grad_norm": 5.3913984298706055,
      "learning_rate": 1.9899825203842613e-05,
      "logits/chosen": 0.4010236859321594,
      "logits/rejected": 0.2576262950897217,
      "logps/chosen": -378.7827453613281,
      "logps/rejected": -365.35235595703125,
      "loss": 0.6702,
      "rewards/accuracies": 0.609375,
      "rewards/chosen": 0.21431918442249298,
      "rewards/margins": 0.11841318756341934,
      "rewards/rejected": 0.09590599685907364,
      "step": 168
    },
    {
      "epoch": 0.21393034825870647,
      "grad_norm": 4.707008361816406,
      "learning_rate": 1.988771606011481e-05,
      "logits/chosen": 0.5776969790458679,
      "logits/rejected": 0.5886460542678833,
      "logps/chosen": -452.3276672363281,
      "logps/rejected": -492.7530822753906,
      "loss": 0.635,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": 0.4167579114437103,
      "rewards/margins": 0.38403820991516113,
      "rewards/rejected": 0.03271971270442009,
      "step": 172
    },
    {
      "epoch": 0.21890547263681592,
      "grad_norm": 4.890253067016602,
      "learning_rate": 1.987492030576407e-05,
      "logits/chosen": 0.4215804934501648,
      "logits/rejected": 0.3395119309425354,
      "logps/chosen": -443.6938781738281,
      "logps/rejected": -448.883056640625,
      "loss": 0.6518,
      "rewards/accuracies": 0.671875,
      "rewards/chosen": 0.3662562072277069,
      "rewards/margins": 0.25069642066955566,
      "rewards/rejected": 0.11555974185466766,
      "step": 176
    },
    {
      "epoch": 0.22388059701492538,
      "grad_norm": 4.925017833709717,
      "learning_rate": 1.986143882933744e-05,
      "logits/chosen": 0.7153533697128296,
      "logits/rejected": 0.5962733626365662,
      "logps/chosen": -378.98199462890625,
      "logps/rejected": -362.8702697753906,
      "loss": 0.6265,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": 0.10049009323120117,
      "rewards/margins": 0.24912574887275696,
      "rewards/rejected": -0.1486356258392334,
      "step": 180
    },
    {
      "epoch": 0.22885572139303484,
      "grad_norm": 4.816032409667969,
      "learning_rate": 1.9847272566999026e-05,
      "logits/chosen": 0.3551070988178253,
      "logits/rejected": 0.1886759102344513,
      "logps/chosen": -481.8218688964844,
      "logps/rejected": -461.4677429199219,
      "loss": 0.6018,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.11597292125225067,
      "rewards/margins": 0.4469318389892578,
      "rewards/rejected": -0.5629047155380249,
      "step": 184
    },
    {
      "epoch": 0.23383084577114427,
      "grad_norm": 5.482291221618652,
      "learning_rate": 1.9832422502465013e-05,
      "logits/chosen": 0.07703270018100739,
      "logits/rejected": 0.08134737610816956,
      "logps/chosen": -430.76470947265625,
      "logps/rejected": -479.6883239746094,
      "loss": 0.6444,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.38663041591644287,
      "rewards/margins": 0.16125822067260742,
      "rewards/rejected": -0.5478886365890503,
      "step": 188
    },
    {
      "epoch": 0.23880597014925373,
      "grad_norm": 5.5123677253723145,
      "learning_rate": 1.9816889666935318e-05,
      "logits/chosen": 0.46063917875289917,
      "logits/rejected": 0.40867650508880615,
      "logps/chosen": -496.49615478515625,
      "logps/rejected": -474.017578125,
      "loss": 0.6574,
      "rewards/accuracies": 0.578125,
      "rewards/chosen": -0.224630206823349,
      "rewards/margins": 0.17337118089199066,
      "rewards/rejected": -0.39800137281417847,
      "step": 192
    },
    {
      "epoch": 0.24378109452736318,
      "grad_norm": 8.160882949829102,
      "learning_rate": 1.9800675139022006e-05,
      "logits/chosen": 0.5780532956123352,
      "logits/rejected": 0.3103576898574829,
      "logps/chosen": -491.5118103027344,
      "logps/rejected": -422.33807373046875,
      "loss": 0.6543,
      "rewards/accuracies": 0.609375,
      "rewards/chosen": -0.08265501260757446,
      "rewards/margins": 0.24835649132728577,
      "rewards/rejected": -0.33101150393486023,
      "step": 196
    },
    {
      "epoch": 0.24875621890547264,
      "grad_norm": 6.051442623138428,
      "learning_rate": 1.9783780044674402e-05,
      "logits/chosen": 0.5951110124588013,
      "logits/rejected": 0.5504649877548218,
      "logps/chosen": -438.7686767578125,
      "logps/rejected": -458.02325439453125,
      "loss": 0.6816,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.20991414785385132,
      "rewards/margins": 0.2382897138595581,
      "rewards/rejected": -0.4482038617134094,
      "step": 200
    },
    {
      "epoch": 0.24875621890547264,
      "eval_logits/chosen": 0.27061331272125244,
      "eval_logits/rejected": 0.13349506258964539,
      "eval_logps/chosen": -454.5816955566406,
      "eval_logps/rejected": -416.6123046875,
      "eval_loss": 0.6534828543663025,
      "eval_rewards/accuracies": 0.59375,
      "eval_rewards/chosen": -0.22846804559230804,
      "eval_rewards/margins": 0.25261345505714417,
      "eval_rewards/rejected": -0.4810815453529358,
      "eval_runtime": 150.5659,
      "eval_samples_per_second": 7.591,
      "eval_steps_per_second": 0.239,
      "step": 200
    },
    {
      "epoch": 0.2537313432835821,
      "grad_norm": 5.35200834274292,
      "learning_rate": 1.976620555710087e-05,
      "logits/chosen": 0.2719428837299347,
      "logits/rejected": 0.18390944600105286,
      "logps/chosen": -401.3759765625,
      "logps/rejected": -378.04510498046875,
      "loss": 0.6804,
      "rewards/accuracies": 0.640625,
      "rewards/chosen": -0.2212618738412857,
      "rewards/margins": 0.1665419489145279,
      "rewards/rejected": -0.3878038227558136,
      "step": 204
    },
    {
      "epoch": 0.25870646766169153,
      "grad_norm": 5.549587726593018,
      "learning_rate": 1.974795289668737e-05,
      "logits/chosen": 0.222773939371109,
      "logits/rejected": 0.27480173110961914,
      "logps/chosen": -450.5555419921875,
      "logps/rejected": -478.2663879394531,
      "loss": 0.6274,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.5931901335716248,
      "rewards/margins": 0.2987501919269562,
      "rewards/rejected": 0.29443997144699097,
      "step": 208
    },
    {
      "epoch": 0.263681592039801,
      "grad_norm": 5.261623859405518,
      "learning_rate": 1.972902333091271e-05,
      "logits/chosen": 0.41583824157714844,
      "logits/rejected": 0.16713739931583405,
      "logps/chosen": -533.6800537109375,
      "logps/rejected": -458.5304260253906,
      "loss": 0.677,
      "rewards/accuracies": 0.546875,
      "rewards/chosen": 0.5807373523712158,
      "rewards/margins": 0.1561833620071411,
      "rewards/rejected": 0.4245539605617523,
      "step": 212
    },
    {
      "epoch": 0.26865671641791045,
      "grad_norm": 5.055637359619141,
      "learning_rate": 1.9709418174260523e-05,
      "logits/chosen": 0.3311361074447632,
      "logits/rejected": 0.3872915506362915,
      "logps/chosen": -467.373046875,
      "logps/rejected": -458.4536437988281,
      "loss": 0.647,
      "rewards/accuracies": 0.578125,
      "rewards/chosen": 0.7115026712417603,
      "rewards/margins": 0.30211564898490906,
      "rewards/rejected": 0.40938708186149597,
      "step": 216
    },
    {
      "epoch": 0.2736318407960199,
      "grad_norm": 4.662365913391113,
      "learning_rate": 1.9689138788127994e-05,
      "logits/chosen": 0.43617844581604004,
      "logits/rejected": 0.209380641579628,
      "logps/chosen": -391.93701171875,
      "logps/rejected": -352.4445495605469,
      "loss": 0.6663,
      "rewards/accuracies": 0.640625,
      "rewards/chosen": 0.24579453468322754,
      "rewards/margins": 0.27014172077178955,
      "rewards/rejected": -0.0243472121655941,
      "step": 220
    },
    {
      "epoch": 0.27860696517412936,
      "grad_norm": 5.244974136352539,
      "learning_rate": 1.966818658073133e-05,
      "logits/chosen": 0.179366797208786,
      "logits/rejected": 0.17232109606266022,
      "logps/chosen": -475.9603271484375,
      "logps/rejected": -503.4451904296875,
      "loss": 0.6791,
      "rewards/accuracies": 0.640625,
      "rewards/chosen": 0.10947009921073914,
      "rewards/margins": 0.0003622081130743027,
      "rewards/rejected": 0.10910789668560028,
      "step": 224
    },
    {
      "epoch": 0.2835820895522388,
      "grad_norm": 4.5364179611206055,
      "learning_rate": 1.9646563007007952e-05,
      "logits/chosen": 0.11134719103574753,
      "logits/rejected": -0.09881246089935303,
      "logps/chosen": -491.548828125,
      "logps/rejected": -504.40496826171875,
      "loss": 0.6516,
      "rewards/accuracies": 0.640625,
      "rewards/chosen": 0.12891899049282074,
      "rewards/margins": 0.29636111855506897,
      "rewards/rejected": -0.16744214296340942,
      "step": 228
    },
    {
      "epoch": 0.2885572139303483,
      "grad_norm": 4.562107086181641,
      "learning_rate": 1.9624269568515486e-05,
      "logits/chosen": 0.33666372299194336,
      "logits/rejected": 0.3560597896575928,
      "logps/chosen": -485.7892150878906,
      "logps/rejected": -458.96600341796875,
      "loss": 0.633,
      "rewards/accuracies": 0.578125,
      "rewards/chosen": 0.3998726010322571,
      "rewards/margins": 0.21638146042823792,
      "rewards/rejected": 0.18349118530750275,
      "step": 232
    },
    {
      "epoch": 0.2935323383084577,
      "grad_norm": 6.737706661224365,
      "learning_rate": 1.960130781332748e-05,
      "logits/chosen": 0.6583088040351868,
      "logits/rejected": 0.5398542284965515,
      "logps/chosen": -500.09442138671875,
      "logps/rejected": -470.6582946777344,
      "loss": 0.6685,
      "rewards/accuracies": 0.671875,
      "rewards/chosen": 0.579067587852478,
      "rewards/margins": 0.4634256958961487,
      "rewards/rejected": 0.11564186215400696,
      "step": 236
    },
    {
      "epoch": 0.29850746268656714,
      "grad_norm": 5.656876087188721,
      "learning_rate": 1.957767933592591e-05,
      "logits/chosen": 0.40276038646698,
      "logits/rejected": 0.3526462912559509,
      "logps/chosen": -452.8072509765625,
      "logps/rejected": -455.0268249511719,
      "loss": 0.6849,
      "rewards/accuracies": 0.640625,
      "rewards/chosen": 0.6671885848045349,
      "rewards/margins": 0.457474946975708,
      "rewards/rejected": 0.20971357822418213,
      "step": 240
    },
    {
      "epoch": 0.3034825870646766,
      "grad_norm": 4.534661769866943,
      "learning_rate": 1.955338577709046e-05,
      "logits/chosen": 0.11831162869930267,
      "logits/rejected": -0.027393575757741928,
      "logps/chosen": -446.3404846191406,
      "logps/rejected": -409.2080078125,
      "loss": 0.6423,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": 0.14041246473789215,
      "rewards/margins": 0.2885099947452545,
      "rewards/rejected": -0.14809754490852356,
      "step": 244
    },
    {
      "epoch": 0.30845771144278605,
      "grad_norm": 4.870954513549805,
      "learning_rate": 1.9528428823784567e-05,
      "logits/chosen": -0.06817762553691864,
      "logits/rejected": 0.10090361535549164,
      "logps/chosen": -417.2574157714844,
      "logps/rejected": -500.5931701660156,
      "loss": 0.6719,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.2122226357460022,
      "rewards/margins": 0.06963346153497696,
      "rewards/rejected": -0.28185608983039856,
      "step": 248
    },
    {
      "epoch": 0.31094527363184077,
      "eval_logits/chosen": 0.24545568227767944,
      "eval_logits/rejected": 0.10711152106523514,
      "eval_logps/chosen": -453.1002502441406,
      "eval_logps/rejected": -414.6319580078125,
      "eval_loss": 0.6768244504928589,
      "eval_rewards/accuracies": 0.6006944179534912,
      "eval_rewards/chosen": -0.08032441139221191,
      "eval_rewards/margins": 0.20272159576416016,
      "eval_rewards/rejected": -0.2830459773540497,
      "eval_runtime": 150.4022,
      "eval_samples_per_second": 7.6,
      "eval_steps_per_second": 0.239,
      "step": 250
    },
    {
      "epoch": 0.31343283582089554,
      "grad_norm": 4.674103260040283,
      "learning_rate": 1.9502810209038302e-05,
      "logits/chosen": 0.2548333406448364,
      "logits/rejected": 0.23590323328971863,
      "logps/chosen": -441.0978698730469,
      "logps/rejected": -444.6314697265625,
      "loss": 0.6797,
      "rewards/accuracies": 0.484375,
      "rewards/chosen": -0.21375508606433868,
      "rewards/margins": 0.04151350259780884,
      "rewards/rejected": -0.25526857376098633,
      "step": 252
    },
    {
      "epoch": 0.31840796019900497,
      "grad_norm": 15.962188720703125,
      "learning_rate": 1.9476531711828027e-05,
      "logits/chosen": 0.22388213872909546,
      "logits/rejected": 0.02985329180955887,
      "logps/chosen": -527.328369140625,
      "logps/rejected": -451.01165771484375,
      "loss": 0.6971,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": 0.01938755437731743,
      "rewards/margins": 0.19766713678836823,
      "rewards/rejected": -0.17827960848808289,
      "step": 256
    },
    {
      "epoch": 0.32338308457711445,
      "grad_norm": 4.411048412322998,
      "learning_rate": 1.9449595156952827e-05,
      "logits/chosen": 0.09123142063617706,
      "logits/rejected": 0.008157305419445038,
      "logps/chosen": -464.3664245605469,
      "logps/rejected": -449.2779846191406,
      "loss": 0.6432,
      "rewards/accuracies": 0.609375,
      "rewards/chosen": 0.09136360138654709,
      "rewards/margins": 0.1354491412639618,
      "rewards/rejected": -0.044085558503866196,
      "step": 260
    },
    {
      "epoch": 0.3283582089552239,
      "grad_norm": 4.79756498336792,
      "learning_rate": 1.9422002414907837e-05,
      "logits/chosen": 0.4070839583873749,
      "logits/rejected": 0.3463619649410248,
      "logps/chosen": -413.456298828125,
      "logps/rejected": -413.7463073730469,
      "loss": 0.6395,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.4945845901966095,
      "rewards/margins": 0.20277410745620728,
      "rewards/rejected": 0.29181045293807983,
      "step": 264
    },
    {
      "epoch": 0.3333333333333333,
      "grad_norm": 4.720849990844727,
      "learning_rate": 1.9393755401754324e-05,
      "logits/chosen": 0.29830023646354675,
      "logits/rejected": 0.3905254602432251,
      "logps/chosen": -390.8925476074219,
      "logps/rejected": -460.8228759765625,
      "loss": 0.6237,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.34830933809280396,
      "rewards/margins": 0.27932432293891907,
      "rewards/rejected": 0.06898501515388489,
      "step": 268
    },
    {
      "epoch": 0.3383084577114428,
      "grad_norm": 5.378329277038574,
      "learning_rate": 1.936485607898665e-05,
      "logits/chosen": 0.07186523079872131,
      "logits/rejected": 0.15830281376838684,
      "logps/chosen": -393.9452819824219,
      "logps/rejected": -455.62957763671875,
      "loss": 0.6858,
      "rewards/accuracies": 0.515625,
      "rewards/chosen": 0.17164385318756104,
      "rewards/margins": 0.09308388829231262,
      "rewards/rejected": 0.0785599797964096,
      "step": 272
    },
    {
      "epoch": 0.34328358208955223,
      "grad_norm": 4.18524169921875,
      "learning_rate": 1.9335306453396066e-05,
      "logits/chosen": 0.056332044303417206,
      "logits/rejected": 0.07097341120243073,
      "logps/chosen": -490.37994384765625,
      "logps/rejected": -514.7352294921875,
      "loss": 0.6139,
      "rewards/accuracies": 0.671875,
      "rewards/chosen": 0.11651282012462616,
      "rewards/margins": 0.41814491152763367,
      "rewards/rejected": -0.3016320765018463,
      "step": 276
    },
    {
      "epoch": 0.3482587064676617,
      "grad_norm": 5.413318634033203,
      "learning_rate": 1.9305108576931336e-05,
      "logits/chosen": 0.01699664443731308,
      "logits/rejected": -0.03439049795269966,
      "logps/chosen": -382.8931579589844,
      "logps/rejected": -419.8720703125,
      "loss": 0.6516,
      "rewards/accuracies": 0.609375,
      "rewards/chosen": -0.3111031949520111,
      "rewards/margins": 0.21040624380111694,
      "rewards/rejected": -0.5215094089508057,
      "step": 280
    },
    {
      "epoch": 0.35323383084577115,
      "grad_norm": 5.107039928436279,
      "learning_rate": 1.927426454655627e-05,
      "logits/chosen": 0.30719754099845886,
      "logits/rejected": 0.2690942883491516,
      "logps/chosen": -494.9206237792969,
      "logps/rejected": -498.79901123046875,
      "loss": 0.6475,
      "rewards/accuracies": 0.515625,
      "rewards/chosen": -0.8447175025939941,
      "rewards/margins": 0.18089117109775543,
      "rewards/rejected": -1.0256086587905884,
      "step": 284
    },
    {
      "epoch": 0.3582089552238806,
      "grad_norm": 4.356219291687012,
      "learning_rate": 1.924277650410412e-05,
      "logits/chosen": 0.13748708367347717,
      "logits/rejected": 0.2504044473171234,
      "logps/chosen": -548.0153198242188,
      "logps/rejected": -559.4176635742188,
      "loss": 0.6994,
      "rewards/accuracies": 0.546875,
      "rewards/chosen": -0.6704975366592407,
      "rewards/margins": -0.03709391877055168,
      "rewards/rejected": -0.6334035992622375,
      "step": 288
    },
    {
      "epoch": 0.36318407960199006,
      "grad_norm": 4.30932092666626,
      "learning_rate": 1.9210646636128805e-05,
      "logits/chosen": 0.16785617172718048,
      "logits/rejected": 0.32375362515449524,
      "logps/chosen": -417.7137145996094,
      "logps/rejected": -482.4889221191406,
      "loss": 0.6539,
      "rewards/accuracies": 0.546875,
      "rewards/chosen": -0.3137147128582001,
      "rewards/margins": 0.08970025926828384,
      "rewards/rejected": -0.4034149646759033,
      "step": 292
    },
    {
      "epoch": 0.3681592039800995,
      "grad_norm": 4.273219108581543,
      "learning_rate": 1.9177877173753127e-05,
      "logits/chosen": 0.1516554057598114,
      "logits/rejected": 0.0621149055659771,
      "logps/chosen": -439.8550109863281,
      "logps/rejected": -445.9311218261719,
      "loss": 0.6221,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.12972819805145264,
      "rewards/margins": 0.31710904836654663,
      "rewards/rejected": -0.44683724641799927,
      "step": 296
    },
    {
      "epoch": 0.373134328358209,
      "grad_norm": 4.085379123687744,
      "learning_rate": 1.91444703925138e-05,
      "logits/chosen": 0.2226869910955429,
      "logits/rejected": 0.2288302779197693,
      "logps/chosen": -402.9095458984375,
      "logps/rejected": -436.23846435546875,
      "loss": 0.642,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": 0.1526205837726593,
      "rewards/margins": 0.27878373861312866,
      "rewards/rejected": -0.12616315484046936,
      "step": 300
    },
    {
      "epoch": 0.373134328358209,
      "eval_logits/chosen": 0.2271442711353302,
      "eval_logits/rejected": 0.08639353513717651,
      "eval_logps/chosen": -448.8922119140625,
      "eval_logps/rejected": -411.57562255859375,
      "eval_loss": 0.6402102112770081,
      "eval_rewards/accuracies": 0.6145833134651184,
      "eval_rewards/chosen": 0.3404841423034668,
      "eval_rewards/margins": 0.31789708137512207,
      "eval_rewards/rejected": 0.022587047889828682,
      "eval_runtime": 149.8006,
      "eval_samples_per_second": 7.63,
      "eval_steps_per_second": 0.24,
      "step": 300
    },
    {
      "epoch": 0.3781094527363184,
      "grad_norm": 4.7133870124816895,
      "learning_rate": 1.9110428612203463e-05,
      "logits/chosen": 0.28455495834350586,
      "logits/rejected": 0.3236948847770691,
      "logps/chosen": -557.7841186523438,
      "logps/rejected": -595.4920654296875,
      "loss": 0.6539,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": 0.502812922000885,
      "rewards/margins": 0.31084102392196655,
      "rewards/rejected": 0.19197186827659607,
      "step": 304
    },
    {
      "epoch": 0.38308457711442784,
      "grad_norm": 4.747364521026611,
      "learning_rate": 1.9075754196709574e-05,
      "logits/chosen": 0.3259233832359314,
      "logits/rejected": 0.2481708824634552,
      "logps/chosen": -431.3799133300781,
      "logps/rejected": -437.3810729980469,
      "loss": 0.6545,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.463757187128067,
      "rewards/margins": 0.22637638449668884,
      "rewards/rejected": 0.23738083243370056,
      "step": 308
    },
    {
      "epoch": 0.3880597014925373,
      "grad_norm": 4.707996368408203,
      "learning_rate": 1.904044955385026e-05,
      "logits/chosen": 0.2886297404766083,
      "logits/rejected": 0.035777147859334946,
      "logps/chosen": -497.3841857910156,
      "logps/rejected": -406.03729248046875,
      "loss": 0.6223,
      "rewards/accuracies": 0.75,
      "rewards/chosen": 0.6689484119415283,
      "rewards/margins": 0.5415085554122925,
      "rewards/rejected": 0.12743981182575226,
      "step": 312
    },
    {
      "epoch": 0.39303482587064675,
      "grad_norm": 4.470433235168457,
      "learning_rate": 1.9004517135207127e-05,
      "logits/chosen": 0.22225256264209747,
      "logits/rejected": 0.2989833652973175,
      "logps/chosen": -394.5459289550781,
      "logps/rejected": -429.8094177246094,
      "loss": 0.6654,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": 0.2795145511627197,
      "rewards/margins": 0.16655004024505615,
      "rewards/rejected": 0.11296449601650238,
      "step": 316
    },
    {
      "epoch": 0.39800995024875624,
      "grad_norm": 4.836558818817139,
      "learning_rate": 1.8967959435955027e-05,
      "logits/chosen": 0.37761908769607544,
      "logits/rejected": 0.26500552892684937,
      "logps/chosen": -482.1424560546875,
      "logps/rejected": -428.25,
      "loss": 0.6482,
      "rewards/accuracies": 0.453125,
      "rewards/chosen": -0.08129014819860458,
      "rewards/margins": 0.13191911578178406,
      "rewards/rejected": -0.21320928633213043,
      "step": 320
    },
    {
      "epoch": 0.40298507462686567,
      "grad_norm": 5.268253326416016,
      "learning_rate": 1.893077899468876e-05,
      "logits/chosen": 0.2713007926940918,
      "logits/rejected": 0.04821309447288513,
      "logps/chosen": -563.9439697265625,
      "logps/rejected": -503.7855529785156,
      "loss": 0.6486,
      "rewards/accuracies": 0.703125,
      "rewards/chosen": -0.37922781705856323,
      "rewards/margins": 0.29474934935569763,
      "rewards/rejected": -0.6739771366119385,
      "step": 324
    },
    {
      "epoch": 0.4079601990049751,
      "grad_norm": 4.993300437927246,
      "learning_rate": 1.889297839324682e-05,
      "logits/chosen": 0.34269845485687256,
      "logits/rejected": 0.27501022815704346,
      "logps/chosen": -438.5770568847656,
      "logps/rejected": -437.1994934082031,
      "loss": 0.6593,
      "rewards/accuracies": 0.515625,
      "rewards/chosen": -0.48632100224494934,
      "rewards/margins": 0.22347672283649445,
      "rewards/rejected": -0.709797739982605,
      "step": 328
    },
    {
      "epoch": 0.4129353233830846,
      "grad_norm": 4.8070149421691895,
      "learning_rate": 1.8854560256532098e-05,
      "logits/chosen": 0.04936538636684418,
      "logits/rejected": -0.0027198120951652527,
      "logps/chosen": -438.79168701171875,
      "logps/rejected": -428.35308837890625,
      "loss": 0.6556,
      "rewards/accuracies": 0.609375,
      "rewards/chosen": -0.2654213309288025,
      "rewards/margins": 0.41919708251953125,
      "rewards/rejected": -0.6846184134483337,
      "step": 332
    },
    {
      "epoch": 0.417910447761194,
      "grad_norm": 4.997420787811279,
      "learning_rate": 1.8815527252329624e-05,
      "logits/chosen": 0.2193477749824524,
      "logits/rejected": 0.03042268194258213,
      "logps/chosen": -468.4323425292969,
      "logps/rejected": -426.1119384765625,
      "loss": 0.6168,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.03436838462948799,
      "rewards/margins": 0.521725058555603,
      "rewards/rejected": -0.5560933351516724,
      "step": 336
    },
    {
      "epoch": 0.4228855721393035,
      "grad_norm": 4.165882110595703,
      "learning_rate": 1.8775882091121282e-05,
      "logits/chosen": 0.5012113451957703,
      "logits/rejected": 0.35550257563591003,
      "logps/chosen": -505.60626220703125,
      "logps/rejected": -438.73095703125,
      "loss": 0.6309,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.1919064074754715,
      "rewards/margins": 0.44131097197532654,
      "rewards/rejected": -0.24940457940101624,
      "step": 340
    },
    {
      "epoch": 0.42786069651741293,
      "grad_norm": 4.5491251945495605,
      "learning_rate": 1.8735627525897618e-05,
      "logits/chosen": 0.3401688039302826,
      "logits/rejected": 0.10173173248767853,
      "logps/chosen": -449.0252990722656,
      "logps/rejected": -379.44598388671875,
      "loss": 0.6475,
      "rewards/accuracies": 0.671875,
      "rewards/chosen": 0.304412841796875,
      "rewards/margins": 0.298681378364563,
      "rewards/rejected": 0.005731441080570221,
      "step": 344
    },
    {
      "epoch": 0.43283582089552236,
      "grad_norm": 4.290804862976074,
      "learning_rate": 1.8694766351966665e-05,
      "logits/chosen": 0.20657242834568024,
      "logits/rejected": 0.16187314689159393,
      "logps/chosen": -430.30169677734375,
      "logps/rejected": -508.4122314453125,
      "loss": 0.6675,
      "rewards/accuracies": 0.765625,
      "rewards/chosen": 0.5791266560554504,
      "rewards/margins": 0.42658331990242004,
      "rewards/rejected": 0.152543306350708,
      "step": 348
    },
    {
      "epoch": 0.43532338308457713,
      "eval_logits/chosen": 0.27793338894844055,
      "eval_logits/rejected": 0.1382322907447815,
      "eval_logps/chosen": -444.71087646484375,
      "eval_logps/rejected": -407.1244201660156,
      "eval_loss": 0.6471754908561707,
      "eval_rewards/accuracies": 0.6006944179534912,
      "eval_rewards/chosen": 0.7586135864257812,
      "eval_rewards/margins": 0.29090631008148193,
      "eval_rewards/rejected": 0.4677073061466217,
      "eval_runtime": 150.2506,
      "eval_samples_per_second": 7.607,
      "eval_steps_per_second": 0.24,
      "step": 350
    },
    {
      "epoch": 0.43781094527363185,
      "grad_norm": 4.04841947555542,
      "learning_rate": 1.8653301406759827e-05,
      "logits/chosen": 0.26602596044540405,
      "logits/rejected": 0.26264214515686035,
      "logps/chosen": -414.1706848144531,
      "logps/rejected": -394.3015441894531,
      "loss": 0.7136,
      "rewards/accuracies": 0.4375,
      "rewards/chosen": 0.5916293263435364,
      "rewards/margins": -0.07215756177902222,
      "rewards/rejected": 0.6637868881225586,
      "step": 352
    },
    {
      "epoch": 0.4427860696517413,
      "grad_norm": 4.154921054840088,
      "learning_rate": 1.8611235569634852e-05,
      "logits/chosen": 0.47313758730888367,
      "logits/rejected": 0.21173089742660522,
      "logps/chosen": -429.60491943359375,
      "logps/rejected": -392.5804138183594,
      "loss": 0.6954,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": 0.679366946220398,
      "rewards/margins": 0.12296590954065323,
      "rewards/rejected": 0.5564010739326477,
      "step": 356
    },
    {
      "epoch": 0.44776119402985076,
      "grad_norm": 3.9639251232147217,
      "learning_rate": 1.8568571761675893e-05,
      "logits/chosen": 0.4981469213962555,
      "logits/rejected": 0.49814143776893616,
      "logps/chosen": -423.76898193359375,
      "logps/rejected": -453.06573486328125,
      "loss": 0.6729,
      "rewards/accuracies": 0.515625,
      "rewards/chosen": 0.6893520355224609,
      "rewards/margins": 0.2094535529613495,
      "rewards/rejected": 0.47989848256111145,
      "step": 360
    },
    {
      "epoch": 0.4527363184079602,
      "grad_norm": 4.174687385559082,
      "learning_rate": 1.8525312945490647e-05,
      "logits/chosen": 0.1745152622461319,
      "logits/rejected": 0.22328950464725494,
      "logps/chosen": -420.2294616699219,
      "logps/rejected": -452.5687255859375,
      "loss": 0.6294,
      "rewards/accuracies": 0.734375,
      "rewards/chosen": 0.4526810348033905,
      "rewards/margins": 0.409667432308197,
      "rewards/rejected": 0.043013621121644974,
      "step": 364
    },
    {
      "epoch": 0.4577114427860697,
      "grad_norm": 5.690698146820068,
      "learning_rate": 1.8481462125004647e-05,
      "logits/chosen": 0.3042501211166382,
      "logits/rejected": 0.19751590490341187,
      "logps/chosen": -480.2320556640625,
      "logps/rejected": -409.99993896484375,
      "loss": 0.6514,
      "rewards/accuracies": 0.453125,
      "rewards/chosen": -0.034170668572187424,
      "rewards/margins": 0.10836675763130188,
      "rewards/rejected": -0.1425374299287796,
      "step": 368
    },
    {
      "epoch": 0.4626865671641791,
      "grad_norm": 3.7740769386291504,
      "learning_rate": 1.8437022345252666e-05,
      "logits/chosen": 0.410859614610672,
      "logits/rejected": 0.2786995470523834,
      "logps/chosen": -536.8661499023438,
      "logps/rejected": -485.7401123046875,
      "loss": 0.6416,
      "rewards/accuracies": 0.625,
      "rewards/chosen": 0.021265551447868347,
      "rewards/margins": 0.20183995366096497,
      "rewards/rejected": -0.1805744171142578,
      "step": 372
    },
    {
      "epoch": 0.46766169154228854,
      "grad_norm": 4.466541290283203,
      "learning_rate": 1.8391996692167242e-05,
      "logits/chosen": 0.36077880859375,
      "logits/rejected": 0.02420664392411709,
      "logps/chosen": -574.6773071289062,
      "logps/rejected": -416.6241455078125,
      "loss": 0.7154,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.05402504652738571,
      "rewards/margins": 0.175716370344162,
      "rewards/rejected": -0.2297414094209671,
      "step": 376
    },
    {
      "epoch": 0.472636815920398,
      "grad_norm": 4.715292930603027,
      "learning_rate": 1.8346388292364438e-05,
      "logits/chosen": 0.5576101541519165,
      "logits/rejected": 0.2390051931142807,
      "logps/chosen": -482.841796875,
      "logps/rejected": -415.119384765625,
      "loss": 0.6533,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.0752110630273819,
      "rewards/margins": 0.1834164559841156,
      "rewards/rejected": -0.2586275339126587,
      "step": 380
    },
    {
      "epoch": 0.47761194029850745,
      "grad_norm": 4.4041523933410645,
      "learning_rate": 1.8300200312926674e-05,
      "logits/chosen": 0.4594465494155884,
      "logits/rejected": 0.21978969871997833,
      "logps/chosen": -478.629638671875,
      "logps/rejected": -375.6353454589844,
      "loss": 0.6265,
      "rewards/accuracies": 0.578125,
      "rewards/chosen": -0.09999266266822815,
      "rewards/margins": 0.25770846009254456,
      "rewards/rejected": -0.3577011227607727,
      "step": 384
    },
    {
      "epoch": 0.48258706467661694,
      "grad_norm": 4.524245738983154,
      "learning_rate": 1.8253435961182844e-05,
      "logits/chosen": 0.011010982096195221,
      "logits/rejected": -0.07573414593935013,
      "logps/chosen": -508.1129455566406,
      "logps/rejected": -466.13006591796875,
      "loss": 0.6485,
      "rewards/accuracies": 0.640625,
      "rewards/chosen": 0.21897917985916138,
      "rewards/margins": 0.22618308663368225,
      "rewards/rejected": -0.007203895598649979,
      "step": 388
    },
    {
      "epoch": 0.48756218905472637,
      "grad_norm": 3.8508663177490234,
      "learning_rate": 1.8206098484485563e-05,
      "logits/chosen": 0.17437395453453064,
      "logits/rejected": 0.12683795392513275,
      "logps/chosen": -448.64056396484375,
      "logps/rejected": -439.05767822265625,
      "loss": 0.6487,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": 0.2330358326435089,
      "rewards/margins": 0.20018717646598816,
      "rewards/rejected": 0.03284864127635956,
      "step": 392
    },
    {
      "epoch": 0.4925373134328358,
      "grad_norm": 4.620991230010986,
      "learning_rate": 1.8158191169985696e-05,
      "logits/chosen": 0.18229001760482788,
      "logits/rejected": 0.053403086960315704,
      "logps/chosen": -529.84814453125,
      "logps/rejected": -488.3792724609375,
      "loss": 0.6234,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": 0.21858179569244385,
      "rewards/margins": 0.3658568859100342,
      "rewards/rejected": -0.14727509021759033,
      "step": 396
    },
    {
      "epoch": 0.4975124378109453,
      "grad_norm": 4.5922722816467285,
      "learning_rate": 1.810971734440408e-05,
      "logits/chosen": 0.30341237783432007,
      "logits/rejected": 0.07493434846401215,
      "logps/chosen": -452.9410705566406,
      "logps/rejected": -400.3564453125,
      "loss": 0.6581,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": 0.029513243585824966,
      "rewards/margins": 0.16814345121383667,
      "rewards/rejected": -0.1386302411556244,
      "step": 400
    },
    {
      "epoch": 0.4975124378109453,
      "eval_logits/chosen": 0.17696020007133484,
      "eval_logits/rejected": 0.03260684758424759,
      "eval_logps/chosen": -452.606689453125,
      "eval_logps/rejected": -414.8606872558594,
      "eval_loss": 0.6501542925834656,
      "eval_rewards/accuracies": 0.6180555820465088,
      "eval_rewards/chosen": -0.030969224870204926,
      "eval_rewards/margins": 0.27494877576828003,
      "eval_rewards/rejected": -0.3059180676937103,
      "eval_runtime": 150.3142,
      "eval_samples_per_second": 7.604,
      "eval_steps_per_second": 0.239,
      "step": 400
    },
    {
      "epoch": 0.5024875621890548,
      "grad_norm": 3.963479518890381,
      "learning_rate": 1.806068037380052e-05,
      "logits/chosen": 0.27582094073295593,
      "logits/rejected": 0.19119888544082642,
      "logps/chosen": -423.74456787109375,
      "logps/rejected": -438.787841796875,
      "loss": 0.6637,
      "rewards/accuracies": 0.546875,
      "rewards/chosen": -0.0536828339099884,
      "rewards/margins": 0.13508188724517822,
      "rewards/rejected": -0.18876472115516663,
      "step": 404
    },
    {
      "epoch": 0.5074626865671642,
      "grad_norm": 4.1663713455200195,
      "learning_rate": 1.801108366334004e-05,
      "logits/chosen": 0.17915582656860352,
      "logits/rejected": 0.18883880972862244,
      "logps/chosen": -480.3377380371094,
      "logps/rejected": -529.461669921875,
      "loss": 0.6489,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.4978042244911194,
      "rewards/margins": 0.31464439630508423,
      "rewards/rejected": -0.8124486207962036,
      "step": 408
    },
    {
      "epoch": 0.5124378109452736,
      "grad_norm": 3.5810389518737793,
      "learning_rate": 1.796093065705644e-05,
      "logits/chosen": 0.3043825030326843,
      "logits/rejected": 0.20817437767982483,
      "logps/chosen": -431.47955322265625,
      "logps/rejected": -417.6255798339844,
      "loss": 0.6157,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.6938939690589905,
      "rewards/margins": 0.24841205775737762,
      "rewards/rejected": -0.9423060417175293,
      "step": 412
    },
    {
      "epoch": 0.5174129353233831,
      "grad_norm": 4.341555118560791,
      "learning_rate": 1.791022483761312e-05,
      "logits/chosen": 0.2805790603160858,
      "logits/rejected": 0.07360462844371796,
      "logps/chosen": -518.8629760742188,
      "logps/rejected": -453.9353332519531,
      "loss": 0.6335,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -0.8408029079437256,
      "rewards/margins": 0.42247286438941956,
      "rewards/rejected": -1.2632758617401123,
      "step": 416
    },
    {
      "epoch": 0.5223880597014925,
      "grad_norm": 4.9308390617370605,
      "learning_rate": 1.7858969726061262e-05,
      "logits/chosen": 0.061581894755363464,
      "logits/rejected": 0.14411726593971252,
      "logps/chosen": -428.17498779296875,
      "logps/rejected": -457.570068359375,
      "loss": 0.6959,
      "rewards/accuracies": 0.546875,
      "rewards/chosen": -1.0671128034591675,
      "rewards/margins": 0.08442307263612747,
      "rewards/rejected": -1.151535987854004,
      "step": 420
    },
    {
      "epoch": 0.527363184079602,
      "grad_norm": 4.160035133361816,
      "learning_rate": 1.7807168881595304e-05,
      "logits/chosen": -0.10161225497722626,
      "logits/rejected": -0.09652488678693771,
      "logps/chosen": -465.89825439453125,
      "logps/rejected": -476.0804138183594,
      "loss": 0.6391,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.8282710313796997,
      "rewards/margins": 0.3242005407810211,
      "rewards/rejected": -1.152471661567688,
      "step": 424
    },
    {
      "epoch": 0.5323383084577115,
      "grad_norm": 4.315358638763428,
      "learning_rate": 1.7754825901305814e-05,
      "logits/chosen": 0.30026042461395264,
      "logits/rejected": 0.15877141058444977,
      "logps/chosen": -469.1257019042969,
      "logps/rejected": -489.8163757324219,
      "loss": 0.6313,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -0.5448905825614929,
      "rewards/margins": 0.34440505504608154,
      "rewards/rejected": -0.8892955780029297,
      "step": 428
    },
    {
      "epoch": 0.5373134328358209,
      "grad_norm": 4.043447017669678,
      "learning_rate": 1.7701944419929673e-05,
      "logits/chosen": 0.3924216628074646,
      "logits/rejected": 0.34802040457725525,
      "logps/chosen": -483.4385070800781,
      "logps/rejected": -494.6759033203125,
      "loss": 0.6521,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -0.4959757328033447,
      "rewards/margins": 0.3944730758666992,
      "rewards/rejected": -0.890448808670044,
      "step": 432
    },
    {
      "epoch": 0.5422885572139303,
      "grad_norm": 4.426882266998291,
      "learning_rate": 1.7648528109597704e-05,
      "logits/chosen": 0.42673125863075256,
      "logits/rejected": 0.25516799092292786,
      "logps/chosen": -504.686279296875,
      "logps/rejected": -443.46954345703125,
      "loss": 0.614,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.49745240807533264,
      "rewards/margins": 0.42378664016723633,
      "rewards/rejected": -0.9212391376495361,
      "step": 436
    },
    {
      "epoch": 0.5472636815920398,
      "grad_norm": 4.089346885681152,
      "learning_rate": 1.7594580679579654e-05,
      "logits/chosen": 0.09302594512701035,
      "logits/rejected": 0.11728382110595703,
      "logps/chosen": -459.3074951171875,
      "logps/rejected": -414.81268310546875,
      "loss": 0.6545,
      "rewards/accuracies": 0.640625,
      "rewards/chosen": -0.38374608755111694,
      "rewards/margins": 0.3443138897418976,
      "rewards/rejected": -0.7280599474906921,
      "step": 440
    },
    {
      "epoch": 0.5522388059701493,
      "grad_norm": 3.8262646198272705,
      "learning_rate": 1.7540105876026647e-05,
      "logits/chosen": 0.20306290686130524,
      "logits/rejected": 0.07559295743703842,
      "logps/chosen": -558.5977172851562,
      "logps/rejected": -493.43841552734375,
      "loss": 0.6138,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": 0.0867682546377182,
      "rewards/margins": 0.407266229391098,
      "rewards/rejected": -0.32049790024757385,
      "step": 444
    },
    {
      "epoch": 0.5572139303482587,
      "grad_norm": 4.2944440841674805,
      "learning_rate": 1.7485107481711014e-05,
      "logits/chosen": 0.20840412378311157,
      "logits/rejected": 0.08403539657592773,
      "logps/chosen": -517.5396728515625,
      "logps/rejected": -472.1680908203125,
      "loss": 0.6155,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.10591678321361542,
      "rewards/margins": 0.29278436303138733,
      "rewards/rejected": -0.18686755001544952,
      "step": 448
    },
    {
      "epoch": 0.5597014925373134,
      "eval_logits/chosen": 0.24904420971870422,
      "eval_logits/rejected": 0.11017153412103653,
      "eval_logps/chosen": -452.0428161621094,
      "eval_logps/rejected": -414.6964111328125,
      "eval_loss": 0.6415970921516418,
      "eval_rewards/accuracies": 0.625,
      "eval_rewards/chosen": 0.025422947481274605,
      "eval_rewards/margins": 0.3149137794971466,
      "eval_rewards/rejected": -0.28949081897735596,
      "eval_runtime": 150.2184,
      "eval_samples_per_second": 7.609,
      "eval_steps_per_second": 0.24,
      "step": 450
    },
    {
      "epoch": 0.5621890547263682,
      "grad_norm": 4.054657936096191,
      "learning_rate": 1.7429589315763637e-05,
      "logits/chosen": 0.2601884603500366,
      "logits/rejected": 0.022673480212688446,
      "logps/chosen": -499.178466796875,
      "logps/rejected": -424.4082946777344,
      "loss": 0.6285,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": 0.014242544770240784,
      "rewards/margins": 0.29500868916511536,
      "rewards/rejected": -0.28076615929603577,
      "step": 452
    },
    {
      "epoch": 0.5671641791044776,
      "grad_norm": 4.114813804626465,
      "learning_rate": 1.737355523340875e-05,
      "logits/chosen": 0.2519476115703583,
      "logits/rejected": 0.17674781382083893,
      "logps/chosen": -425.04718017578125,
      "logps/rejected": -395.718505859375,
      "loss": 0.604,
      "rewards/accuracies": 0.578125,
      "rewards/chosen": 0.1875460147857666,
      "rewards/margins": 0.26022982597351074,
      "rewards/rejected": -0.07268380373716354,
      "step": 456
    },
    {
      "epoch": 0.572139303482587,
      "grad_norm": 4.393073558807373,
      "learning_rate": 1.7317009125696208e-05,
      "logits/chosen": 0.3865906298160553,
      "logits/rejected": 0.1851556897163391,
      "logps/chosen": -487.2419738769531,
      "logps/rejected": -482.6796875,
      "loss": 0.6472,
      "rewards/accuracies": 0.734375,
      "rewards/chosen": 0.4721629023551941,
      "rewards/margins": 0.6545584797859192,
      "rewards/rejected": -0.18239565193653107,
      "step": 460
    },
    {
      "epoch": 0.5771144278606966,
      "grad_norm": 4.722254276275635,
      "learning_rate": 1.725995491923131e-05,
      "logits/chosen": 0.019634254276752472,
      "logits/rejected": -0.1314508616924286,
      "logps/chosen": -511.8298645019531,
      "logps/rejected": -418.1177062988281,
      "loss": 0.649,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.29104384779930115,
      "rewards/margins": 0.20025068521499634,
      "rewards/rejected": -0.4912944734096527,
      "step": 464
    },
    {
      "epoch": 0.582089552238806,
      "grad_norm": 3.6944985389709473,
      "learning_rate": 1.7202396575902118e-05,
      "logits/chosen": 0.3104863464832306,
      "logits/rejected": 0.17023295164108276,
      "logps/chosen": -443.22528076171875,
      "logps/rejected": -439.04559326171875,
      "loss": 0.6272,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.12756507098674774,
      "rewards/margins": 0.5996299386024475,
      "rewards/rejected": -0.7271949648857117,
      "step": 468
    },
    {
      "epoch": 0.5870646766169154,
      "grad_norm": 4.278947353363037,
      "learning_rate": 1.714433809260435e-05,
      "logits/chosen": 0.2733452320098877,
      "logits/rejected": 0.1945551484823227,
      "logps/chosen": -472.4483642578125,
      "logps/rejected": -459.3942565917969,
      "loss": 0.6713,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.2876668870449066,
      "rewards/margins": 0.2343754768371582,
      "rewards/rejected": -0.5220423340797424,
      "step": 472
    },
    {
      "epoch": 0.5920398009950248,
      "grad_norm": 5.243388652801514,
      "learning_rate": 1.7085783500963825e-05,
      "logits/chosen": 0.26794660091400146,
      "logits/rejected": 0.19214050471782684,
      "logps/chosen": -464.2667541503906,
      "logps/rejected": -466.7138977050781,
      "loss": 0.6101,
      "rewards/accuracies": 0.671875,
      "rewards/chosen": -0.38191846013069153,
      "rewards/margins": 0.3241249918937683,
      "rewards/rejected": -0.7060434818267822,
      "step": 476
    },
    {
      "epoch": 0.5970149253731343,
      "grad_norm": 3.732940435409546,
      "learning_rate": 1.702673686705651e-05,
      "logits/chosen": 0.4054350256919861,
      "logits/rejected": 0.4670087993144989,
      "logps/chosen": -428.61163330078125,
      "logps/rejected": -499.5010681152344,
      "loss": 0.6277,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.007774517871439457,
      "rewards/margins": 0.18405042588710785,
      "rewards/rejected": -0.19182495772838593,
      "step": 480
    },
    {
      "epoch": 0.6019900497512438,
      "grad_norm": 3.6961166858673096,
      "learning_rate": 1.6967202291126174e-05,
      "logits/chosen": 0.25117918848991394,
      "logits/rejected": 0.1439165323972702,
      "logps/chosen": -419.8067321777344,
      "logps/rejected": -385.7373352050781,
      "loss": 0.6272,
      "rewards/accuracies": 0.671875,
      "rewards/chosen": 0.3202853500843048,
      "rewards/margins": 0.39529967308044434,
      "rewards/rejected": -0.07501433044672012,
      "step": 484
    },
    {
      "epoch": 0.6069651741293532,
      "grad_norm": 3.861052989959717,
      "learning_rate": 1.690718390729964e-05,
      "logits/chosen": 0.6219749450683594,
      "logits/rejected": 0.3956920802593231,
      "logps/chosen": -487.5699768066406,
      "logps/rejected": -440.1090087890625,
      "loss": 0.596,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 0.43934863805770874,
      "rewards/margins": 0.5191280245780945,
      "rewards/rejected": -0.07977931201457977,
      "step": 488
    },
    {
      "epoch": 0.6119402985074627,
      "grad_norm": 3.7701494693756104,
      "learning_rate": 1.684668588329973e-05,
      "logits/chosen": 0.23229114711284637,
      "logits/rejected": 0.18851926922798157,
      "logps/chosen": -467.3754577636719,
      "logps/rejected": -452.4528503417969,
      "loss": 0.6017,
      "rewards/accuracies": 0.734375,
      "rewards/chosen": 0.5834671854972839,
      "rewards/margins": 0.5684060454368591,
      "rewards/rejected": 0.015061168000102043,
      "step": 492
    },
    {
      "epoch": 0.6169154228855721,
      "grad_norm": 4.047066688537598,
      "learning_rate": 1.6785712420155864e-05,
      "logits/chosen": 0.35120919346809387,
      "logits/rejected": 0.15895111858844757,
      "logps/chosen": -609.0511474609375,
      "logps/rejected": -520.7322998046875,
      "loss": 0.6535,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": 0.3787741959095001,
      "rewards/margins": 0.24649052321910858,
      "rewards/rejected": 0.13228368759155273,
      "step": 496
    },
    {
      "epoch": 0.6218905472636815,
      "grad_norm": 4.4764604568481445,
      "learning_rate": 1.67242677519123e-05,
      "logits/chosen": 0.6815188527107239,
      "logits/rejected": 0.49643221497535706,
      "logps/chosen": -530.8171997070312,
      "logps/rejected": -430.7647399902344,
      "loss": 0.6438,
      "rewards/accuracies": 0.609375,
      "rewards/chosen": -0.17197714745998383,
      "rewards/margins": 0.11586709320545197,
      "rewards/rejected": -0.2878442406654358,
      "step": 500
    },
    {
      "epoch": 0.6218905472636815,
      "eval_logits/chosen": 0.21956767141819,
      "eval_logits/rejected": 0.07988239079713821,
      "eval_logps/chosen": -455.1015319824219,
      "eval_logps/rejected": -417.8031005859375,
      "eval_loss": 0.638308048248291,
      "eval_rewards/accuracies": 0.625,
      "eval_rewards/chosen": -0.2804534435272217,
      "eval_rewards/margins": 0.31970784068107605,
      "eval_rewards/rejected": -0.6001612544059753,
      "eval_runtime": 150.1876,
      "eval_samples_per_second": 7.61,
      "eval_steps_per_second": 0.24,
      "step": 500
    },
    {
      "epoch": 0.6268656716417911,
      "grad_norm": 4.097576141357422,
      "learning_rate": 1.6662356145334158e-05,
      "logits/chosen": 0.17615841329097748,
      "logits/rejected": 0.03691507875919342,
      "logps/chosen": -502.0008544921875,
      "logps/rejected": -458.7081604003906,
      "loss": 0.5963,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -0.2368411123752594,
      "rewards/margins": 0.48721814155578613,
      "rewards/rejected": -0.7240592241287231,
      "step": 504
    },
    {
      "epoch": 0.6318407960199005,
      "grad_norm": 4.976437091827393,
      "learning_rate": 1.6599981899611103e-05,
      "logits/chosen": 0.12691722810268402,
      "logits/rejected": 0.1578553318977356,
      "logps/chosen": -495.80755615234375,
      "logps/rejected": -519.9158935546875,
      "loss": 0.6323,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.2605741322040558,
      "rewards/margins": 0.3820592761039734,
      "rewards/rejected": -0.6426333785057068,
      "step": 508
    },
    {
      "epoch": 0.6368159203980099,
      "grad_norm": 4.70882511138916,
      "learning_rate": 1.653714934605883e-05,
      "logits/chosen": 0.09863700717687607,
      "logits/rejected": -0.042115092277526855,
      "logps/chosen": -526.08251953125,
      "logps/rejected": -482.67034912109375,
      "loss": 0.6142,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -0.35250020027160645,
      "rewards/margins": 0.47799065709114075,
      "rewards/rejected": -0.8304908275604248,
      "step": 512
    },
    {
      "epoch": 0.6417910447761194,
      "grad_norm": 4.004364967346191,
      "learning_rate": 1.647386284781828e-05,
      "logits/chosen": 0.4434223175048828,
      "logits/rejected": 0.3743742108345032,
      "logps/chosen": -461.95660400390625,
      "logps/rejected": -461.05523681640625,
      "loss": 0.6287,
      "rewards/accuracies": 0.609375,
      "rewards/chosen": -0.1911483108997345,
      "rewards/margins": 0.49052226543426514,
      "rewards/rejected": -0.681670606136322,
      "step": 516
    },
    {
      "epoch": 0.6467661691542289,
      "grad_norm": 4.580120086669922,
      "learning_rate": 1.6410126799552653e-05,
      "logits/chosen": 0.04173935577273369,
      "logits/rejected": 0.12166699767112732,
      "logps/chosen": -442.1742858886719,
      "logps/rejected": -484.1488342285156,
      "loss": 0.6941,
      "rewards/accuracies": 0.484375,
      "rewards/chosen": -0.40055373311042786,
      "rewards/margins": 0.04041279852390289,
      "rewards/rejected": -0.44096654653549194,
      "step": 520
    },
    {
      "epoch": 0.6517412935323383,
      "grad_norm": 4.086886882781982,
      "learning_rate": 1.6345945627142264e-05,
      "logits/chosen": 0.27961117029190063,
      "logits/rejected": 0.2143298089504242,
      "logps/chosen": -431.29827880859375,
      "logps/rejected": -459.7369384765625,
      "loss": 0.662,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.11182767897844315,
      "rewards/margins": 0.17104047536849976,
      "rewards/rejected": -0.2828681766986847,
      "step": 524
    },
    {
      "epoch": 0.6567164179104478,
      "grad_norm": 12.731650352478027,
      "learning_rate": 1.628132378737718e-05,
      "logits/chosen": 0.4169122278690338,
      "logits/rejected": 0.07197268307209015,
      "logps/chosen": -529.1094970703125,
      "logps/rejected": -411.6646423339844,
      "loss": 0.614,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.21321269869804382,
      "rewards/margins": 0.4294634461402893,
      "rewards/rejected": -0.6426761150360107,
      "step": 528
    },
    {
      "epoch": 0.6616915422885572,
      "grad_norm": 3.989084005355835,
      "learning_rate": 1.6216265767647756e-05,
      "logits/chosen": 0.30040451884269714,
      "logits/rejected": 0.2668513357639313,
      "logps/chosen": -517.35009765625,
      "logps/rejected": -487.19268798828125,
      "loss": 0.64,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -0.3091263175010681,
      "rewards/margins": 0.4227018654346466,
      "rewards/rejected": -0.7318282127380371,
      "step": 532
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 4.201297760009766,
      "learning_rate": 1.615077608563302e-05,
      "logits/chosen": 0.41413354873657227,
      "logits/rejected": 0.10457613319158554,
      "logps/chosen": -612.5179443359375,
      "logps/rejected": -496.9129333496094,
      "loss": 0.6,
      "rewards/accuracies": 0.671875,
      "rewards/chosen": -0.36306214332580566,
      "rewards/margins": 0.50215744972229,
      "rewards/rejected": -0.8652196526527405,
      "step": 536
    },
    {
      "epoch": 0.6716417910447762,
      "grad_norm": 4.379523277282715,
      "learning_rate": 1.6084859288986957e-05,
      "logits/chosen": 0.19828909635543823,
      "logits/rejected": 0.02061871998012066,
      "logps/chosen": -455.3958435058594,
      "logps/rejected": -407.6889953613281,
      "loss": 0.6598,
      "rewards/accuracies": 0.609375,
      "rewards/chosen": -0.3266015648841858,
      "rewards/margins": 0.33076098561286926,
      "rewards/rejected": -0.6573625206947327,
      "step": 540
    },
    {
      "epoch": 0.6766169154228856,
      "grad_norm": 3.583308696746826,
      "learning_rate": 1.601851995502272e-05,
      "logits/chosen": 0.5686550736427307,
      "logits/rejected": 0.585844874382019,
      "logps/chosen": -415.34234619140625,
      "logps/rejected": -441.9537048339844,
      "loss": 0.5988,
      "rewards/accuracies": 0.609375,
      "rewards/chosen": -0.4486159682273865,
      "rewards/margins": 0.2918972969055176,
      "rewards/rejected": -0.740513265132904,
      "step": 544
    },
    {
      "epoch": 0.681592039800995,
      "grad_norm": 4.024960517883301,
      "learning_rate": 1.5951762690394788e-05,
      "logits/chosen": 0.30994874238967896,
      "logits/rejected": 0.0973886027932167,
      "logps/chosen": -457.6329345703125,
      "logps/rejected": -444.02935791015625,
      "loss": 0.6069,
      "rewards/accuracies": 0.734375,
      "rewards/chosen": -0.29979974031448364,
      "rewards/margins": 0.32890307903289795,
      "rewards/rejected": -0.6287028789520264,
      "step": 548
    },
    {
      "epoch": 0.6840796019900498,
      "eval_logits/chosen": 0.2462157905101776,
      "eval_logits/rejected": 0.10789595544338226,
      "eval_logps/chosen": -458.82330322265625,
      "eval_logps/rejected": -421.25732421875,
      "eval_loss": 0.6359681487083435,
      "eval_rewards/accuracies": 0.6006944179534912,
      "eval_rewards/chosen": -0.6526302695274353,
      "eval_rewards/margins": 0.2929559648036957,
      "eval_rewards/rejected": -0.9455862045288086,
      "eval_runtime": 150.077,
      "eval_samples_per_second": 7.616,
      "eval_steps_per_second": 0.24,
      "step": 550
    },
    {
      "epoch": 0.6865671641791045,
      "grad_norm": 4.124903202056885,
      "learning_rate": 1.5884592130779056e-05,
      "logits/chosen": 0.14517062902450562,
      "logits/rejected": 0.04018905386328697,
      "logps/chosen": -487.6488342285156,
      "logps/rejected": -464.5549011230469,
      "loss": 0.6444,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.6954266428947449,
      "rewards/margins": 0.17861610651016235,
      "rewards/rejected": -0.8740427494049072,
      "step": 552
    },
    {
      "epoch": 0.6915422885572139,
      "grad_norm": 3.633653402328491,
      "learning_rate": 1.581701294055095e-05,
      "logits/chosen": 0.2584773302078247,
      "logits/rejected": -0.018043681979179382,
      "logps/chosen": -511.7429504394531,
      "logps/rejected": -504.0497741699219,
      "loss": 0.6013,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.7117761373519897,
      "rewards/margins": 0.30023542046546936,
      "rewards/rejected": -1.0120115280151367,
      "step": 556
    },
    {
      "epoch": 0.6965174129353234,
      "grad_norm": 4.155452251434326,
      "learning_rate": 1.5749029812461515e-05,
      "logits/chosen": 0.314390629529953,
      "logits/rejected": 0.3334752023220062,
      "logps/chosen": -530.2760009765625,
      "logps/rejected": -522.5399780273438,
      "loss": 0.6607,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.6176879405975342,
      "rewards/margins": -0.009039867669343948,
      "rewards/rejected": -0.6086481213569641,
      "step": 560
    },
    {
      "epoch": 0.7014925373134329,
      "grad_norm": 4.27207088470459,
      "learning_rate": 1.568064746731156e-05,
      "logits/chosen": 0.3614248037338257,
      "logits/rejected": 0.06402953714132309,
      "logps/chosen": -542.3954467773438,
      "logps/rejected": -467.5965881347656,
      "loss": 0.6567,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.07103107869625092,
      "rewards/margins": 0.46965718269348145,
      "rewards/rejected": -0.5406882166862488,
      "step": 564
    },
    {
      "epoch": 0.7064676616915423,
      "grad_norm": 4.479232311248779,
      "learning_rate": 1.5611870653623826e-05,
      "logits/chosen": 0.045674506574869156,
      "logits/rejected": -0.21201254427433014,
      "logps/chosen": -595.710205078125,
      "logps/rejected": -465.8755187988281,
      "loss": 0.6375,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.17292442917823792,
      "rewards/margins": 0.23611289262771606,
      "rewards/rejected": -0.40903735160827637,
      "step": 568
    },
    {
      "epoch": 0.7114427860696517,
      "grad_norm": 3.8208746910095215,
      "learning_rate": 1.5542704147313257e-05,
      "logits/chosen": 0.4481641948223114,
      "logits/rejected": 0.399469256401062,
      "logps/chosen": -401.0939636230469,
      "logps/rejected": -375.7672424316406,
      "loss": 0.6036,
      "rewards/accuracies": 0.609375,
      "rewards/chosen": -0.2306845486164093,
      "rewards/margins": 0.27575400471687317,
      "rewards/rejected": -0.5064386129379272,
      "step": 572
    },
    {
      "epoch": 0.7164179104477612,
      "grad_norm": 4.367500305175781,
      "learning_rate": 1.5473152751355353e-05,
      "logits/chosen": 0.11335344612598419,
      "logits/rejected": -0.00670961756259203,
      "logps/chosen": -442.5565185546875,
      "logps/rejected": -403.98382568359375,
      "loss": 0.6571,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.47417518496513367,
      "rewards/margins": 0.30662575364112854,
      "rewards/rejected": -0.7808009386062622,
      "step": 576
    },
    {
      "epoch": 0.7213930348258707,
      "grad_norm": 3.969484567642212,
      "learning_rate": 1.5403221295452647e-05,
      "logits/chosen": 0.31861090660095215,
      "logits/rejected": 0.11263471841812134,
      "logps/chosen": -439.46630859375,
      "logps/rejected": -427.44677734375,
      "loss": 0.6126,
      "rewards/accuracies": 0.640625,
      "rewards/chosen": -0.6381343603134155,
      "rewards/margins": 0.34186607599258423,
      "rewards/rejected": -0.9800004363059998,
      "step": 580
    },
    {
      "epoch": 0.7263681592039801,
      "grad_norm": 3.820988655090332,
      "learning_rate": 1.5332914635699327e-05,
      "logits/chosen": 0.40720105171203613,
      "logits/rejected": 0.1580687016248703,
      "logps/chosen": -461.20068359375,
      "logps/rejected": -403.16094970703125,
      "loss": 0.6514,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.4938652217388153,
      "rewards/margins": 0.117790088057518,
      "rewards/rejected": -0.6116552948951721,
      "step": 584
    },
    {
      "epoch": 0.7313432835820896,
      "grad_norm": 3.886521339416504,
      "learning_rate": 1.5262237654244026e-05,
      "logits/chosen": 0.5522980093955994,
      "logits/rejected": 0.4452764093875885,
      "logps/chosen": -421.0696105957031,
      "logps/rejected": -399.4547424316406,
      "loss": 0.5962,
      "rewards/accuracies": 0.734375,
      "rewards/chosen": -0.3875323235988617,
      "rewards/margins": 0.46860218048095703,
      "rewards/rejected": -0.8561345338821411,
      "step": 588
    },
    {
      "epoch": 0.736318407960199,
      "grad_norm": 4.079859733581543,
      "learning_rate": 1.5191195258950804e-05,
      "logits/chosen": 0.40618038177490234,
      "logits/rejected": 0.134785994887352,
      "logps/chosen": -651.926025390625,
      "logps/rejected": -503.9865417480469,
      "loss": 0.6448,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.186576247215271,
      "rewards/margins": 0.5179406404495239,
      "rewards/rejected": -0.7045168876647949,
      "step": 592
    },
    {
      "epoch": 0.7412935323383084,
      "grad_norm": 3.5976879596710205,
      "learning_rate": 1.5119792383058338e-05,
      "logits/chosen": 0.09992431104183197,
      "logits/rejected": -0.01921015977859497,
      "logps/chosen": -470.5938720703125,
      "logps/rejected": -444.0641174316406,
      "loss": 0.6545,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.31064364314079285,
      "rewards/margins": 0.2923417091369629,
      "rewards/rejected": -0.6029854416847229,
      "step": 596
    },
    {
      "epoch": 0.746268656716418,
      "grad_norm": 4.070811748504639,
      "learning_rate": 1.5048033984837352e-05,
      "logits/chosen": 0.15589873492717743,
      "logits/rejected": -0.034729793667793274,
      "logps/chosen": -567.2528076171875,
      "logps/rejected": -548.9393310546875,
      "loss": 0.6227,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.1316080242395401,
      "rewards/margins": 0.4812317490577698,
      "rewards/rejected": -0.6128398180007935,
      "step": 600
    },
    {
      "epoch": 0.746268656716418,
      "eval_logits/chosen": 0.18069180846214294,
      "eval_logits/rejected": 0.03814281150698662,
      "eval_logps/chosen": -453.0019836425781,
      "eval_logps/rejected": -415.46087646484375,
      "eval_loss": 0.6348658800125122,
      "eval_rewards/accuracies": 0.6215277910232544,
      "eval_rewards/chosen": -0.07049696147441864,
      "eval_rewards/margins": 0.29544174671173096,
      "eval_rewards/rejected": -0.3659386932849884,
      "eval_runtime": 150.1609,
      "eval_samples_per_second": 7.612,
      "eval_steps_per_second": 0.24,
      "step": 600
    },
    {
      "epoch": 0.7512437810945274,
      "grad_norm": 4.077042579650879,
      "learning_rate": 1.4975925047246319e-05,
      "logits/chosen": 0.09503468126058578,
      "logits/rejected": 0.14383243024349213,
      "logps/chosen": -511.3801574707031,
      "logps/rejected": -459.1648254394531,
      "loss": 0.6159,
      "rewards/accuracies": 0.640625,
      "rewards/chosen": -0.030200934037566185,
      "rewards/margins": 0.34608855843544006,
      "rewards/rejected": -0.376289427280426,
      "step": 604
    },
    {
      "epoch": 0.7562189054726368,
      "grad_norm": 4.1146039962768555,
      "learning_rate": 1.4903470577585433e-05,
      "logits/chosen": 0.5371518731117249,
      "logits/rejected": 0.44205495715141296,
      "logps/chosen": -480.82513427734375,
      "logps/rejected": -464.04632568359375,
      "loss": 0.6054,
      "rewards/accuracies": 0.640625,
      "rewards/chosen": 0.07143578678369522,
      "rewards/margins": 0.3510420322418213,
      "rewards/rejected": -0.27960628271102905,
      "step": 608
    },
    {
      "epoch": 0.7611940298507462,
      "grad_norm": 4.153296947479248,
      "learning_rate": 1.4830675607148899e-05,
      "logits/chosen": 0.2690809369087219,
      "logits/rejected": 0.2488354742527008,
      "logps/chosen": -472.01849365234375,
      "logps/rejected": -491.8638916015625,
      "loss": 0.634,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.1490858495235443,
      "rewards/margins": 0.38102632761001587,
      "rewards/rejected": -0.5301121473312378,
      "step": 612
    },
    {
      "epoch": 0.7661691542288557,
      "grad_norm": 4.3426337242126465,
      "learning_rate": 1.475754519087557e-05,
      "logits/chosen": 0.4082140624523163,
      "logits/rejected": 0.4368078410625458,
      "logps/chosen": -414.7156677246094,
      "logps/rejected": -415.9171142578125,
      "loss": 0.663,
      "rewards/accuracies": 0.609375,
      "rewards/chosen": -0.10527034103870392,
      "rewards/margins": 0.1847696453332901,
      "rewards/rejected": -0.2900400161743164,
      "step": 616
    },
    {
      "epoch": 0.7711442786069652,
      "grad_norm": 3.6295218467712402,
      "learning_rate": 1.4684084406997903e-05,
      "logits/chosen": 0.23331183195114136,
      "logits/rejected": 0.01600750908255577,
      "logps/chosen": -577.4814453125,
      "logps/rejected": -505.6333923339844,
      "loss": 0.6446,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.024487711489200592,
      "rewards/margins": 0.35684019327163696,
      "rewards/rejected": -0.38132789731025696,
      "step": 620
    },
    {
      "epoch": 0.7761194029850746,
      "grad_norm": 4.441697120666504,
      "learning_rate": 1.4610298356689341e-05,
      "logits/chosen": 0.19809234142303467,
      "logits/rejected": 0.22685889899730682,
      "logps/chosen": -413.6700134277344,
      "logps/rejected": -467.2070007324219,
      "loss": 0.6361,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": 0.029005911201238632,
      "rewards/margins": 0.28220340609550476,
      "rewards/rejected": -0.2531975209712982,
      "step": 624
    },
    {
      "epoch": 0.7810945273631841,
      "grad_norm": 4.630463600158691,
      "learning_rate": 1.453619216371008e-05,
      "logits/chosen": 0.42978817224502563,
      "logits/rejected": 0.39091044664382935,
      "logps/chosen": -480.048095703125,
      "logps/rejected": -498.24530029296875,
      "loss": 0.6538,
      "rewards/accuracies": 0.515625,
      "rewards/chosen": -0.5016615986824036,
      "rewards/margins": 0.07318463921546936,
      "rewards/rejected": -0.5748462080955505,
      "step": 628
    },
    {
      "epoch": 0.7860696517412935,
      "grad_norm": 4.055500030517578,
      "learning_rate": 1.446177097405127e-05,
      "logits/chosen": 0.19197359681129456,
      "logits/rejected": 0.267251193523407,
      "logps/chosen": -554.1470336914062,
      "logps/rejected": -491.2269287109375,
      "loss": 0.6184,
      "rewards/accuracies": 0.640625,
      "rewards/chosen": -0.36392736434936523,
      "rewards/margins": 0.29624325037002563,
      "rewards/rejected": -0.6601705551147461,
      "step": 632
    },
    {
      "epoch": 0.7910447761194029,
      "grad_norm": 4.158740520477295,
      "learning_rate": 1.4387039955577668e-05,
      "logits/chosen": 0.28597795963287354,
      "logits/rejected": 0.2785332202911377,
      "logps/chosen": -504.1370849609375,
      "logps/rejected": -474.9548645019531,
      "loss": 0.643,
      "rewards/accuracies": 0.578125,
      "rewards/chosen": -0.12694326043128967,
      "rewards/margins": 0.2074156403541565,
      "rewards/rejected": -0.33435890078544617,
      "step": 636
    },
    {
      "epoch": 0.7960199004975125,
      "grad_norm": 4.120989799499512,
      "learning_rate": 1.4312004297668791e-05,
      "logits/chosen": 0.17556458711624146,
      "logits/rejected": 0.0959894210100174,
      "logps/chosen": -404.9556579589844,
      "logps/rejected": -391.56549072265625,
      "loss": 0.5971,
      "rewards/accuracies": 0.734375,
      "rewards/chosen": -0.09616656601428986,
      "rewards/margins": 0.39131832122802734,
      "rewards/rejected": -0.487484872341156,
      "step": 640
    },
    {
      "epoch": 0.8009950248756219,
      "grad_norm": 4.523448944091797,
      "learning_rate": 1.4236669210858544e-05,
      "logits/chosen": 0.25030747056007385,
      "logits/rejected": 0.20863890647888184,
      "logps/chosen": -498.8720703125,
      "logps/rejected": -507.3069152832031,
      "loss": 0.5908,
      "rewards/accuracies": 0.578125,
      "rewards/chosen": -0.24966737627983093,
      "rewards/margins": 0.2907105088233948,
      "rewards/rejected": -0.5403779149055481,
      "step": 644
    },
    {
      "epoch": 0.8059701492537313,
      "grad_norm": 4.00128173828125,
      "learning_rate": 1.4161039926473412e-05,
      "logits/chosen": 0.4552380442619324,
      "logits/rejected": 0.18772940337657928,
      "logps/chosen": -536.3428344726562,
      "logps/rejected": -490.09429931640625,
      "loss": 0.6473,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.040442317724227905,
      "rewards/margins": 0.29100677371025085,
      "rewards/rejected": -0.33144912123680115,
      "step": 648
    },
    {
      "epoch": 0.8084577114427861,
      "eval_logits/chosen": 0.2775518596172333,
      "eval_logits/rejected": 0.14060264825820923,
      "eval_logps/chosen": -455.484375,
      "eval_logps/rejected": -418.57281494140625,
      "eval_loss": 0.6331359148025513,
      "eval_rewards/accuracies": 0.6527777910232544,
      "eval_rewards/chosen": -0.31874096393585205,
      "eval_rewards/margins": 0.3583892583847046,
      "eval_rewards/rejected": -0.6771301627159119,
      "eval_runtime": 150.1695,
      "eval_samples_per_second": 7.611,
      "eval_steps_per_second": 0.24,
      "step": 650
    },
    {
      "epoch": 0.8109452736318408,
      "grad_norm": 6.469996452331543,
      "learning_rate": 1.4085121696269185e-05,
      "logits/chosen": 0.5448468327522278,
      "logits/rejected": 0.19260184466838837,
      "logps/chosen": -587.0845947265625,
      "logps/rejected": -455.35992431640625,
      "loss": 0.6466,
      "rewards/accuracies": 0.640625,
      "rewards/chosen": -0.3791936933994293,
      "rewards/margins": 0.3534315824508667,
      "rewards/rejected": -0.7326253056526184,
      "step": 652
    },
    {
      "epoch": 0.8159203980099502,
      "grad_norm": 4.154365539550781,
      "learning_rate": 1.4008919792066273e-05,
      "logits/chosen": 0.24580639600753784,
      "logits/rejected": 0.30128005146980286,
      "logps/chosen": -402.3567199707031,
      "logps/rejected": -456.4067687988281,
      "loss": 0.651,
      "rewards/accuracies": 0.640625,
      "rewards/chosen": -0.35055863857269287,
      "rewards/margins": 0.36460378766059875,
      "rewards/rejected": -0.7151623964309692,
      "step": 656
    },
    {
      "epoch": 0.8208955223880597,
      "grad_norm": 4.000673294067383,
      "learning_rate": 1.3932439505383628e-05,
      "logits/chosen": 0.4568510055541992,
      "logits/rejected": 0.26491212844848633,
      "logps/chosen": -578.89453125,
      "logps/rejected": -484.39654541015625,
      "loss": 0.6105,
      "rewards/accuracies": 0.609375,
      "rewards/chosen": -0.5648167133331299,
      "rewards/margins": 0.4626457989215851,
      "rewards/rejected": -1.0274624824523926,
      "step": 660
    },
    {
      "epoch": 0.8258706467661692,
      "grad_norm": 4.538127899169922,
      "learning_rate": 1.385568614707129e-05,
      "logits/chosen": 0.4450688660144806,
      "logits/rejected": 0.1880086064338684,
      "logps/chosen": -522.4884033203125,
      "logps/rejected": -430.0087585449219,
      "loss": 0.5808,
      "rewards/accuracies": 0.671875,
      "rewards/chosen": -0.8698031902313232,
      "rewards/margins": 0.45266827940940857,
      "rewards/rejected": -1.3224713802337646,
      "step": 664
    },
    {
      "epoch": 0.8308457711442786,
      "grad_norm": 3.7640268802642822,
      "learning_rate": 1.3778665046941616e-05,
      "logits/chosen": 0.3476739525794983,
      "logits/rejected": 0.0015247669070959091,
      "logps/chosen": -535.035888671875,
      "logps/rejected": -452.0794677734375,
      "loss": 0.5904,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.602352499961853,
      "rewards/margins": 0.5098788142204285,
      "rewards/rejected": -1.1122313737869263,
      "step": 668
    },
    {
      "epoch": 0.835820895522388,
      "grad_norm": 3.9549944400787354,
      "learning_rate": 1.3701381553399147e-05,
      "logits/chosen": 0.6829994916915894,
      "logits/rejected": 0.7129935622215271,
      "logps/chosen": -473.60589599609375,
      "logps/rejected": -505.9931945800781,
      "loss": 0.6523,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.7586303949356079,
      "rewards/margins": 0.21102982759475708,
      "rewards/rejected": -0.9696601629257202,
      "step": 672
    },
    {
      "epoch": 0.8407960199004975,
      "grad_norm": 4.284757614135742,
      "learning_rate": 1.3623841033069232e-05,
      "logits/chosen": 0.40947800874710083,
      "logits/rejected": 0.37943294644355774,
      "logps/chosen": -399.6325378417969,
      "logps/rejected": -418.98846435546875,
      "loss": 0.6707,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.6792310476303101,
      "rewards/margins": 0.2475418746471405,
      "rewards/rejected": -0.9267728924751282,
      "step": 676
    },
    {
      "epoch": 0.845771144278607,
      "grad_norm": 4.278886795043945,
      "learning_rate": 1.3546048870425356e-05,
      "logits/chosen": 0.38366350531578064,
      "logits/rejected": 0.2522772252559662,
      "logps/chosen": -413.2381286621094,
      "logps/rejected": -408.53399658203125,
      "loss": 0.6442,
      "rewards/accuracies": 0.765625,
      "rewards/chosen": -0.6863256692886353,
      "rewards/margins": 0.4241764545440674,
      "rewards/rejected": -1.110502004623413,
      "step": 680
    },
    {
      "epoch": 0.8507462686567164,
      "grad_norm": 3.915144920349121,
      "learning_rate": 1.3468010467415248e-05,
      "logits/chosen": 0.3846738636493683,
      "logits/rejected": 0.17315393686294556,
      "logps/chosen": -491.52935791015625,
      "logps/rejected": -414.61328125,
      "loss": 0.631,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.7921670079231262,
      "rewards/margins": 0.18218526244163513,
      "rewards/rejected": -0.9743523597717285,
      "step": 684
    },
    {
      "epoch": 0.8557213930348259,
      "grad_norm": 4.119470596313477,
      "learning_rate": 1.3389731243085747e-05,
      "logits/chosen": 0.23576557636260986,
      "logits/rejected": 0.2507054805755615,
      "logps/chosen": -452.724365234375,
      "logps/rejected": -467.43682861328125,
      "loss": 0.6641,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.6324411630630493,
      "rewards/margins": 0.29806220531463623,
      "rewards/rejected": -0.9305033683776855,
      "step": 688
    },
    {
      "epoch": 0.8606965174129353,
      "grad_norm": 3.8940017223358154,
      "learning_rate": 1.3311216633206514e-05,
      "logits/chosen": 0.19210243225097656,
      "logits/rejected": 0.04936864227056503,
      "logps/chosen": -511.88641357421875,
      "logps/rejected": -425.4428405761719,
      "loss": 0.6167,
      "rewards/accuracies": 0.578125,
      "rewards/chosen": -0.5534711480140686,
      "rewards/margins": 0.3882919251918793,
      "rewards/rejected": -0.9417631030082703,
      "step": 692
    },
    {
      "epoch": 0.8656716417910447,
      "grad_norm": 4.534005165100098,
      "learning_rate": 1.3232472089892567e-05,
      "logits/chosen": 0.4114670157432556,
      "logits/rejected": 0.31665346026420593,
      "logps/chosen": -458.63006591796875,
      "logps/rejected": -402.3096923828125,
      "loss": 0.6983,
      "rewards/accuracies": 0.5625,
      "rewards/chosen": -0.4137086868286133,
      "rewards/margins": 0.13000260293483734,
      "rewards/rejected": -0.543711245059967,
      "step": 696
    },
    {
      "epoch": 0.8706467661691543,
      "grad_norm": 5.47732400894165,
      "learning_rate": 1.315350308122567e-05,
      "logits/chosen": 0.38530704379081726,
      "logits/rejected": 0.30780690908432007,
      "logps/chosen": -444.169677734375,
      "logps/rejected": -430.9597473144531,
      "loss": 0.6259,
      "rewards/accuracies": 0.46875,
      "rewards/chosen": -0.41313281655311584,
      "rewards/margins": 0.10978913307189941,
      "rewards/rejected": -0.5229219794273376,
      "step": 700
    },
    {
      "epoch": 0.8706467661691543,
      "eval_logits/chosen": 0.23911841213703156,
      "eval_logits/rejected": 0.09861024469137192,
      "eval_logps/chosen": -456.55279541015625,
      "eval_logps/rejected": -419.2005615234375,
      "eval_loss": 0.6294909715652466,
      "eval_rewards/accuracies": 0.6111111044883728,
      "eval_rewards/chosen": -0.4255761504173279,
      "eval_rewards/margins": 0.31433236598968506,
      "eval_rewards/rejected": -0.7399084568023682,
      "eval_runtime": 150.0352,
      "eval_samples_per_second": 7.618,
      "eval_steps_per_second": 0.24,
      "step": 700
    },
    {
      "epoch": 0.8756218905472637,
      "grad_norm": 3.469086170196533,
      "learning_rate": 1.3074315090874652e-05,
      "logits/chosen": 0.09198964387178421,
      "logits/rejected": 0.1355361044406891,
      "logps/chosen": -370.5699462890625,
      "logps/rejected": -411.66070556640625,
      "loss": 0.6532,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.27120280265808105,
      "rewards/margins": 0.3581971824169159,
      "rewards/rejected": -0.6293999552726746,
      "step": 704
    },
    {
      "epoch": 0.8805970149253731,
      "grad_norm": 3.4145619869232178,
      "learning_rate": 1.2994913617714573e-05,
      "logits/chosen": 0.39067643880844116,
      "logits/rejected": 0.1868411898612976,
      "logps/chosen": -448.4958801269531,
      "logps/rejected": -393.5880126953125,
      "loss": 0.5979,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -0.31874287128448486,
      "rewards/margins": 0.48711925745010376,
      "rewards/rejected": -0.8058621883392334,
      "step": 708
    },
    {
      "epoch": 0.8855721393034826,
      "grad_norm": 3.769350528717041,
      "learning_rate": 1.2915304175444929e-05,
      "logits/chosen": 0.43691831827163696,
      "logits/rejected": 0.3168666958808899,
      "logps/chosen": -450.9046630859375,
      "logps/rejected": -430.5725402832031,
      "loss": 0.636,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.4702681005001068,
      "rewards/margins": 0.20657652616500854,
      "rewards/rejected": -0.6768447160720825,
      "step": 712
    },
    {
      "epoch": 0.8905472636815921,
      "grad_norm": 4.2490763664245605,
      "learning_rate": 1.2835492292206735e-05,
      "logits/chosen": 0.5658756494522095,
      "logits/rejected": 0.4351132810115814,
      "logps/chosen": -418.0053405761719,
      "logps/rejected": -432.3887634277344,
      "loss": 0.6119,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.36454248428344727,
      "rewards/margins": 0.2455846071243286,
      "rewards/rejected": -0.6101270914077759,
      "step": 716
    },
    {
      "epoch": 0.8955223880597015,
      "grad_norm": 3.402549982070923,
      "learning_rate": 1.2755483510198668e-05,
      "logits/chosen": 0.18330873548984528,
      "logits/rejected": 0.06855818629264832,
      "logps/chosen": -470.72052001953125,
      "logps/rejected": -431.72314453125,
      "loss": 0.6069,
      "rewards/accuracies": 0.609375,
      "rewards/chosen": -0.3080929219722748,
      "rewards/margins": 0.3066636025905609,
      "rewards/rejected": -0.6147565245628357,
      "step": 720
    },
    {
      "epoch": 0.900497512437811,
      "grad_norm": 3.684074640274048,
      "learning_rate": 1.2675283385292212e-05,
      "logits/chosen": 0.2085587978363037,
      "logits/rejected": 0.11812448501586914,
      "logps/chosen": -449.0517883300781,
      "logps/rejected": -440.92767333984375,
      "loss": 0.6349,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.25056391954421997,
      "rewards/margins": 0.2954629063606262,
      "rewards/rejected": -0.546026885509491,
      "step": 724
    },
    {
      "epoch": 0.9054726368159204,
      "grad_norm": 3.109182596206665,
      "learning_rate": 1.2594897486645836e-05,
      "logits/chosen": 0.21170970797538757,
      "logits/rejected": 0.11683456599712372,
      "logps/chosen": -457.32684326171875,
      "logps/rejected": -442.80426025390625,
      "loss": 0.5875,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.32196876406669617,
      "rewards/margins": 0.5613601803779602,
      "rewards/rejected": -0.8833289742469788,
      "step": 728
    },
    {
      "epoch": 0.9104477611940298,
      "grad_norm": 6.466948986053467,
      "learning_rate": 1.2514331396318298e-05,
      "logits/chosen": 0.16703735291957855,
      "logits/rejected": 0.1217992752790451,
      "logps/chosen": -456.64312744140625,
      "logps/rejected": -477.60943603515625,
      "loss": 0.6526,
      "rewards/accuracies": 0.546875,
      "rewards/chosen": -0.4616580009460449,
      "rewards/margins": 0.1874929666519165,
      "rewards/rejected": -0.6491509079933167,
      "step": 732
    },
    {
      "epoch": 0.9154228855721394,
      "grad_norm": 3.79681396484375,
      "learning_rate": 1.2433590708880991e-05,
      "logits/chosen": 0.08391296863555908,
      "logits/rejected": -0.12564268708229065,
      "logps/chosen": -556.4468994140625,
      "logps/rejected": -446.3089294433594,
      "loss": 0.625,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.7545434236526489,
      "rewards/margins": 0.35477572679519653,
      "rewards/rejected": -1.1093190908432007,
      "step": 736
    },
    {
      "epoch": 0.9203980099502488,
      "grad_norm": 4.004853248596191,
      "learning_rate": 1.2352681031029476e-05,
      "logits/chosen": 0.21419230103492737,
      "logits/rejected": 0.11660319566726685,
      "logps/chosen": -400.4061584472656,
      "logps/rejected": -386.1788330078125,
      "loss": 0.6353,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.8190222978591919,
      "rewards/margins": 0.254682332277298,
      "rewards/rejected": -1.073704481124878,
      "step": 740
    },
    {
      "epoch": 0.9253731343283582,
      "grad_norm": 3.5617058277130127,
      "learning_rate": 1.2271607981194132e-05,
      "logits/chosen": 0.23552103340625763,
      "logits/rejected": 0.17505709826946259,
      "logps/chosen": -487.88153076171875,
      "logps/rejected": -487.0649719238281,
      "loss": 0.6393,
      "rewards/accuracies": 0.65625,
      "rewards/chosen": -0.8327006697654724,
      "rewards/margins": 0.439730167388916,
      "rewards/rejected": -1.2724308967590332,
      "step": 744
    },
    {
      "epoch": 0.9303482587064676,
      "grad_norm": 3.8972809314727783,
      "learning_rate": 1.2190377189150016e-05,
      "logits/chosen": 0.1701466292142868,
      "logits/rejected": -0.17507055401802063,
      "logps/chosen": -546.63134765625,
      "logps/rejected": -442.184814453125,
      "loss": 0.6572,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.6856258511543274,
      "rewards/margins": 0.2289436310529709,
      "rewards/rejected": -0.9145694971084595,
      "step": 748
    },
    {
      "epoch": 0.9328358208955224,
      "eval_logits/chosen": 0.21203385293483734,
      "eval_logits/rejected": 0.0725901871919632,
      "eval_logps/chosen": -458.26568603515625,
      "eval_logps/rejected": -420.7373962402344,
      "eval_loss": 0.6389397382736206,
      "eval_rewards/accuracies": 0.6006944179534912,
      "eval_rewards/chosen": -0.5968630313873291,
      "eval_rewards/margins": 0.29672402143478394,
      "eval_rewards/rejected": -0.8935869932174683,
      "eval_runtime": 149.6811,
      "eval_samples_per_second": 7.636,
      "eval_steps_per_second": 0.241,
      "step": 750
    },
    {
      "epoch": 0.9353233830845771,
      "grad_norm": 3.4292774200439453,
      "learning_rate": 1.2108994295625924e-05,
      "logits/chosen": 0.3646988868713379,
      "logits/rejected": 0.3169184625148773,
      "logps/chosen": -452.8676452636719,
      "logps/rejected": -477.1390075683594,
      "loss": 0.6384,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.6115289926528931,
      "rewards/margins": 0.3036550283432007,
      "rewards/rejected": -0.9151840209960938,
      "step": 752
    },
    {
      "epoch": 0.9402985074626866,
      "grad_norm": 4.111717700958252,
      "learning_rate": 1.2027464951912703e-05,
      "logits/chosen": -0.010581929236650467,
      "logits/rejected": -0.32105395197868347,
      "logps/chosen": -577.8338012695312,
      "logps/rejected": -460.8430480957031,
      "loss": 0.6558,
      "rewards/accuracies": 0.625,
      "rewards/chosen": -0.42835140228271484,
      "rewards/margins": 0.29241591691970825,
      "rewards/rejected": -0.7207673192024231,
      "step": 756
    },
    {
      "epoch": 0.945273631840796,
      "grad_norm": 3.9025838375091553,
      "learning_rate": 1.1945794819470805e-05,
      "logits/chosen": 0.17384302616119385,
      "logits/rejected": 0.1552993208169937,
      "logps/chosen": -457.97296142578125,
      "logps/rejected": -547.5758056640625,
      "loss": 0.6789,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": -0.3758777976036072,
      "rewards/margins": 0.24084581434726715,
      "rewards/rejected": -0.6167235970497131,
      "step": 760
    },
    {
      "epoch": 0.9502487562189055,
      "grad_norm": 3.4757816791534424,
      "learning_rate": 1.1863989569537165e-05,
      "logits/chosen": 0.0369485542178154,
      "logits/rejected": -0.15935146808624268,
      "logps/chosen": -442.7840270996094,
      "logps/rejected": -408.35162353515625,
      "loss": 0.602,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": 0.12775643169879913,
      "rewards/margins": 0.40465879440307617,
      "rewards/rejected": -0.27690234780311584,
      "step": 764
    },
    {
      "epoch": 0.9552238805970149,
      "grad_norm": 3.849163770675659,
      "learning_rate": 1.1782054882731377e-05,
      "logits/chosen": 0.30783870816230774,
      "logits/rejected": 0.18860141932964325,
      "logps/chosen": -455.1307373046875,
      "logps/rejected": -429.60430908203125,
      "loss": 0.6285,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.10190219432115555,
      "rewards/margins": 0.3229271173477173,
      "rewards/rejected": -0.4248293340206146,
      "step": 768
    },
    {
      "epoch": 0.9601990049751243,
      "grad_norm": 3.603282928466797,
      "learning_rate": 1.1699996448661242e-05,
      "logits/chosen": 0.2716388702392578,
      "logits/rejected": 0.048077456653118134,
      "logps/chosen": -479.42657470703125,
      "logps/rejected": -440.88507080078125,
      "loss": 0.5974,
      "rewards/accuracies": 0.703125,
      "rewards/chosen": 0.03539299592375755,
      "rewards/margins": 0.5358645915985107,
      "rewards/rejected": -0.5004715919494629,
      "step": 772
    },
    {
      "epoch": 0.9651741293532339,
      "grad_norm": 3.572518825531006,
      "learning_rate": 1.161781996552765e-05,
      "logits/chosen": 0.17352545261383057,
      "logits/rejected": 0.060841046273708344,
      "logps/chosen": -446.12451171875,
      "logps/rejected": -426.59222412109375,
      "loss": 0.6235,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": 0.16514363884925842,
      "rewards/margins": 0.26698362827301025,
      "rewards/rejected": -0.10184000432491302,
      "step": 776
    },
    {
      "epoch": 0.9701492537313433,
      "grad_norm": 4.555858135223389,
      "learning_rate": 1.1535531139728918e-05,
      "logits/chosen": 0.24533721804618835,
      "logits/rejected": -0.07171311974525452,
      "logps/chosen": -523.5499877929688,
      "logps/rejected": -437.7908935546875,
      "loss": 0.6537,
      "rewards/accuracies": 0.546875,
      "rewards/chosen": 0.12301430106163025,
      "rewards/margins": 0.2650811970233917,
      "rewards/rejected": -0.14206688106060028,
      "step": 780
    },
    {
      "epoch": 0.9751243781094527,
      "grad_norm": 3.932504892349243,
      "learning_rate": 1.1453135685464524e-05,
      "logits/chosen": 0.08851994574069977,
      "logits/rejected": 0.14470553398132324,
      "logps/chosen": -439.4774169921875,
      "logps/rejected": -538.0982666015625,
      "loss": 0.6267,
      "rewards/accuracies": 0.703125,
      "rewards/chosen": 0.26700615882873535,
      "rewards/margins": 0.5629878640174866,
      "rewards/rejected": -0.295981764793396,
      "step": 784
    },
    {
      "epoch": 0.9800995024875622,
      "grad_norm": 3.7867138385772705,
      "learning_rate": 1.1370639324338313e-05,
      "logits/chosen": 0.26342546939849854,
      "logits/rejected": -0.009939752519130707,
      "logps/chosen": -462.4211120605469,
      "logps/rejected": -397.9438171386719,
      "loss": 0.6298,
      "rewards/accuracies": 0.609375,
      "rewards/chosen": 0.277785062789917,
      "rewards/margins": 0.45373010635375977,
      "rewards/rejected": -0.1759449988603592,
      "step": 788
    },
    {
      "epoch": 0.9850746268656716,
      "grad_norm": 3.5211777687072754,
      "learning_rate": 1.1288047784961166e-05,
      "logits/chosen": 0.3734492063522339,
      "logits/rejected": 0.2930186092853546,
      "logps/chosen": -512.7589721679688,
      "logps/rejected": -474.911865234375,
      "loss": 0.6174,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": 0.332348495721817,
      "rewards/margins": 0.38974326848983765,
      "rewards/rejected": -0.05739474669098854,
      "step": 792
    },
    {
      "epoch": 0.9900497512437811,
      "grad_norm": 3.415151357650757,
      "learning_rate": 1.1205366802553231e-05,
      "logits/chosen": 0.2811368703842163,
      "logits/rejected": 0.15755276381969452,
      "logps/chosen": -549.73583984375,
      "logps/rejected": -500.3531494140625,
      "loss": 0.6064,
      "rewards/accuracies": 0.53125,
      "rewards/chosen": 0.04190271347761154,
      "rewards/margins": 0.3072620630264282,
      "rewards/rejected": -0.26535937190055847,
      "step": 796
    },
    {
      "epoch": 0.9950248756218906,
      "grad_norm": 3.637012481689453,
      "learning_rate": 1.1122602118545642e-05,
      "logits/chosen": 0.12841928005218506,
      "logits/rejected": -0.023960597813129425,
      "logps/chosen": -483.5614013671875,
      "logps/rejected": -490.4222412109375,
      "loss": 0.63,
      "rewards/accuracies": 0.671875,
      "rewards/chosen": 0.10303351283073425,
      "rewards/margins": 0.44947099685668945,
      "rewards/rejected": -0.3464375436306,
      "step": 800
    },
    {
      "epoch": 0.9950248756218906,
      "eval_logits/chosen": 0.2406376451253891,
      "eval_logits/rejected": 0.10255695879459381,
      "eval_logps/chosen": -454.539794921875,
      "eval_logps/rejected": -417.31793212890625,
      "eval_loss": 0.6309738159179688,
      "eval_rewards/accuracies": 0.6284722089767456,
      "eval_rewards/chosen": -0.22427807748317719,
      "eval_rewards/margins": 0.3273647427558899,
      "eval_rewards/rejected": -0.5516427755355835,
      "eval_runtime": 150.3056,
      "eval_samples_per_second": 7.605,
      "eval_steps_per_second": 0.24,
      "step": 800
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.7533183097839355,
      "learning_rate": 1.1039759480181836e-05,
      "logits/chosen": 0.12052932381629944,
      "logits/rejected": 0.07770034670829773,
      "logps/chosen": -418.409912109375,
      "logps/rejected": -415.7170715332031,
      "loss": 0.6279,
      "rewards/accuracies": 0.59375,
      "rewards/chosen": -0.11391990631818771,
      "rewards/margins": 0.34513598680496216,
      "rewards/rejected": -0.45905593037605286,
      "step": 804
    },
    {
      "epoch": 1.0049751243781095,
      "grad_norm": 3.1612284183502197,
      "learning_rate": 1.0956844640118462e-05,
      "logits/chosen": 0.3718172311782837,
      "logits/rejected": 0.10918774455785751,
      "logps/chosen": -493.1455078125,
      "logps/rejected": -435.0345153808594,
      "loss": 0.4822,
      "rewards/accuracies": 0.671875,
      "rewards/chosen": -0.20489560067653656,
      "rewards/margins": 0.660038411617279,
      "rewards/rejected": -0.864933967590332,
      "step": 808
    },
    {
      "epoch": 1.0099502487562189,
      "grad_norm": 3.007526397705078,
      "learning_rate": 1.0873863356025911e-05,
      "logits/chosen": 0.23822058737277985,
      "logits/rejected": 0.07988135516643524,
      "logps/chosen": -398.7310791015625,
      "logps/rejected": -416.26171875,
      "loss": 0.4403,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.2089827060699463,
      "rewards/margins": 0.7835352420806885,
      "rewards/rejected": -0.9925180077552795,
      "step": 812
    },
    {
      "epoch": 1.0149253731343284,
      "grad_norm": 2.805800437927246,
      "learning_rate": 1.0790821390188493e-05,
      "logits/chosen": 0.32303646206855774,
      "logits/rejected": 0.2196110635995865,
      "logps/chosen": -503.0115966796875,
      "logps/rejected": -474.46246337890625,
      "loss": 0.4475,
      "rewards/accuracies": 0.765625,
      "rewards/chosen": -0.5059514045715332,
      "rewards/margins": 0.6203033328056335,
      "rewards/rejected": -1.1262547969818115,
      "step": 816
    },
    {
      "epoch": 1.0199004975124377,
      "grad_norm": 2.849635362625122,
      "learning_rate": 1.0707724509104318e-05,
      "logits/chosen": 0.12564139068126678,
      "logits/rejected": -0.1032138541340828,
      "logps/chosen": -492.5018615722656,
      "logps/rejected": -433.72662353515625,
      "loss": 0.4503,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.2990395128726959,
      "rewards/margins": 0.7483544945716858,
      "rewards/rejected": -1.047394037246704,
      "step": 820
    },
    {
      "epoch": 1.0248756218905473,
      "grad_norm": 3.1247310638427734,
      "learning_rate": 1.062457848308484e-05,
      "logits/chosen": 0.1007804125547409,
      "logits/rejected": -0.011237893253564835,
      "logps/chosen": -511.64373779296875,
      "logps/rejected": -443.93951416015625,
      "loss": 0.4899,
      "rewards/accuracies": 0.765625,
      "rewards/chosen": -0.3589535057544708,
      "rewards/margins": 0.5756500959396362,
      "rewards/rejected": -0.9346035718917847,
      "step": 824
    },
    {
      "epoch": 1.0298507462686568,
      "grad_norm": 3.1016077995300293,
      "learning_rate": 1.0541389085854177e-05,
      "logits/chosen": 0.5417459011077881,
      "logits/rejected": 0.2698720395565033,
      "logps/chosen": -491.50115966796875,
      "logps/rejected": -424.73309326171875,
      "loss": 0.4774,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.044443853199481964,
      "rewards/margins": 0.7540363073348999,
      "rewards/rejected": -0.7984801530838013,
      "step": 828
    },
    {
      "epoch": 1.0348258706467661,
      "grad_norm": 3.130073070526123,
      "learning_rate": 1.0458162094148185e-05,
      "logits/chosen": 0.5757798552513123,
      "logits/rejected": 0.4289059042930603,
      "logps/chosen": -455.25860595703125,
      "logps/rejected": -414.67767333984375,
      "loss": 0.4726,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": 0.16106560826301575,
      "rewards/margins": 0.6384649872779846,
      "rewards/rejected": -0.47739943861961365,
      "step": 832
    },
    {
      "epoch": 1.0398009950248757,
      "grad_norm": 2.843583822250366,
      "learning_rate": 1.0374903287313307e-05,
      "logits/chosen": 0.6092027425765991,
      "logits/rejected": 0.4161675274372101,
      "logps/chosen": -471.7634582519531,
      "logps/rejected": -432.1963195800781,
      "loss": 0.4692,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": 0.15890881419181824,
      "rewards/margins": 0.7123965620994568,
      "rewards/rejected": -0.5534877777099609,
      "step": 836
    },
    {
      "epoch": 1.044776119402985,
      "grad_norm": 3.054884433746338,
      "learning_rate": 1.029161844690525e-05,
      "logits/chosen": 0.04671328887343407,
      "logits/rejected": -0.0623294860124588,
      "logps/chosen": -432.43463134765625,
      "logps/rejected": -444.45330810546875,
      "loss": 0.4637,
      "rewards/accuracies": 0.859375,
      "rewards/chosen": 0.2890382409095764,
      "rewards/margins": 0.9058393836021423,
      "rewards/rejected": -0.6168012022972107,
      "step": 840
    },
    {
      "epoch": 1.0497512437810945,
      "grad_norm": 2.780414581298828,
      "learning_rate": 1.0208313356287505e-05,
      "logits/chosen": 0.16017179191112518,
      "logits/rejected": 0.3132883310317993,
      "logps/chosen": -367.1025390625,
      "logps/rejected": -421.85235595703125,
      "loss": 0.4423,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": 0.15863201022148132,
      "rewards/margins": 0.6779903173446655,
      "rewards/rejected": -0.5193582773208618,
      "step": 844
    },
    {
      "epoch": 1.054726368159204,
      "grad_norm": 2.5658442974090576,
      "learning_rate": 1.0124993800229774e-05,
      "logits/chosen": 0.5552780628204346,
      "logits/rejected": 0.4013071060180664,
      "logps/chosen": -482.0791015625,
      "logps/rejected": -464.7220764160156,
      "loss": 0.4431,
      "rewards/accuracies": 0.859375,
      "rewards/chosen": 0.09260371327400208,
      "rewards/margins": 0.9124071002006531,
      "rewards/rejected": -0.8198033571243286,
      "step": 848
    },
    {
      "epoch": 1.0572139303482586,
      "eval_logits/chosen": 0.19921229779720306,
      "eval_logits/rejected": 0.06041179224848747,
      "eval_logps/chosen": -455.6217346191406,
      "eval_logps/rejected": -418.9701843261719,
      "eval_loss": 0.6237961649894714,
      "eval_rewards/accuracies": 0.6631944179534912,
      "eval_rewards/chosen": -0.332474023103714,
      "eval_rewards/margins": 0.3843950629234314,
      "eval_rewards/rejected": -0.7168691158294678,
      "eval_runtime": 150.1103,
      "eval_samples_per_second": 7.614,
      "eval_steps_per_second": 0.24,
      "step": 850
    },
    {
      "epoch": 1.0597014925373134,
      "grad_norm": 2.8231992721557617,
      "learning_rate": 1.004166556450623e-05,
      "logits/chosen": 0.33288416266441345,
      "logits/rejected": 0.09707096964120865,
      "logps/chosen": -464.0365905761719,
      "logps/rejected": -426.97601318359375,
      "loss": 0.446,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.08150234073400497,
      "rewards/margins": 0.8820555210113525,
      "rewards/rejected": -0.9635578393936157,
      "step": 852
    },
    {
      "epoch": 1.064676616915423,
      "grad_norm": 3.675276756286621,
      "learning_rate": 9.958334435493776e-06,
      "logits/chosen": 0.19826172292232513,
      "logits/rejected": 0.07607944309711456,
      "logps/chosen": -414.4964599609375,
      "logps/rejected": -442.0020751953125,
      "loss": 0.4813,
      "rewards/accuracies": 0.859375,
      "rewards/chosen": -0.1501787155866623,
      "rewards/margins": 0.8547053337097168,
      "rewards/rejected": -1.004884123802185,
      "step": 856
    },
    {
      "epoch": 1.0696517412935322,
      "grad_norm": 2.7473108768463135,
      "learning_rate": 9.87500619977023e-06,
      "logits/chosen": 0.11883494257926941,
      "logits/rejected": -0.021124478429555893,
      "logps/chosen": -453.2391052246094,
      "logps/rejected": -427.75830078125,
      "loss": 0.4716,
      "rewards/accuracies": 0.734375,
      "rewards/chosen": -0.10561797767877579,
      "rewards/margins": 0.6551963090896606,
      "rewards/rejected": -0.7608143091201782,
      "step": 860
    },
    {
      "epoch": 1.0746268656716418,
      "grad_norm": 3.5719878673553467,
      "learning_rate": 9.791686643712498e-06,
      "logits/chosen": 0.3640301525592804,
      "logits/rejected": 0.11707509309053421,
      "logps/chosen": -486.08709716796875,
      "logps/rejected": -430.9344787597656,
      "loss": 0.4856,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -0.09809544682502747,
      "rewards/margins": 0.7188686728477478,
      "rewards/rejected": -0.8169642090797424,
      "step": 864
    },
    {
      "epoch": 1.0796019900497513,
      "grad_norm": 3.0903241634368896,
      "learning_rate": 9.708381553094754e-06,
      "logits/chosen": 0.26261359453201294,
      "logits/rejected": 0.11373281478881836,
      "logps/chosen": -434.330078125,
      "logps/rejected": -389.1520080566406,
      "loss": 0.4558,
      "rewards/accuracies": 0.875,
      "rewards/chosen": 0.051621563732624054,
      "rewards/margins": 0.8995364904403687,
      "rewards/rejected": -0.84791499376297,
      "step": 868
    },
    {
      "epoch": 1.0845771144278606,
      "grad_norm": 3.3322811126708984,
      "learning_rate": 9.625096712686694e-06,
      "logits/chosen": 0.011679138988256454,
      "logits/rejected": 0.09790559113025665,
      "logps/chosen": -424.90777587890625,
      "logps/rejected": -438.1689758300781,
      "loss": 0.4516,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.2651669383049011,
      "rewards/margins": 0.9951549768447876,
      "rewards/rejected": -1.260321855545044,
      "step": 872
    },
    {
      "epoch": 1.0895522388059702,
      "grad_norm": 2.9339921474456787,
      "learning_rate": 9.541837905851817e-06,
      "logits/chosen": 0.047505155205726624,
      "logits/rejected": 0.039440758526325226,
      "logps/chosen": -442.19647216796875,
      "logps/rejected": -480.726318359375,
      "loss": 0.4718,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.05062495172023773,
      "rewards/margins": 0.8886253237724304,
      "rewards/rejected": -0.9392504096031189,
      "step": 876
    },
    {
      "epoch": 1.0945273631840795,
      "grad_norm": 3.0647056102752686,
      "learning_rate": 9.458610914145826e-06,
      "logits/chosen": 0.14126014709472656,
      "logits/rejected": 0.15012700855731964,
      "logps/chosen": -428.18438720703125,
      "logps/rejected": -441.0984191894531,
      "loss": 0.4385,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.17007280886173248,
      "rewards/margins": 0.8784099817276001,
      "rewards/rejected": -1.048482894897461,
      "step": 880
    },
    {
      "epoch": 1.099502487562189,
      "grad_norm": 2.8182191848754883,
      "learning_rate": 9.375421516915165e-06,
      "logits/chosen": 0.26013338565826416,
      "logits/rejected": 0.15596720576286316,
      "logps/chosen": -466.556396484375,
      "logps/rejected": -454.1954040527344,
      "loss": 0.4286,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.03595845773816109,
      "rewards/margins": 1.0611960887908936,
      "rewards/rejected": -1.0971544981002808,
      "step": 884
    },
    {
      "epoch": 1.1044776119402986,
      "grad_norm": 2.964768171310425,
      "learning_rate": 9.292275490895685e-06,
      "logits/chosen": 0.1450473666191101,
      "logits/rejected": 0.006217047572135925,
      "logps/chosen": -560.520751953125,
      "logps/rejected": -509.8658142089844,
      "loss": 0.4187,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.46229514479637146,
      "rewards/margins": 0.9188253283500671,
      "rewards/rejected": -1.3811204433441162,
      "step": 888
    },
    {
      "epoch": 1.109452736318408,
      "grad_norm": 3.2267932891845703,
      "learning_rate": 9.209178609811509e-06,
      "logits/chosen": 0.30923786759376526,
      "logits/rejected": 0.10800696909427643,
      "logps/chosen": -449.5932922363281,
      "logps/rejected": -435.5396423339844,
      "loss": 0.4548,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.5209077596664429,
      "rewards/margins": 0.8729082942008972,
      "rewards/rejected": -1.3938158750534058,
      "step": 892
    },
    {
      "epoch": 1.1144278606965174,
      "grad_norm": 3.159635066986084,
      "learning_rate": 9.126136643974094e-06,
      "logits/chosen": 0.03288649767637253,
      "logits/rejected": 0.00020163506269454956,
      "logps/chosen": -508.6898498535156,
      "logps/rejected": -505.1740417480469,
      "loss": 0.4825,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.6636922359466553,
      "rewards/margins": 0.842619776725769,
      "rewards/rejected": -1.5063120126724243,
      "step": 896
    },
    {
      "epoch": 1.1194029850746268,
      "grad_norm": 3.421736478805542,
      "learning_rate": 9.043155359881538e-06,
      "logits/chosen": 0.192546546459198,
      "logits/rejected": -0.08039741218090057,
      "logps/chosen": -563.0585327148438,
      "logps/rejected": -510.62469482421875,
      "loss": 0.47,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.5328125953674316,
      "rewards/margins": 0.9578996300697327,
      "rewards/rejected": -1.4907121658325195,
      "step": 900
    },
    {
      "epoch": 1.1194029850746268,
      "eval_logits/chosen": 0.11539439111948013,
      "eval_logits/rejected": -0.026901576668024063,
      "eval_logps/chosen": -458.8861083984375,
      "eval_logps/rejected": -422.9441223144531,
      "eval_loss": 0.6285870671272278,
      "eval_rewards/accuracies": 0.6597222089767456,
      "eval_rewards/chosen": -0.6589114665985107,
      "eval_rewards/margins": 0.4553508758544922,
      "eval_rewards/rejected": -1.114262342453003,
      "eval_runtime": 151.3253,
      "eval_samples_per_second": 7.553,
      "eval_steps_per_second": 0.238,
      "step": 900
    },
    {
      "epoch": 1.1243781094527363,
      "grad_norm": 3.3492910861968994,
      "learning_rate": 8.960240519818167e-06,
      "logits/chosen": 0.002382766455411911,
      "logits/rejected": 0.02159365639090538,
      "logps/chosen": -570.236328125,
      "logps/rejected": -555.9732666015625,
      "loss": 0.4746,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -0.7100229859352112,
      "rewards/margins": 0.716564953327179,
      "rewards/rejected": -1.4265879392623901,
      "step": 904
    },
    {
      "epoch": 1.1293532338308458,
      "grad_norm": 3.300537347793579,
      "learning_rate": 8.877397881454358e-06,
      "logits/chosen": 0.3528830409049988,
      "logits/rejected": 0.20602422952651978,
      "logps/chosen": -531.8645629882812,
      "logps/rejected": -465.4809265136719,
      "loss": 0.4532,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.6002427935600281,
      "rewards/margins": 0.8341575264930725,
      "rewards/rejected": -1.4344004392623901,
      "step": 908
    },
    {
      "epoch": 1.1343283582089552,
      "grad_norm": 3.9822070598602295,
      "learning_rate": 8.79463319744677e-06,
      "logits/chosen": -0.01692591980099678,
      "logits/rejected": -0.15085071325302124,
      "logps/chosen": -470.937744140625,
      "logps/rejected": -452.7400207519531,
      "loss": 0.4703,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.19091981649398804,
      "rewards/margins": 0.8660258054733276,
      "rewards/rejected": -1.0569454431533813,
      "step": 912
    },
    {
      "epoch": 1.1393034825870647,
      "grad_norm": 2.87620210647583,
      "learning_rate": 8.711952215038837e-06,
      "logits/chosen": 0.38492149114608765,
      "logits/rejected": 0.373988538980484,
      "logps/chosen": -454.4605407714844,
      "logps/rejected": -512.40966796875,
      "loss": 0.4653,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.19313852488994598,
      "rewards/margins": 0.8566547632217407,
      "rewards/rejected": -1.0497933626174927,
      "step": 916
    },
    {
      "epoch": 1.144278606965174,
      "grad_norm": 2.891087770462036,
      "learning_rate": 8.629360675661693e-06,
      "logits/chosen": 0.4491625130176544,
      "logits/rejected": 0.3486018776893616,
      "logps/chosen": -431.761474609375,
      "logps/rejected": -429.3786926269531,
      "loss": 0.4501,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.27446961402893066,
      "rewards/margins": 0.7661145329475403,
      "rewards/rejected": -1.0405840873718262,
      "step": 920
    },
    {
      "epoch": 1.1492537313432836,
      "grad_norm": 3.027414560317993,
      "learning_rate": 8.546864314535478e-06,
      "logits/chosen": 0.15871021151542664,
      "logits/rejected": 0.12511278688907623,
      "logps/chosen": -464.06573486328125,
      "logps/rejected": -463.8356018066406,
      "loss": 0.4435,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.32652032375335693,
      "rewards/margins": 0.6782144904136658,
      "rewards/rejected": -1.0047348737716675,
      "step": 924
    },
    {
      "epoch": 1.154228855721393,
      "grad_norm": 3.0336227416992188,
      "learning_rate": 8.464468860271084e-06,
      "logits/chosen": 0.05021004378795624,
      "logits/rejected": -0.06525184959173203,
      "logps/chosen": -471.3458557128906,
      "logps/rejected": -464.1771240234375,
      "loss": 0.4468,
      "rewards/accuracies": 0.890625,
      "rewards/chosen": 0.007861072197556496,
      "rewards/margins": 1.1992193460464478,
      "rewards/rejected": -1.191358208656311,
      "step": 928
    },
    {
      "epoch": 1.1592039800995024,
      "grad_norm": 3.0443830490112305,
      "learning_rate": 8.382180034472353e-06,
      "logits/chosen": 0.40720558166503906,
      "logits/rejected": 0.19039109349250793,
      "logps/chosen": -528.5640258789062,
      "logps/rejected": -479.5672302246094,
      "loss": 0.4447,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.19556114077568054,
      "rewards/margins": 0.9518004655838013,
      "rewards/rejected": -1.1473615169525146,
      "step": 932
    },
    {
      "epoch": 1.164179104477612,
      "grad_norm": 3.200226068496704,
      "learning_rate": 8.30000355133876e-06,
      "logits/chosen": 0.3259899318218231,
      "logits/rejected": 0.12083222717046738,
      "logps/chosen": -434.56243896484375,
      "logps/rejected": -426.33038330078125,
      "loss": 0.4644,
      "rewards/accuracies": 0.734375,
      "rewards/chosen": -0.26636868715286255,
      "rewards/margins": 0.7016679048538208,
      "rewards/rejected": -0.9680365920066833,
      "step": 936
    },
    {
      "epoch": 1.1691542288557213,
      "grad_norm": 3.3915629386901855,
      "learning_rate": 8.217945117268624e-06,
      "logits/chosen": -0.04203636944293976,
      "logits/rejected": 0.0748155415058136,
      "logps/chosen": -479.9148864746094,
      "logps/rejected": -463.1988220214844,
      "loss": 0.4677,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.46628129482269287,
      "rewards/margins": 0.8466652631759644,
      "rewards/rejected": -1.3129465579986572,
      "step": 940
    },
    {
      "epoch": 1.1741293532338308,
      "grad_norm": 4.10882043838501,
      "learning_rate": 8.136010430462837e-06,
      "logits/chosen": 0.14211219549179077,
      "logits/rejected": 0.05810711905360222,
      "logps/chosen": -468.7088317871094,
      "logps/rejected": -482.8578796386719,
      "loss": 0.435,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.2802658677101135,
      "rewards/margins": 1.0771757364273071,
      "rewards/rejected": -1.3574416637420654,
      "step": 944
    },
    {
      "epoch": 1.1791044776119404,
      "grad_norm": 2.790282726287842,
      "learning_rate": 8.0542051805292e-06,
      "logits/chosen": -0.11554953455924988,
      "logits/rejected": -0.208129420876503,
      "logps/chosen": -456.598876953125,
      "logps/rejected": -420.1100158691406,
      "loss": 0.4436,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.33638888597488403,
      "rewards/margins": 0.7983494400978088,
      "rewards/rejected": -1.1347384452819824,
      "step": 948
    },
    {
      "epoch": 1.1815920398009951,
      "eval_logits/chosen": 0.14645284414291382,
      "eval_logits/rejected": 0.006150411441922188,
      "eval_logps/chosen": -458.5403747558594,
      "eval_logps/rejected": -422.0716552734375,
      "eval_loss": 0.6252362132072449,
      "eval_rewards/accuracies": 0.6354166865348816,
      "eval_rewards/chosen": -0.6243360042572021,
      "eval_rewards/margins": 0.4026750922203064,
      "eval_rewards/rejected": -1.0270111560821533,
      "eval_runtime": 150.2224,
      "eval_samples_per_second": 7.609,
      "eval_steps_per_second": 0.24,
      "step": 950
    },
    {
      "epoch": 1.1840796019900497,
      "grad_norm": 2.771230697631836,
      "learning_rate": 7.9725350480873e-06,
      "logits/chosen": 0.3046668767929077,
      "logits/rejected": 0.17750529944896698,
      "logps/chosen": -487.18145751953125,
      "logps/rejected": -489.9942932128906,
      "loss": 0.4533,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.21156734228134155,
      "rewards/margins": 0.8424564599990845,
      "rewards/rejected": -1.0540237426757812,
      "step": 952
    },
    {
      "epoch": 1.1890547263681592,
      "grad_norm": 3.108633041381836,
      "learning_rate": 7.89100570437408e-06,
      "logits/chosen": 0.5195536017417908,
      "logits/rejected": 0.25093546509742737,
      "logps/chosen": -470.94891357421875,
      "logps/rejected": -412.3416748046875,
      "loss": 0.4549,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.2779660224914551,
      "rewards/margins": 0.7905957102775574,
      "rewards/rejected": -1.0685617923736572,
      "step": 956
    },
    {
      "epoch": 1.1940298507462686,
      "grad_norm": 3.2091431617736816,
      "learning_rate": 7.809622810849986e-06,
      "logits/chosen": 0.3036578595638275,
      "logits/rejected": 0.09663239121437073,
      "logps/chosen": -518.3139038085938,
      "logps/rejected": -491.35693359375,
      "loss": 0.4682,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.2721414566040039,
      "rewards/margins": 0.8471077084541321,
      "rewards/rejected": -1.1192492246627808,
      "step": 960
    },
    {
      "epoch": 1.199004975124378,
      "grad_norm": 3.8627357482910156,
      "learning_rate": 7.72839201880587e-06,
      "logits/chosen": 0.18529945611953735,
      "logits/rejected": 0.0777958407998085,
      "logps/chosen": -406.6213684082031,
      "logps/rejected": -376.0231628417969,
      "loss": 0.4521,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -0.16672272980213165,
      "rewards/margins": 0.8920981884002686,
      "rewards/rejected": -1.0588209629058838,
      "step": 964
    },
    {
      "epoch": 1.2039800995024876,
      "grad_norm": 3.3319764137268066,
      "learning_rate": 7.647318968970528e-06,
      "logits/chosen": 0.2665182650089264,
      "logits/rejected": 0.11450497806072235,
      "logps/chosen": -494.59991455078125,
      "logps/rejected": -406.59857177734375,
      "loss": 0.4512,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.35199272632598877,
      "rewards/margins": 0.6968194246292114,
      "rewards/rejected": -1.0488121509552002,
      "step": 968
    },
    {
      "epoch": 1.208955223880597,
      "grad_norm": 3.6332457065582275,
      "learning_rate": 7.566409291119008e-06,
      "logits/chosen": 0.16549383103847504,
      "logits/rejected": -0.042187366634607315,
      "logps/chosen": -411.47100830078125,
      "logps/rejected": -402.9810791015625,
      "loss": 0.4496,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.3397058844566345,
      "rewards/margins": 0.9274094700813293,
      "rewards/rejected": -1.2671154737472534,
      "step": 972
    },
    {
      "epoch": 1.2139303482587065,
      "grad_norm": 6.592203617095947,
      "learning_rate": 7.485668603681706e-06,
      "logits/chosen": 0.42461320757865906,
      "logits/rejected": 0.21914049983024597,
      "logps/chosen": -555.8026123046875,
      "logps/rejected": -517.2098388671875,
      "loss": 0.4522,
      "rewards/accuracies": 0.859375,
      "rewards/chosen": -0.5179316401481628,
      "rewards/margins": 0.991509735584259,
      "rewards/rejected": -1.5094413757324219,
      "step": 976
    },
    {
      "epoch": 1.2189054726368158,
      "grad_norm": 2.970505952835083,
      "learning_rate": 7.405102513354166e-06,
      "logits/chosen": 0.33260223269462585,
      "logits/rejected": 0.3816107511520386,
      "logps/chosen": -447.697509765625,
      "logps/rejected": -462.2044677734375,
      "loss": 0.4361,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.3011395037174225,
      "rewards/margins": 0.949279248714447,
      "rewards/rejected": -1.250418782234192,
      "step": 980
    },
    {
      "epoch": 1.2238805970149254,
      "grad_norm": 3.419555187225342,
      "learning_rate": 7.324716614707794e-06,
      "logits/chosen": 0.2947157025337219,
      "logits/rejected": 0.11895683407783508,
      "logps/chosen": -479.42059326171875,
      "logps/rejected": -443.11993408203125,
      "loss": 0.4681,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.37127968668937683,
      "rewards/margins": 0.907949686050415,
      "rewards/rejected": -1.2792294025421143,
      "step": 984
    },
    {
      "epoch": 1.228855721393035,
      "grad_norm": 3.920330286026001,
      "learning_rate": 7.2445164898013345e-06,
      "logits/chosen": 0.2471471130847931,
      "logits/rejected": 0.16002610325813293,
      "logps/chosen": -482.1630859375,
      "logps/rejected": -452.62213134765625,
      "loss": 0.4621,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.4815042316913605,
      "rewards/margins": 0.6901217699050903,
      "rewards/rejected": -1.171626091003418,
      "step": 988
    },
    {
      "epoch": 1.2338308457711442,
      "grad_norm": 3.4007022380828857,
      "learning_rate": 7.1645077077932666e-06,
      "logits/chosen": 0.13965100049972534,
      "logits/rejected": -0.005473073571920395,
      "logps/chosen": -492.3451843261719,
      "logps/rejected": -430.3792419433594,
      "loss": 0.4685,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -0.6226473450660706,
      "rewards/margins": 0.7819827795028687,
      "rewards/rejected": -1.404630184173584,
      "step": 992
    },
    {
      "epoch": 1.2388059701492538,
      "grad_norm": 3.3789188861846924,
      "learning_rate": 7.084695824555074e-06,
      "logits/chosen": 0.12412463128566742,
      "logits/rejected": -0.04749886691570282,
      "logps/chosen": -456.4656982421875,
      "logps/rejected": -449.3288269042969,
      "loss": 0.4596,
      "rewards/accuracies": 0.859375,
      "rewards/chosen": -0.37792813777923584,
      "rewards/margins": 0.9587810635566711,
      "rewards/rejected": -1.3367091417312622,
      "step": 996
    },
    {
      "epoch": 1.243781094527363,
      "grad_norm": 3.2594857215881348,
      "learning_rate": 7.005086382285426e-06,
      "logits/chosen": 0.19527438282966614,
      "logits/rejected": -0.04300277307629585,
      "logps/chosen": -524.0037841796875,
      "logps/rejected": -452.43988037109375,
      "loss": 0.4483,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.3103996217250824,
      "rewards/margins": 0.7246525883674622,
      "rewards/rejected": -1.0350522994995117,
      "step": 1000
    },
    {
      "epoch": 1.243781094527363,
      "eval_logits/chosen": 0.1812911480665207,
      "eval_logits/rejected": 0.043385788798332214,
      "eval_logps/chosen": -458.6221923828125,
      "eval_logps/rejected": -422.3155822753906,
      "eval_loss": 0.6238306164741516,
      "eval_rewards/accuracies": 0.6319444179534912,
      "eval_rewards/chosen": -0.6325181126594543,
      "eval_rewards/margins": 0.41889193654060364,
      "eval_rewards/rejected": -1.05141019821167,
      "eval_runtime": 150.5346,
      "eval_samples_per_second": 7.593,
      "eval_steps_per_second": 0.239,
      "step": 1000
    },
    {
      "epoch": 1.2487562189054726,
      "grad_norm": 3.286379098892212,
      "learning_rate": 6.925684909125354e-06,
      "logits/chosen": 0.3578662574291229,
      "logits/rejected": 0.16462884843349457,
      "logps/chosen": -489.2138366699219,
      "logps/rejected": -452.0278015136719,
      "loss": 0.4915,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.4701817035675049,
      "rewards/margins": 0.689208984375,
      "rewards/rejected": -1.1593906879425049,
      "step": 1004
    },
    {
      "epoch": 1.2537313432835822,
      "grad_norm": 3.4609503746032715,
      "learning_rate": 6.84649691877433e-06,
      "logits/chosen": 0.292858362197876,
      "logits/rejected": 0.3071328401565552,
      "logps/chosen": -498.725341796875,
      "logps/rejected": -514.9793701171875,
      "loss": 0.4504,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.3274274468421936,
      "rewards/margins": 0.735092282295227,
      "rewards/rejected": -1.0625197887420654,
      "step": 1008
    },
    {
      "epoch": 1.2587064676616915,
      "grad_norm": 4.149216175079346,
      "learning_rate": 6.767527910107437e-06,
      "logits/chosen": 0.41340234875679016,
      "logits/rejected": 0.23155152797698975,
      "logps/chosen": -589.994384765625,
      "logps/rejected": -512.817138671875,
      "loss": 0.4954,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.050317004323005676,
      "rewards/margins": 0.8621648550033569,
      "rewards/rejected": -0.9124818444252014,
      "step": 1012
    },
    {
      "epoch": 1.263681592039801,
      "grad_norm": 3.068629026412964,
      "learning_rate": 6.688783366793488e-06,
      "logits/chosen": 0.07183945924043655,
      "logits/rejected": 0.1859855055809021,
      "logps/chosen": -416.20281982421875,
      "logps/rejected": -504.38360595703125,
      "loss": 0.4373,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.47665709257125854,
      "rewards/margins": 1.1034715175628662,
      "rewards/rejected": -1.5801286697387695,
      "step": 1016
    },
    {
      "epoch": 1.2686567164179103,
      "grad_norm": 3.3486008644104004,
      "learning_rate": 6.610268756914254e-06,
      "logits/chosen": 0.2134770154953003,
      "logits/rejected": 0.20936183631420135,
      "logps/chosen": -456.9624328613281,
      "logps/rejected": -467.43695068359375,
      "loss": 0.4572,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -0.4169631004333496,
      "rewards/margins": 0.7615378499031067,
      "rewards/rejected": -1.1785008907318115,
      "step": 1020
    },
    {
      "epoch": 1.2736318407960199,
      "grad_norm": 2.8429603576660156,
      "learning_rate": 6.5319895325847535e-06,
      "logits/chosen": 0.37751051783561707,
      "logits/rejected": 0.24831168353557587,
      "logps/chosen": -482.39044189453125,
      "logps/rejected": -445.41131591796875,
      "loss": 0.4163,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.3370966613292694,
      "rewards/margins": 1.0583980083465576,
      "rewards/rejected": -1.3954945802688599,
      "step": 1024
    },
    {
      "epoch": 1.2786069651741294,
      "grad_norm": 3.422572374343872,
      "learning_rate": 6.453951129574644e-06,
      "logits/chosen": 0.09760095179080963,
      "logits/rejected": -0.02564432844519615,
      "logps/chosen": -478.0529479980469,
      "logps/rejected": -460.9502258300781,
      "loss": 0.49,
      "rewards/accuracies": 0.734375,
      "rewards/chosen": -0.4741438329219818,
      "rewards/margins": 0.7156703472137451,
      "rewards/rejected": -1.1898140907287598,
      "step": 1028
    },
    {
      "epoch": 1.2835820895522387,
      "grad_norm": 7.709662914276123,
      "learning_rate": 6.3761589669307745e-06,
      "logits/chosen": 0.2523835301399231,
      "logits/rejected": -0.018656061962246895,
      "logps/chosen": -464.8309326171875,
      "logps/rejected": -421.08831787109375,
      "loss": 0.4486,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.46211400628089905,
      "rewards/margins": 0.7744930982589722,
      "rewards/rejected": -1.2366070747375488,
      "step": 1032
    },
    {
      "epoch": 1.2885572139303483,
      "grad_norm": 3.1016786098480225,
      "learning_rate": 6.298618446600856e-06,
      "logits/chosen": 0.28200894594192505,
      "logits/rejected": 0.07383685559034348,
      "logps/chosen": -498.76904296875,
      "logps/rejected": -477.27203369140625,
      "loss": 0.4219,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.26558923721313477,
      "rewards/margins": 1.0237658023834229,
      "rewards/rejected": -1.2893550395965576,
      "step": 1036
    },
    {
      "epoch": 1.2935323383084576,
      "grad_norm": 3.2327277660369873,
      "learning_rate": 6.221334953058389e-06,
      "logits/chosen": 0.15867388248443604,
      "logits/rejected": 0.08303281664848328,
      "logps/chosen": -409.2590026855469,
      "logps/rejected": -455.77191162109375,
      "loss": 0.4991,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.4104706346988678,
      "rewards/margins": 0.7841976881027222,
      "rewards/rejected": -1.1946682929992676,
      "step": 1040
    },
    {
      "epoch": 1.2985074626865671,
      "grad_norm": 3.339369058609009,
      "learning_rate": 6.144313852928712e-06,
      "logits/chosen": -0.03164299577474594,
      "logits/rejected": -0.07064341753721237,
      "logps/chosen": -476.3907470703125,
      "logps/rejected": -485.3206787109375,
      "loss": 0.4807,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.3814237713813782,
      "rewards/margins": 0.6672918796539307,
      "rewards/rejected": -1.048715591430664,
      "step": 1044
    },
    {
      "epoch": 1.3034825870646767,
      "grad_norm": 3.5485079288482666,
      "learning_rate": 6.067560494616374e-06,
      "logits/chosen": 0.07933502644300461,
      "logits/rejected": -0.09825630486011505,
      "logps/chosen": -476.7882080078125,
      "logps/rejected": -423.75634765625,
      "loss": 0.4568,
      "rewards/accuracies": 0.859375,
      "rewards/chosen": -0.4646296203136444,
      "rewards/margins": 0.9645313620567322,
      "rewards/rejected": -1.4291609525680542,
      "step": 1048
    },
    {
      "epoch": 1.3059701492537314,
      "eval_logits/chosen": 0.2900795340538025,
      "eval_logits/rejected": 0.1563159078359604,
      "eval_logps/chosen": -461.8538818359375,
      "eval_logps/rejected": -425.2582702636719,
      "eval_loss": 0.6297169923782349,
      "eval_rewards/accuracies": 0.6284722089767456,
      "eval_rewards/chosen": -0.9556920528411865,
      "eval_rewards/margins": 0.38998663425445557,
      "eval_rewards/rejected": -1.3456788063049316,
      "eval_runtime": 150.3263,
      "eval_samples_per_second": 7.603,
      "eval_steps_per_second": 0.239,
      "step": 1050
    },
    {
      "epoch": 1.308457711442786,
      "grad_norm": 3.0293073654174805,
      "learning_rate": 5.9910802079337285e-06,
      "logits/chosen": 0.6111765503883362,
      "logits/rejected": 0.5151335000991821,
      "logps/chosen": -502.5360412597656,
      "logps/rejected": -504.69293212890625,
      "loss": 0.4666,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.5117080807685852,
      "rewards/margins": 0.8272175788879395,
      "rewards/rejected": -1.338925838470459,
      "step": 1052
    },
    {
      "epoch": 1.3134328358208955,
      "grad_norm": 3.2000210285186768,
      "learning_rate": 5.9148783037308154e-06,
      "logits/chosen": 0.513329029083252,
      "logits/rejected": 0.3263680338859558,
      "logps/chosen": -450.2699890136719,
      "logps/rejected": -474.0347900390625,
      "loss": 0.4315,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.664053201675415,
      "rewards/margins": 0.9260993003845215,
      "rewards/rejected": -1.5901525020599365,
      "step": 1056
    },
    {
      "epoch": 1.3184079601990049,
      "grad_norm": 3.6587066650390625,
      "learning_rate": 5.838960073526589e-06,
      "logits/chosen": 0.306156724691391,
      "logits/rejected": 0.25492236018180847,
      "logps/chosen": -410.9796142578125,
      "logps/rejected": -433.6587829589844,
      "loss": 0.45,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.671193540096283,
      "rewards/margins": 0.6943222880363464,
      "rewards/rejected": -1.365515947341919,
      "step": 1060
    },
    {
      "epoch": 1.3233830845771144,
      "grad_norm": 3.327662706375122,
      "learning_rate": 5.763330789141457e-06,
      "logits/chosen": 0.48469293117523193,
      "logits/rejected": 0.19550618529319763,
      "logps/chosen": -453.54766845703125,
      "logps/rejected": -384.0401611328125,
      "loss": 0.4744,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.7684299945831299,
      "rewards/margins": 0.6500393152236938,
      "rewards/rejected": -1.4184694290161133,
      "step": 1064
    },
    {
      "epoch": 1.328358208955224,
      "grad_norm": 3.2267775535583496,
      "learning_rate": 5.687995702331211e-06,
      "logits/chosen": 0.2688726484775543,
      "logits/rejected": -0.08813167363405228,
      "logps/chosen": -501.2934265136719,
      "logps/rejected": -409.6513671875,
      "loss": 0.4722,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.40029340982437134,
      "rewards/margins": 1.1426159143447876,
      "rewards/rejected": -1.5429092645645142,
      "step": 1068
    },
    {
      "epoch": 1.3333333333333333,
      "grad_norm": 2.840391159057617,
      "learning_rate": 5.612960044422335e-06,
      "logits/chosen": 0.149551659822464,
      "logits/rejected": 0.09185415506362915,
      "logps/chosen": -478.0235290527344,
      "logps/rejected": -465.431640625,
      "loss": 0.4435,
      "rewards/accuracies": 0.90625,
      "rewards/chosen": -0.33660268783569336,
      "rewards/margins": 0.9488120079040527,
      "rewards/rejected": -1.2854145765304565,
      "step": 1072
    },
    {
      "epoch": 1.3383084577114428,
      "grad_norm": 5.434293270111084,
      "learning_rate": 5.538229025948729e-06,
      "logits/chosen": 0.27715224027633667,
      "logits/rejected": 0.15390388667583466,
      "logps/chosen": -462.994873046875,
      "logps/rejected": -443.705322265625,
      "loss": 0.4547,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -0.3295069932937622,
      "rewards/margins": 0.7583127617835999,
      "rewards/rejected": -1.0878196954727173,
      "step": 1076
    },
    {
      "epoch": 1.3432835820895521,
      "grad_norm": 2.998685121536255,
      "learning_rate": 5.463807836289921e-06,
      "logits/chosen": 0.21240472793579102,
      "logits/rejected": 0.08427554368972778,
      "logps/chosen": -515.3600463867188,
      "logps/rejected": -489.23199462890625,
      "loss": 0.4714,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.37038007378578186,
      "rewards/margins": 0.8079636693000793,
      "rewards/rejected": -1.1783437728881836,
      "step": 1080
    },
    {
      "epoch": 1.3482587064676617,
      "grad_norm": 3.10492205619812,
      "learning_rate": 5.389701643310661e-06,
      "logits/chosen": 0.025207914412021637,
      "logits/rejected": -0.02044026553630829,
      "logps/chosen": -456.87506103515625,
      "logps/rejected": -439.67376708984375,
      "loss": 0.4703,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.6905679106712341,
      "rewards/margins": 0.7245473861694336,
      "rewards/rejected": -1.4151153564453125,
      "step": 1084
    },
    {
      "epoch": 1.3532338308457712,
      "grad_norm": 3.226285934448242,
      "learning_rate": 5.3159155930021e-06,
      "logits/chosen": 0.3893488645553589,
      "logits/rejected": 0.08346641063690186,
      "logps/chosen": -531.7063598632812,
      "logps/rejected": -439.24896240234375,
      "loss": 0.4655,
      "rewards/accuracies": 0.890625,
      "rewards/chosen": -0.45566755533218384,
      "rewards/margins": 0.9592388868331909,
      "rewards/rejected": -1.4149065017700195,
      "step": 1088
    },
    {
      "epoch": 1.3582089552238805,
      "grad_norm": 3.0475516319274902,
      "learning_rate": 5.2424548091244334e-06,
      "logits/chosen": 0.2637353539466858,
      "logits/rejected": 0.1712309867143631,
      "logps/chosen": -587.0075073242188,
      "logps/rejected": -532.0603637695312,
      "loss": 0.4242,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.4887734055519104,
      "rewards/margins": 0.7975496053695679,
      "rewards/rejected": -1.286323070526123,
      "step": 1092
    },
    {
      "epoch": 1.36318407960199,
      "grad_norm": 3.3424243927001953,
      "learning_rate": 5.169324392851105e-06,
      "logits/chosen": 0.08936847001314163,
      "logits/rejected": 0.15995635092258453,
      "logps/chosen": -441.9477233886719,
      "logps/rejected": -479.75811767578125,
      "loss": 0.4372,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.15634143352508545,
      "rewards/margins": 0.9987101554870605,
      "rewards/rejected": -1.155051589012146,
      "step": 1096
    },
    {
      "epoch": 1.3681592039800994,
      "grad_norm": 3.5509424209594727,
      "learning_rate": 5.096529422414571e-06,
      "logits/chosen": 0.23796138167381287,
      "logits/rejected": 0.1327465921640396,
      "logps/chosen": -397.3380126953125,
      "logps/rejected": -398.999755859375,
      "loss": 0.4555,
      "rewards/accuracies": 0.765625,
      "rewards/chosen": -0.27862298488616943,
      "rewards/margins": 0.8094170093536377,
      "rewards/rejected": -1.0880398750305176,
      "step": 1100
    },
    {
      "epoch": 1.3681592039800994,
      "eval_logits/chosen": 0.2271488755941391,
      "eval_logits/rejected": 0.09045371413230896,
      "eval_logps/chosen": -458.12158203125,
      "eval_logps/rejected": -421.81396484375,
      "eval_loss": 0.6310929656028748,
      "eval_rewards/accuracies": 0.6319444179534912,
      "eval_rewards/chosen": -0.5824543833732605,
      "eval_rewards/margins": 0.4187923073768616,
      "eval_rewards/rejected": -1.001246690750122,
      "eval_runtime": 150.3083,
      "eval_samples_per_second": 7.604,
      "eval_steps_per_second": 0.24,
      "step": 1100
    },
    {
      "epoch": 1.373134328358209,
      "grad_norm": 3.0843594074249268,
      "learning_rate": 5.0240749527536845e-06,
      "logits/chosen": 0.34869927167892456,
      "logits/rejected": 0.4646757245063782,
      "logps/chosen": -461.98406982421875,
      "logps/rejected": -484.62005615234375,
      "loss": 0.4463,
      "rewards/accuracies": 0.734375,
      "rewards/chosen": -0.35243409872055054,
      "rewards/margins": 0.8469762206077576,
      "rewards/rejected": -1.199410319328308,
      "step": 1104
    },
    {
      "epoch": 1.3781094527363185,
      "grad_norm": 3.259739637374878,
      "learning_rate": 4.951966015162652e-06,
      "logits/chosen": 0.2850785255432129,
      "logits/rejected": 0.18751974403858185,
      "logps/chosen": -446.40777587890625,
      "logps/rejected": -452.7511291503906,
      "loss": 0.4905,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.5133770108222961,
      "rewards/margins": 0.7468600273132324,
      "rewards/rejected": -1.2602368593215942,
      "step": 1108
    },
    {
      "epoch": 1.3830845771144278,
      "grad_norm": 3.8932905197143555,
      "learning_rate": 4.880207616941663e-06,
      "logits/chosen": 0.12189581990242004,
      "logits/rejected": -0.021296532824635506,
      "logps/chosen": -558.7091674804688,
      "logps/rejected": -541.033203125,
      "loss": 0.4628,
      "rewards/accuracies": 0.734375,
      "rewards/chosen": -0.5688372254371643,
      "rewards/margins": 0.9365439414978027,
      "rewards/rejected": -1.5053812265396118,
      "step": 1112
    },
    {
      "epoch": 1.3880597014925373,
      "grad_norm": 3.545090913772583,
      "learning_rate": 4.8088047410492e-06,
      "logits/chosen": 0.388312965631485,
      "logits/rejected": 0.4156542122364044,
      "logps/chosen": -481.10894775390625,
      "logps/rejected": -492.54351806640625,
      "loss": 0.4705,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.45832952857017517,
      "rewards/margins": 0.7087246179580688,
      "rewards/rejected": -1.1670540571212769,
      "step": 1116
    },
    {
      "epoch": 1.3930348258706466,
      "grad_norm": 6.003669738769531,
      "learning_rate": 4.737762345755975e-06,
      "logits/chosen": 0.4008483588695526,
      "logits/rejected": 0.18298931419849396,
      "logps/chosen": -427.1964111328125,
      "logps/rejected": -415.52569580078125,
      "loss": 0.4845,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.3898906111717224,
      "rewards/margins": 0.851486086845398,
      "rewards/rejected": -1.2413768768310547,
      "step": 1120
    },
    {
      "epoch": 1.3980099502487562,
      "grad_norm": 3.3979361057281494,
      "learning_rate": 4.667085364300678e-06,
      "logits/chosen": 0.2219407558441162,
      "logits/rejected": 0.34066152572631836,
      "logps/chosen": -412.3261413574219,
      "logps/rejected": -455.014404296875,
      "loss": 0.4715,
      "rewards/accuracies": 0.640625,
      "rewards/chosen": -0.659538745880127,
      "rewards/margins": 0.5176219344139099,
      "rewards/rejected": -1.1771607398986816,
      "step": 1124
    },
    {
      "epoch": 1.4029850746268657,
      "grad_norm": 3.4212944507598877,
      "learning_rate": 4.596778704547359e-06,
      "logits/chosen": 0.26894667744636536,
      "logits/rejected": 0.4513319134712219,
      "logps/chosen": -422.888916015625,
      "logps/rejected": -494.77490234375,
      "loss": 0.4455,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.5094490647315979,
      "rewards/margins": 0.8285016417503357,
      "rewards/rejected": -1.3379508256912231,
      "step": 1128
    },
    {
      "epoch": 1.407960199004975,
      "grad_norm": 3.561112403869629,
      "learning_rate": 4.526847248644652e-06,
      "logits/chosen": 0.4178231358528137,
      "logits/rejected": 0.2783817648887634,
      "logps/chosen": -483.21710205078125,
      "logps/rejected": -457.58880615234375,
      "loss": 0.4657,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.2329222410917282,
      "rewards/margins": 0.928954005241394,
      "rewards/rejected": -1.1618762016296387,
      "step": 1132
    },
    {
      "epoch": 1.4129353233830846,
      "grad_norm": 2.9117441177368164,
      "learning_rate": 4.457295852686746e-06,
      "logits/chosen": 0.0378599688410759,
      "logits/rejected": -0.03257442265748978,
      "logps/chosen": -457.05810546875,
      "logps/rejected": -469.375244140625,
      "loss": 0.4197,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.36898645758628845,
      "rewards/margins": 0.7519980072975159,
      "rewards/rejected": -1.120984435081482,
      "step": 1136
    },
    {
      "epoch": 1.417910447761194,
      "grad_norm": 2.848207950592041,
      "learning_rate": 4.388129346376177e-06,
      "logits/chosen": 0.286159873008728,
      "logits/rejected": 0.172444686293602,
      "logps/chosen": -449.7042541503906,
      "logps/rejected": -421.1620178222656,
      "loss": 0.4734,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.26226454973220825,
      "rewards/margins": 0.8386867046356201,
      "rewards/rejected": -1.1009511947631836,
      "step": 1140
    },
    {
      "epoch": 1.4228855721393034,
      "grad_norm": 3.3167192935943604,
      "learning_rate": 4.319352532688444e-06,
      "logits/chosen": 0.5666424632072449,
      "logits/rejected": 0.4337669014930725,
      "logps/chosen": -525.3414306640625,
      "logps/rejected": -470.1195373535156,
      "loss": 0.4637,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.21915507316589355,
      "rewards/margins": 0.6568694114685059,
      "rewards/rejected": -0.8760244250297546,
      "step": 1144
    },
    {
      "epoch": 1.427860696517413,
      "grad_norm": 3.3861823081970215,
      "learning_rate": 4.250970187538484e-06,
      "logits/chosen": 0.5643165707588196,
      "logits/rejected": 0.32966622710227966,
      "logps/chosen": -515.8458251953125,
      "logps/rejected": -457.2875061035156,
      "loss": 0.4744,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.32475122809410095,
      "rewards/margins": 0.6942940950393677,
      "rewards/rejected": -1.0190452337265015,
      "step": 1148
    },
    {
      "epoch": 1.4303482587064678,
      "eval_logits/chosen": 0.1860918253660202,
      "eval_logits/rejected": 0.04717594385147095,
      "eval_logps/chosen": -457.6623229980469,
      "eval_logps/rejected": -421.17510986328125,
      "eval_loss": 0.6247898936271667,
      "eval_rewards/accuracies": 0.6423611044883728,
      "eval_rewards/chosen": -0.5365298390388489,
      "eval_rewards/margins": 0.40083229541778564,
      "eval_rewards/rejected": -0.9373621344566345,
      "eval_runtime": 150.2353,
      "eval_samples_per_second": 7.608,
      "eval_steps_per_second": 0.24,
      "step": 1150
    },
    {
      "epoch": 1.4328358208955223,
      "grad_norm": 3.2325477600097656,
      "learning_rate": 4.182987059449056e-06,
      "logits/chosen": 0.7428713440895081,
      "logits/rejected": 0.5120058059692383,
      "logps/chosen": -538.3825073242188,
      "logps/rejected": -495.9022521972656,
      "loss": 0.4357,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.06033702194690704,
      "rewards/margins": 0.8632436990737915,
      "rewards/rejected": -0.9235806465148926,
      "step": 1152
    },
    {
      "epoch": 1.4378109452736318,
      "grad_norm": 3.037522554397583,
      "learning_rate": 4.115407869220948e-06,
      "logits/chosen": 0.14752769470214844,
      "logits/rejected": 0.11974264681339264,
      "logps/chosen": -451.0633544921875,
      "logps/rejected": -483.72320556640625,
      "loss": 0.4238,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.340376079082489,
      "rewards/margins": 0.8940660953521729,
      "rewards/rejected": -1.2344422340393066,
      "step": 1156
    },
    {
      "epoch": 1.4427860696517412,
      "grad_norm": 3.1680057048797607,
      "learning_rate": 4.048237309605216e-06,
      "logits/chosen": 0.09094828367233276,
      "logits/rejected": 0.04780995845794678,
      "logps/chosen": -484.3055725097656,
      "logps/rejected": -510.98077392578125,
      "loss": 0.4296,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.12246174365282059,
      "rewards/margins": 0.9445063471794128,
      "rewards/rejected": -1.0669679641723633,
      "step": 1160
    },
    {
      "epoch": 1.4477611940298507,
      "grad_norm": 3.2691431045532227,
      "learning_rate": 3.981480044977284e-06,
      "logits/chosen": 0.40636903047561646,
      "logits/rejected": 0.1688281148672104,
      "logps/chosen": -479.45855712890625,
      "logps/rejected": -447.90863037109375,
      "loss": 0.4313,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.18339478969573975,
      "rewards/margins": 0.978028416633606,
      "rewards/rejected": -1.1614230871200562,
      "step": 1164
    },
    {
      "epoch": 1.4527363184079602,
      "grad_norm": 4.486429691314697,
      "learning_rate": 3.915140711013044e-06,
      "logits/chosen": 0.27190345525741577,
      "logits/rejected": -0.040328770875930786,
      "logps/chosen": -491.3775634765625,
      "logps/rejected": -391.1009521484375,
      "loss": 0.4203,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.08996576815843582,
      "rewards/margins": 0.9748902916908264,
      "rewards/rejected": -1.064855933189392,
      "step": 1168
    },
    {
      "epoch": 1.4577114427860698,
      "grad_norm": 3.12208890914917,
      "learning_rate": 3.849223914366981e-06,
      "logits/chosen": 0.47814592719078064,
      "logits/rejected": 0.34353479743003845,
      "logps/chosen": -412.7701110839844,
      "logps/rejected": -392.3418884277344,
      "loss": 0.4408,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.47262948751449585,
      "rewards/margins": 0.8124217987060547,
      "rewards/rejected": -1.2850513458251953,
      "step": 1172
    },
    {
      "epoch": 1.462686567164179,
      "grad_norm": 3.506924629211426,
      "learning_rate": 3.7837342323522454e-06,
      "logits/chosen": 0.21991969645023346,
      "logits/rejected": 0.07681813836097717,
      "logps/chosen": -441.36126708984375,
      "logps/rejected": -480.6995849609375,
      "loss": 0.4859,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.3392900824546814,
      "rewards/margins": 0.7776792645454407,
      "rewards/rejected": -1.116969347000122,
      "step": 1176
    },
    {
      "epoch": 1.4676616915422884,
      "grad_norm": 3.4964208602905273,
      "learning_rate": 3.7186762126228227e-06,
      "logits/chosen": 0.22460336983203888,
      "logits/rejected": 0.20655813813209534,
      "logps/chosen": -462.06292724609375,
      "logps/rejected": -461.53619384765625,
      "loss": 0.4446,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.4264296293258667,
      "rewards/margins": 0.894850492477417,
      "rewards/rejected": -1.3212801218032837,
      "step": 1180
    },
    {
      "epoch": 1.472636815920398,
      "grad_norm": 3.5613043308258057,
      "learning_rate": 3.654054372857738e-06,
      "logits/chosen": 0.5799933075904846,
      "logits/rejected": 0.6048757433891296,
      "logps/chosen": -396.9797058105469,
      "logps/rejected": -425.9620361328125,
      "loss": 0.4914,
      "rewards/accuracies": 0.765625,
      "rewards/chosen": -0.5064554810523987,
      "rewards/margins": 0.8282725214958191,
      "rewards/rejected": -1.3347280025482178,
      "step": 1184
    },
    {
      "epoch": 1.4776119402985075,
      "grad_norm": 3.3799402713775635,
      "learning_rate": 3.5898732004473523e-06,
      "logits/chosen": 0.12272289395332336,
      "logits/rejected": 0.06375124305486679,
      "logps/chosen": -490.4371337890625,
      "logps/rejected": -490.0047607421875,
      "loss": 0.4499,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.523765504360199,
      "rewards/margins": 0.788061261177063,
      "rewards/rejected": -1.3118268251419067,
      "step": 1188
    },
    {
      "epoch": 1.482587064676617,
      "grad_norm": 3.9501986503601074,
      "learning_rate": 3.5261371521817247e-06,
      "logits/chosen": 0.410488486289978,
      "logits/rejected": 0.24566176533699036,
      "logps/chosen": -488.9652099609375,
      "logps/rejected": -474.0276794433594,
      "loss": 0.481,
      "rewards/accuracies": 0.859375,
      "rewards/chosen": -0.2862902283668518,
      "rewards/margins": 0.930047869682312,
      "rewards/rejected": -1.216338038444519,
      "step": 1192
    },
    {
      "epoch": 1.4875621890547264,
      "grad_norm": 3.150517702102661,
      "learning_rate": 3.462850653941171e-06,
      "logits/chosen": 0.478097140789032,
      "logits/rejected": 0.35722148418426514,
      "logps/chosen": -488.7939453125,
      "logps/rejected": -501.26995849609375,
      "loss": 0.441,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.44928714632987976,
      "rewards/margins": 1.0384962558746338,
      "rewards/rejected": -1.487783432006836,
      "step": 1196
    },
    {
      "epoch": 1.4925373134328357,
      "grad_norm": 3.1727919578552246,
      "learning_rate": 3.4000181003889e-06,
      "logits/chosen": 0.5604240298271179,
      "logits/rejected": 0.5023808479309082,
      "logps/chosen": -495.4609069824219,
      "logps/rejected": -486.8149108886719,
      "loss": 0.4245,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.5019670128822327,
      "rewards/margins": 0.7741233110427856,
      "rewards/rejected": -1.276090383529663,
      "step": 1200
    },
    {
      "epoch": 1.4925373134328357,
      "eval_logits/chosen": 0.0996675118803978,
      "eval_logits/rejected": -0.04232680797576904,
      "eval_logps/chosen": -458.75396728515625,
      "eval_logps/rejected": -422.38055419921875,
      "eval_loss": 0.625542402267456,
      "eval_rewards/accuracies": 0.6423611044883728,
      "eval_rewards/chosen": -0.6456986665725708,
      "eval_rewards/margins": 0.4122096002101898,
      "eval_rewards/rejected": -1.057908296585083,
      "eval_runtime": 150.4735,
      "eval_samples_per_second": 7.596,
      "eval_steps_per_second": 0.239,
      "step": 1200
    },
    {
      "epoch": 1.4975124378109452,
      "grad_norm": 3.5961523056030273,
      "learning_rate": 3.337643854665843e-06,
      "logits/chosen": 0.24791333079338074,
      "logits/rejected": 0.09919527173042297,
      "logps/chosen": -472.2637939453125,
      "logps/rejected": -468.1837463378906,
      "loss": 0.4725,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.3583456873893738,
      "rewards/margins": 0.6298627853393555,
      "rewards/rejected": -0.988208532333374,
      "step": 1204
    },
    {
      "epoch": 1.5024875621890548,
      "grad_norm": 3.5279345512390137,
      "learning_rate": 3.2757322480876996e-06,
      "logits/chosen": 0.5340238213539124,
      "logits/rejected": 0.27070313692092896,
      "logps/chosen": -559.6838989257812,
      "logps/rejected": -504.8668212890625,
      "loss": 0.4544,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.36284855008125305,
      "rewards/margins": 0.9084014892578125,
      "rewards/rejected": -1.2712500095367432,
      "step": 1208
    },
    {
      "epoch": 1.5074626865671643,
      "grad_norm": 3.2980010509490967,
      "learning_rate": 3.2142875798441376e-06,
      "logits/chosen": 0.4306156635284424,
      "logits/rejected": 0.39325863122940063,
      "logps/chosen": -497.91082763671875,
      "logps/rejected": -504.37799072265625,
      "loss": 0.4623,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -0.36765068769454956,
      "rewards/margins": 0.9293129444122314,
      "rewards/rejected": -1.2969635725021362,
      "step": 1212
    },
    {
      "epoch": 1.5124378109452736,
      "grad_norm": 3.0862483978271484,
      "learning_rate": 3.15331411670027e-06,
      "logits/chosen": 0.3046882450580597,
      "logits/rejected": 0.16192057728767395,
      "logps/chosen": -494.2255859375,
      "logps/rejected": -420.78521728515625,
      "loss": 0.4428,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -0.43021082878112793,
      "rewards/margins": 0.6426270008087158,
      "rewards/rejected": -1.0728377103805542,
      "step": 1216
    },
    {
      "epoch": 1.517412935323383,
      "grad_norm": 3.462331533432007,
      "learning_rate": 3.092816092700366e-06,
      "logits/chosen": 0.5411734580993652,
      "logits/rejected": 0.49231088161468506,
      "logps/chosen": -453.7169189453125,
      "logps/rejected": -449.0989990234375,
      "loss": 0.4454,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.22313016653060913,
      "rewards/margins": 0.8612147569656372,
      "rewards/rejected": -1.0843448638916016,
      "step": 1220
    },
    {
      "epoch": 1.5223880597014925,
      "grad_norm": 3.7653286457061768,
      "learning_rate": 3.032797708873828e-06,
      "logits/chosen": 0.11857330799102783,
      "logits/rejected": 0.07505325227975845,
      "logps/chosen": -410.9967956542969,
      "logps/rejected": -394.2019348144531,
      "loss": 0.4583,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.18447177112102509,
      "rewards/margins": 0.8445629477500916,
      "rewards/rejected": -1.0290347337722778,
      "step": 1224
    },
    {
      "epoch": 1.527363184079602,
      "grad_norm": 3.707679033279419,
      "learning_rate": 2.97326313294349e-06,
      "logits/chosen": 0.40369507670402527,
      "logits/rejected": 0.31983357667922974,
      "logps/chosen": -493.98748779296875,
      "logps/rejected": -492.9511413574219,
      "loss": 0.4529,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.09158361703157425,
      "rewards/margins": 0.8120929598808289,
      "rewards/rejected": -0.9036765694618225,
      "step": 1228
    },
    {
      "epoch": 1.5323383084577116,
      "grad_norm": 3.2079174518585205,
      "learning_rate": 2.914216499036178e-06,
      "logits/chosen": 0.25405532121658325,
      "logits/rejected": 0.0883391723036766,
      "logps/chosen": -499.791259765625,
      "logps/rejected": -481.15985107421875,
      "loss": 0.4596,
      "rewards/accuracies": 0.859375,
      "rewards/chosen": -0.11543658375740051,
      "rewards/margins": 0.9941234588623047,
      "rewards/rejected": -1.1095600128173828,
      "step": 1232
    },
    {
      "epoch": 1.537313432835821,
      "grad_norm": 2.983884811401367,
      "learning_rate": 2.855661907395655e-06,
      "logits/chosen": 0.03389931470155716,
      "logits/rejected": -0.021514683961868286,
      "logps/chosen": -491.31011962890625,
      "logps/rejected": -476.60400390625,
      "loss": 0.426,
      "rewards/accuracies": 0.765625,
      "rewards/chosen": -0.34667280316352844,
      "rewards/margins": 0.7871711850166321,
      "rewards/rejected": -1.133844017982483,
      "step": 1236
    },
    {
      "epoch": 1.5422885572139302,
      "grad_norm": 3.2897229194641113,
      "learning_rate": 2.7976034240978834e-06,
      "logits/chosen": 0.2967681884765625,
      "logits/rejected": 0.21248680353164673,
      "logps/chosen": -450.992431640625,
      "logps/rejected": -448.6529541015625,
      "loss": 0.4541,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.4360540509223938,
      "rewards/margins": 0.8572646379470825,
      "rewards/rejected": -1.2933186292648315,
      "step": 1240
    },
    {
      "epoch": 1.5472636815920398,
      "grad_norm": 3.180680990219116,
      "learning_rate": 2.740045080768694e-06,
      "logits/chosen": 0.18130186200141907,
      "logits/rejected": 0.08365779370069504,
      "logps/chosen": -490.65093994140625,
      "logps/rejected": -455.1732482910156,
      "loss": 0.4406,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.30239832401275635,
      "rewards/margins": 1.023730993270874,
      "rewards/rejected": -1.3261293172836304,
      "step": 1244
    },
    {
      "epoch": 1.5522388059701493,
      "grad_norm": 3.139068841934204,
      "learning_rate": 2.6829908743037936e-06,
      "logits/chosen": 0.09111860394477844,
      "logits/rejected": 0.002367449924349785,
      "logps/chosen": -452.03741455078125,
      "logps/rejected": -420.84130859375,
      "loss": 0.4767,
      "rewards/accuracies": 0.765625,
      "rewards/chosen": -0.44431072473526,
      "rewards/margins": 0.6989957690238953,
      "rewards/rejected": -1.1433064937591553,
      "step": 1248
    },
    {
      "epoch": 1.554726368159204,
      "eval_logits/chosen": 0.2652171850204468,
      "eval_logits/rejected": 0.12997165322303772,
      "eval_logps/chosen": -459.63043212890625,
      "eval_logps/rejected": -423.3202209472656,
      "eval_loss": 0.629449188709259,
      "eval_rewards/accuracies": 0.6319444179534912,
      "eval_rewards/chosen": -0.733344554901123,
      "eval_rewards/margins": 0.41853055357933044,
      "eval_rewards/rejected": -1.1518750190734863,
      "eval_runtime": 149.9641,
      "eval_samples_per_second": 7.622,
      "eval_steps_per_second": 0.24,
      "step": 1250
    },
    {
      "epoch": 1.5572139303482588,
      "grad_norm": 2.9897727966308594,
      "learning_rate": 2.626444766591253e-06,
      "logits/chosen": 0.2800312340259552,
      "logits/rejected": 0.3279171586036682,
      "logps/chosen": -443.030517578125,
      "logps/rejected": -504.1892395019531,
      "loss": 0.4307,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -0.6528493762016296,
      "rewards/margins": 0.8220282793045044,
      "rewards/rejected": -1.4748777151107788,
      "step": 1252
    },
    {
      "epoch": 1.5621890547263682,
      "grad_norm": 3.8915977478027344,
      "learning_rate": 2.570410684236365e-06,
      "logits/chosen": 0.422254741191864,
      "logits/rejected": 0.20921355485916138,
      "logps/chosen": -451.8226318359375,
      "logps/rejected": -409.6569519042969,
      "loss": 0.4575,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -0.5334627628326416,
      "rewards/margins": 0.7321829199790955,
      "rewards/rejected": -1.2656457424163818,
      "step": 1256
    },
    {
      "epoch": 1.5671641791044775,
      "grad_norm": 3.2011289596557617,
      "learning_rate": 2.514892518288988e-06,
      "logits/chosen": 0.2908586859703064,
      "logits/rejected": 0.2285086065530777,
      "logps/chosen": -540.8156127929688,
      "logps/rejected": -594.375244140625,
      "loss": 0.4278,
      "rewards/accuracies": 0.890625,
      "rewards/chosen": -0.4963512718677521,
      "rewards/margins": 1.1527037620544434,
      "rewards/rejected": -1.6490551233291626,
      "step": 1260
    },
    {
      "epoch": 1.572139303482587,
      "grad_norm": 3.1737494468688965,
      "learning_rate": 2.4598941239733555e-06,
      "logits/chosen": 0.3123033046722412,
      "logits/rejected": 0.09384813904762268,
      "logps/chosen": -506.7591552734375,
      "logps/rejected": -445.96966552734375,
      "loss": 0.4576,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.5109487771987915,
      "rewards/margins": 0.6419615745544434,
      "rewards/rejected": -1.1529103517532349,
      "step": 1264
    },
    {
      "epoch": 1.5771144278606966,
      "grad_norm": 3.3242666721343994,
      "learning_rate": 2.4054193204203457e-06,
      "logits/chosen": 0.4143025279045105,
      "logits/rejected": 0.3821703791618347,
      "logps/chosen": -444.6474609375,
      "logps/rejected": -441.0220031738281,
      "loss": 0.4599,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.30891337990760803,
      "rewards/margins": 0.7618473768234253,
      "rewards/rejected": -1.0707608461380005,
      "step": 1268
    },
    {
      "epoch": 1.582089552238806,
      "grad_norm": 3.3792619705200195,
      "learning_rate": 2.3514718904022993e-06,
      "logits/chosen": 0.4942702651023865,
      "logits/rejected": 0.4701668620109558,
      "logps/chosen": -440.89813232421875,
      "logps/rejected": -436.6291809082031,
      "loss": 0.4681,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.30445003509521484,
      "rewards/margins": 0.7473883032798767,
      "rewards/rejected": -1.0518382787704468,
      "step": 1272
    },
    {
      "epoch": 1.5870646766169154,
      "grad_norm": 3.4865262508392334,
      "learning_rate": 2.2980555800703273e-06,
      "logits/chosen": 0.03151869773864746,
      "logits/rejected": -0.11891334503889084,
      "logps/chosen": -446.2289123535156,
      "logps/rejected": -399.5888977050781,
      "loss": 0.4466,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.37324345111846924,
      "rewards/margins": 0.8816293478012085,
      "rewards/rejected": -1.2548727989196777,
      "step": 1276
    },
    {
      "epoch": 1.5920398009950247,
      "grad_norm": 3.55745530128479,
      "learning_rate": 2.2451740986941905e-06,
      "logits/chosen": 0.06370651721954346,
      "logits/rejected": 0.08302780240774155,
      "logps/chosen": -445.5990905761719,
      "logps/rejected": -471.1882629394531,
      "loss": 0.472,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.45704060792922974,
      "rewards/margins": 0.803365170955658,
      "rewards/rejected": -1.2604056596755981,
      "step": 1280
    },
    {
      "epoch": 1.5970149253731343,
      "grad_norm": 4.591226100921631,
      "learning_rate": 2.1928311184046967e-06,
      "logits/chosen": 0.3119097650051117,
      "logits/rejected": 0.196340873837471,
      "logps/chosen": -478.5575256347656,
      "logps/rejected": -448.47967529296875,
      "loss": 0.4374,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.293584406375885,
      "rewards/margins": 0.9845431447029114,
      "rewards/rejected": -1.2781274318695068,
      "step": 1284
    },
    {
      "epoch": 1.6019900497512438,
      "grad_norm": 3.375105142593384,
      "learning_rate": 2.1410302739387424e-06,
      "logits/chosen": 0.35102376341819763,
      "logits/rejected": 0.2489197850227356,
      "logps/chosen": -476.27801513671875,
      "logps/rejected": -478.7754821777344,
      "loss": 0.4485,
      "rewards/accuracies": 0.765625,
      "rewards/chosen": -0.42445307970046997,
      "rewards/margins": 0.7885385751724243,
      "rewards/rejected": -1.2129915952682495,
      "step": 1288
    },
    {
      "epoch": 1.6069651741293534,
      "grad_norm": 3.0185811519622803,
      "learning_rate": 2.0897751623868833e-06,
      "logits/chosen": 0.150477796792984,
      "logits/rejected": 0.00734228640794754,
      "logps/chosen": -409.4201354980469,
      "logps/rejected": -382.40716552734375,
      "loss": 0.4268,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.45322197675704956,
      "rewards/margins": 0.8744790554046631,
      "rewards/rejected": -1.3277010917663574,
      "step": 1292
    },
    {
      "epoch": 1.6119402985074627,
      "grad_norm": 3.5438005924224854,
      "learning_rate": 2.0390693429435626e-06,
      "logits/chosen": 0.27790558338165283,
      "logits/rejected": 0.18525969982147217,
      "logps/chosen": -441.6915283203125,
      "logps/rejected": -437.93292236328125,
      "loss": 0.4422,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.37093889713287354,
      "rewards/margins": 0.9228270053863525,
      "rewards/rejected": -1.2937657833099365,
      "step": 1296
    },
    {
      "epoch": 1.616915422885572,
      "grad_norm": 3.5567455291748047,
      "learning_rate": 1.9889163366599607e-06,
      "logits/chosen": 0.11875329911708832,
      "logits/rejected": -0.03504091128706932,
      "logps/chosen": -443.64599609375,
      "logps/rejected": -427.08154296875,
      "loss": 0.4714,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.6551141738891602,
      "rewards/margins": 0.9976121187210083,
      "rewards/rejected": -1.652726411819458,
      "step": 1300
    },
    {
      "epoch": 1.616915422885572,
      "eval_logits/chosen": 0.1787891387939453,
      "eval_logits/rejected": 0.03969912976026535,
      "eval_logps/chosen": -460.4245300292969,
      "eval_logps/rejected": -424.1896057128906,
      "eval_loss": 0.6253213286399841,
      "eval_rewards/accuracies": 0.6493055820465088,
      "eval_rewards/chosen": -0.8127551674842834,
      "eval_rewards/margins": 0.42605745792388916,
      "eval_rewards/rejected": -1.2388125658035278,
      "eval_runtime": 149.9009,
      "eval_samples_per_second": 7.625,
      "eval_steps_per_second": 0.24,
      "step": 1300
    },
    {
      "epoch": 1.6218905472636815,
      "grad_norm": 3.5520968437194824,
      "learning_rate": 1.939319626199483e-06,
      "logits/chosen": 0.2985292375087738,
      "logits/rejected": 0.2237393856048584,
      "logps/chosen": -436.99053955078125,
      "logps/rejected": -440.2374267578125,
      "loss": 0.4406,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.5354505777359009,
      "rewards/margins": 0.9315750598907471,
      "rewards/rejected": -1.4670255184173584,
      "step": 1304
    },
    {
      "epoch": 1.626865671641791,
      "grad_norm": 3.226693868637085,
      "learning_rate": 1.890282655595922e-06,
      "logits/chosen": 0.07176372408866882,
      "logits/rejected": 0.027363533154129982,
      "logps/chosen": -474.4735107421875,
      "logps/rejected": -492.5865173339844,
      "loss": 0.4211,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.5504629611968994,
      "rewards/margins": 0.9078149795532227,
      "rewards/rejected": -1.458277940750122,
      "step": 1308
    },
    {
      "epoch": 1.6318407960199006,
      "grad_norm": 3.6644186973571777,
      "learning_rate": 1.8418088300143044e-06,
      "logits/chosen": 0.07038739323616028,
      "logits/rejected": -0.047772906720638275,
      "logps/chosen": -434.7318115234375,
      "logps/rejected": -420.2578430175781,
      "loss": 0.4714,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.6160821914672852,
      "rewards/margins": 0.760805606842041,
      "rewards/rejected": -1.3768879175186157,
      "step": 1312
    },
    {
      "epoch": 1.63681592039801,
      "grad_norm": 4.1779093742370605,
      "learning_rate": 1.7939015155144378e-06,
      "logits/chosen": 0.40807458758354187,
      "logits/rejected": 0.42695319652557373,
      "logps/chosen": -497.0574645996094,
      "logps/rejected": -563.171142578125,
      "loss": 0.4406,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.484649658203125,
      "rewards/margins": 0.8875025510787964,
      "rewards/rejected": -1.3721522092819214,
      "step": 1316
    },
    {
      "epoch": 1.6417910447761193,
      "grad_norm": 4.379684925079346,
      "learning_rate": 1.7465640388171589e-06,
      "logits/chosen": 0.34882089495658875,
      "logits/rejected": 0.1509179174900055,
      "logps/chosen": -489.57470703125,
      "logps/rejected": -458.5868225097656,
      "loss": 0.428,
      "rewards/accuracies": 0.859375,
      "rewards/chosen": -0.40813666582107544,
      "rewards/margins": 0.9864634871482849,
      "rewards/rejected": -1.3946000337600708,
      "step": 1320
    },
    {
      "epoch": 1.6467661691542288,
      "grad_norm": 2.909369945526123,
      "learning_rate": 1.6997996870733268e-06,
      "logits/chosen": 0.5466185808181763,
      "logits/rejected": 0.4700179696083069,
      "logps/chosen": -430.5594787597656,
      "logps/rejected": -413.28466796875,
      "loss": 0.4083,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.2856665849685669,
      "rewards/margins": 0.9960864782333374,
      "rewards/rejected": -1.2817531824111938,
      "step": 1324
    },
    {
      "epoch": 1.6517412935323383,
      "grad_norm": 2.9255692958831787,
      "learning_rate": 1.6536117076355652e-06,
      "logits/chosen": 0.3447165787220001,
      "logits/rejected": 0.2050694227218628,
      "logps/chosen": -502.8382568359375,
      "logps/rejected": -489.395263671875,
      "loss": 0.465,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.17628344893455505,
      "rewards/margins": 0.8542786240577698,
      "rewards/rejected": -1.0305620431900024,
      "step": 1328
    },
    {
      "epoch": 1.6567164179104479,
      "grad_norm": 3.957753896713257,
      "learning_rate": 1.6080033078327585e-06,
      "logits/chosen": 0.037751637399196625,
      "logits/rejected": -0.0011347047984600067,
      "logps/chosen": -483.31829833984375,
      "logps/rejected": -538.3037719726562,
      "loss": 0.4812,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.5082539319992065,
      "rewards/margins": 0.6922823190689087,
      "rewards/rejected": -1.2005363702774048,
      "step": 1332
    },
    {
      "epoch": 1.6616915422885572,
      "grad_norm": 3.4213998317718506,
      "learning_rate": 1.5629776547473397e-06,
      "logits/chosen": 0.4570158123970032,
      "logits/rejected": 0.31136855483055115,
      "logps/chosen": -430.8033447265625,
      "logps/rejected": -415.0570068359375,
      "loss": 0.4232,
      "rewards/accuracies": 0.765625,
      "rewards/chosen": -0.4616736173629761,
      "rewards/margins": 0.7074974179267883,
      "rewards/rejected": -1.1691709756851196,
      "step": 1336
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 4.027344226837158,
      "learning_rate": 1.5185378749953538e-06,
      "logits/chosen": 0.4271657466888428,
      "logits/rejected": 0.4088464379310608,
      "logps/chosen": -447.46575927734375,
      "logps/rejected": -485.32666015625,
      "loss": 0.4902,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.26651304960250854,
      "rewards/margins": 0.8962290287017822,
      "rewards/rejected": -1.162742018699646,
      "step": 1340
    },
    {
      "epoch": 1.671641791044776,
      "grad_norm": 2.962707281112671,
      "learning_rate": 1.4746870545093528e-06,
      "logits/chosen": 0.45913419127464294,
      "logits/rejected": 0.1819644272327423,
      "logps/chosen": -413.649658203125,
      "logps/rejected": -396.4461669921875,
      "loss": 0.4185,
      "rewards/accuracies": 0.890625,
      "rewards/chosen": -0.3579864203929901,
      "rewards/margins": 0.9220394492149353,
      "rewards/rejected": -1.2800259590148926,
      "step": 1344
    },
    {
      "epoch": 1.6766169154228856,
      "grad_norm": 3.308551788330078,
      "learning_rate": 1.4314282383241097e-06,
      "logits/chosen": 0.3890434205532074,
      "logits/rejected": 0.17695972323417664,
      "logps/chosen": -442.94415283203125,
      "logps/rejected": -399.24871826171875,
      "loss": 0.4336,
      "rewards/accuracies": 0.859375,
      "rewards/chosen": -0.38554510474205017,
      "rewards/margins": 1.0001806020736694,
      "rewards/rejected": -1.385725736618042,
      "step": 1348
    },
    {
      "epoch": 1.6791044776119404,
      "eval_logits/chosen": 0.2587340176105499,
      "eval_logits/rejected": 0.12335896492004395,
      "eval_logps/chosen": -459.9505615234375,
      "eval_logps/rejected": -423.8654479980469,
      "eval_loss": 0.6228974461555481,
      "eval_rewards/accuracies": 0.6423611044883728,
      "eval_rewards/chosen": -0.7653533220291138,
      "eval_rewards/margins": 0.44104525446891785,
      "eval_rewards/rejected": -1.2063984870910645,
      "eval_runtime": 149.9993,
      "eval_samples_per_second": 7.62,
      "eval_steps_per_second": 0.24,
      "step": 1350
    },
    {
      "epoch": 1.6815920398009951,
      "grad_norm": 3.7813925743103027,
      "learning_rate": 1.388764430365147e-06,
      "logits/chosen": 0.04878038913011551,
      "logits/rejected": 0.14894048869609833,
      "logps/chosen": -482.2070617675781,
      "logps/rejected": -522.3347778320312,
      "loss": 0.4985,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.40297234058380127,
      "rewards/margins": 0.8282972574234009,
      "rewards/rejected": -1.2312694787979126,
      "step": 1352
    },
    {
      "epoch": 1.6865671641791045,
      "grad_norm": 4.5991363525390625,
      "learning_rate": 1.3466985932401743e-06,
      "logits/chosen": 0.328086256980896,
      "logits/rejected": 0.15323612093925476,
      "logps/chosen": -475.05078125,
      "logps/rejected": -424.8678894042969,
      "loss": 0.5033,
      "rewards/accuracies": 0.703125,
      "rewards/chosen": -0.5331354737281799,
      "rewards/margins": 0.6546344757080078,
      "rewards/rejected": -1.187769889831543,
      "step": 1356
    },
    {
      "epoch": 1.6915422885572138,
      "grad_norm": 3.5663769245147705,
      "learning_rate": 1.3052336480333372e-06,
      "logits/chosen": 0.2575068771839142,
      "logits/rejected": 0.05139423906803131,
      "logps/chosen": -488.58538818359375,
      "logps/rejected": -455.89971923828125,
      "loss": 0.4237,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.3154524862766266,
      "rewards/margins": 1.0843840837478638,
      "rewards/rejected": -1.399836540222168,
      "step": 1360
    },
    {
      "epoch": 1.6965174129353233,
      "grad_norm": 2.9855713844299316,
      "learning_rate": 1.2643724741023845e-06,
      "logits/chosen": 0.19129760563373566,
      "logits/rejected": 0.0936068594455719,
      "logps/chosen": -416.364501953125,
      "logps/rejected": -433.6866455078125,
      "loss": 0.4275,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.408183217048645,
      "rewards/margins": 1.019007921218872,
      "rewards/rejected": -1.427191138267517,
      "step": 1364
    },
    {
      "epoch": 1.7014925373134329,
      "grad_norm": 3.654536485671997,
      "learning_rate": 1.2241179088787192e-06,
      "logits/chosen": 0.39111489057540894,
      "logits/rejected": 0.035055145621299744,
      "logps/chosen": -540.2343139648438,
      "logps/rejected": -456.66424560546875,
      "loss": 0.4579,
      "rewards/accuracies": 0.890625,
      "rewards/chosen": -0.567006528377533,
      "rewards/margins": 0.8900810480117798,
      "rewards/rejected": -1.4570876359939575,
      "step": 1368
    },
    {
      "epoch": 1.7064676616915424,
      "grad_norm": 3.8228235244750977,
      "learning_rate": 1.1844727476703776e-06,
      "logits/chosen": 0.42539361119270325,
      "logits/rejected": 0.1684579700231552,
      "logps/chosen": -524.5021362304688,
      "logps/rejected": -491.33587646484375,
      "loss": 0.4795,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.535822868347168,
      "rewards/margins": 1.0067797899246216,
      "rewards/rejected": -1.5426026582717896,
      "step": 1372
    },
    {
      "epoch": 1.7114427860696517,
      "grad_norm": 3.2348790168762207,
      "learning_rate": 1.1454397434679022e-06,
      "logits/chosen": 0.40201398730278015,
      "logits/rejected": 0.2579033672809601,
      "logps/chosen": -561.11328125,
      "logps/rejected": -525.084716796875,
      "loss": 0.4248,
      "rewards/accuracies": 0.890625,
      "rewards/chosen": -0.30076974630355835,
      "rewards/margins": 1.0572198629379272,
      "rewards/rejected": -1.3579895496368408,
      "step": 1376
    },
    {
      "epoch": 1.716417910447761,
      "grad_norm": 3.4407033920288086,
      "learning_rate": 1.1070216067531825e-06,
      "logits/chosen": 0.25583919882774353,
      "logits/rejected": 0.3665779232978821,
      "logps/chosen": -391.76739501953125,
      "logps/rejected": -447.6612854003906,
      "loss": 0.45,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.5686730742454529,
      "rewards/margins": 0.7188047170639038,
      "rewards/rejected": -1.287477731704712,
      "step": 1380
    },
    {
      "epoch": 1.7213930348258706,
      "grad_norm": 3.3550174236297607,
      "learning_rate": 1.0692210053112451e-06,
      "logits/chosen": 0.09708093851804733,
      "logits/rejected": -0.10916668176651001,
      "logps/chosen": -493.13922119140625,
      "logps/rejected": -448.70391845703125,
      "loss": 0.4779,
      "rewards/accuracies": 0.734375,
      "rewards/chosen": -0.7006162405014038,
      "rewards/margins": 0.6611677408218384,
      "rewards/rejected": -1.3617841005325317,
      "step": 1384
    },
    {
      "epoch": 1.7263681592039801,
      "grad_norm": 3.5417962074279785,
      "learning_rate": 1.032040564044975e-06,
      "logits/chosen": 0.10944227129220963,
      "logits/rejected": 0.03197764605283737,
      "logps/chosen": -475.2284851074219,
      "logps/rejected": -441.09356689453125,
      "loss": 0.4613,
      "rewards/accuracies": 0.859375,
      "rewards/chosen": -0.5546907186508179,
      "rewards/margins": 0.8569729328155518,
      "rewards/rejected": -1.4116637706756592,
      "step": 1388
    },
    {
      "epoch": 1.7313432835820897,
      "grad_norm": 2.918147087097168,
      "learning_rate": 9.954828647928727e-07,
      "logits/chosen": 0.22849802672863007,
      "logits/rejected": 0.1010328084230423,
      "logps/chosen": -401.5469055175781,
      "logps/rejected": -382.9391174316406,
      "loss": 0.4112,
      "rewards/accuracies": 0.90625,
      "rewards/chosen": -0.3927709460258484,
      "rewards/margins": 0.9075154066085815,
      "rewards/rejected": -1.3002864122390747,
      "step": 1392
    },
    {
      "epoch": 1.736318407960199,
      "grad_norm": 3.2414426803588867,
      "learning_rate": 9.595504461497441e-07,
      "logits/chosen": 0.6792712807655334,
      "logits/rejected": 0.5262346863746643,
      "logps/chosen": -517.4805297851562,
      "logps/rejected": -470.47845458984375,
      "loss": 0.4617,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.5418896675109863,
      "rewards/margins": 0.7864224910736084,
      "rewards/rejected": -1.3283122777938843,
      "step": 1396
    },
    {
      "epoch": 1.7412935323383083,
      "grad_norm": 2.9658279418945312,
      "learning_rate": 9.242458032904311e-07,
      "logits/chosen": 0.32243314385414124,
      "logits/rejected": 0.08803755044937134,
      "logps/chosen": -545.0567626953125,
      "logps/rejected": -452.5140686035156,
      "loss": 0.4791,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": -0.7034752368927002,
      "rewards/margins": 0.48704254627227783,
      "rewards/rejected": -1.1905179023742676,
      "step": 1400
    },
    {
      "epoch": 1.7412935323383083,
      "eval_logits/chosen": 0.1930580586194992,
      "eval_logits/rejected": 0.05467061698436737,
      "eval_logps/chosen": -459.8746643066406,
      "eval_logps/rejected": -423.8709716796875,
      "eval_loss": 0.6216272115707397,
      "eval_rewards/accuracies": 0.6388888955116272,
      "eval_rewards/chosen": -0.7577680945396423,
      "eval_rewards/margins": 0.4491753578186035,
      "eval_rewards/rejected": -1.2069435119628906,
      "eval_runtime": 150.434,
      "eval_samples_per_second": 7.598,
      "eval_steps_per_second": 0.239,
      "step": 1400
    },
    {
      "epoch": 1.7462686567164178,
      "grad_norm": 3.2509801387786865,
      "learning_rate": 8.895713877965373e-07,
      "logits/chosen": 0.4595485031604767,
      "logits/rejected": 0.1782127022743225,
      "logps/chosen": -443.97564697265625,
      "logps/rejected": -366.19793701171875,
      "loss": 0.4664,
      "rewards/accuracies": 0.765625,
      "rewards/chosen": -0.40020307898521423,
      "rewards/margins": 0.7735263109207153,
      "rewards/rejected": -1.173729419708252,
      "step": 1404
    },
    {
      "epoch": 1.7512437810945274,
      "grad_norm": 3.9130449295043945,
      "learning_rate": 8.555296074861996e-07,
      "logits/chosen": 0.10901626199483871,
      "logits/rejected": -0.14974814653396606,
      "logps/chosen": -456.7862548828125,
      "logps/rejected": -415.9285888671875,
      "loss": 0.4287,
      "rewards/accuracies": 0.859375,
      "rewards/chosen": -0.35942861437797546,
      "rewards/margins": 1.0868324041366577,
      "rewards/rejected": -1.4462610483169556,
      "step": 1408
    },
    {
      "epoch": 1.756218905472637,
      "grad_norm": 4.010313510894775,
      "learning_rate": 8.22122826246875e-07,
      "logits/chosen": 0.6070827841758728,
      "logits/rejected": 0.44983193278312683,
      "logps/chosen": -474.1615295410156,
      "logps/rejected": -467.8525390625,
      "loss": 0.4663,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.38996899127960205,
      "rewards/margins": 0.9174278974533081,
      "rewards/rejected": -1.3073970079421997,
      "step": 1412
    },
    {
      "epoch": 1.7611940298507462,
      "grad_norm": 3.6952216625213623,
      "learning_rate": 7.89353363871197e-07,
      "logits/chosen": 0.5432174205780029,
      "logits/rejected": 0.16360357403755188,
      "logps/chosen": -484.909423828125,
      "logps/rejected": -380.3939514160156,
      "loss": 0.5218,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.5896638631820679,
      "rewards/margins": 0.679851233959198,
      "rewards/rejected": -1.2695151567459106,
      "step": 1416
    },
    {
      "epoch": 1.7661691542288556,
      "grad_norm": 3.4239590167999268,
      "learning_rate": 7.572234958958846e-07,
      "logits/chosen": 0.5283284187316895,
      "logits/rejected": 0.45787736773490906,
      "logps/chosen": -476.11383056640625,
      "logps/rejected": -496.3194580078125,
      "loss": 0.4459,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.6096381545066833,
      "rewards/margins": 0.8067396283149719,
      "rewards/rejected": -1.4163777828216553,
      "step": 1420
    },
    {
      "epoch": 1.771144278606965,
      "grad_norm": 3.3646957874298096,
      "learning_rate": 7.2573545344373e-07,
      "logits/chosen": 0.32012930512428284,
      "logits/rejected": 0.18036966025829315,
      "logps/chosen": -473.15997314453125,
      "logps/rejected": -461.828369140625,
      "loss": 0.4338,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.468191534280777,
      "rewards/margins": 0.9105731248855591,
      "rewards/rejected": -1.3787648677825928,
      "step": 1424
    },
    {
      "epoch": 1.7761194029850746,
      "grad_norm": 3.111020088195801,
      "learning_rate": 6.948914230686688e-07,
      "logits/chosen": 0.072984479367733,
      "logits/rejected": -0.05354681983590126,
      "logps/chosen": -499.5512390136719,
      "logps/rejected": -478.2958679199219,
      "loss": 0.43,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.33797788619995117,
      "rewards/margins": 1.0079048871994019,
      "rewards/rejected": -1.345882773399353,
      "step": 1428
    },
    {
      "epoch": 1.7810945273631842,
      "grad_norm": 3.493523597717285,
      "learning_rate": 6.646935466039373e-07,
      "logits/chosen": 0.1697852909564972,
      "logits/rejected": 0.06225850433111191,
      "logps/chosen": -436.7352600097656,
      "logps/rejected": -451.919677734375,
      "loss": 0.4171,
      "rewards/accuracies": 0.890625,
      "rewards/chosen": -0.30590546131134033,
      "rewards/margins": 1.0445671081542969,
      "rewards/rejected": -1.3504725694656372,
      "step": 1432
    },
    {
      "epoch": 1.7860696517412935,
      "grad_norm": 3.5960781574249268,
      "learning_rate": 6.351439210133492e-07,
      "logits/chosen": 0.16463078558444977,
      "logits/rejected": -0.0510396808385849,
      "logps/chosen": -489.61944580078125,
      "logps/rejected": -507.6096496582031,
      "loss": 0.4364,
      "rewards/accuracies": 0.765625,
      "rewards/chosen": -0.5339682698249817,
      "rewards/margins": 0.8638878464698792,
      "rewards/rejected": -1.3978562355041504,
      "step": 1436
    },
    {
      "epoch": 1.7910447761194028,
      "grad_norm": 2.9790070056915283,
      "learning_rate": 6.062445982456777e-07,
      "logits/chosen": 0.34399691224098206,
      "logits/rejected": 0.11060275137424469,
      "logps/chosen": -484.4259338378906,
      "logps/rejected": -441.9401550292969,
      "loss": 0.4195,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.41451165080070496,
      "rewards/margins": 0.9917902946472168,
      "rewards/rejected": -1.4063019752502441,
      "step": 1440
    },
    {
      "epoch": 1.7960199004975124,
      "grad_norm": 3.2462868690490723,
      "learning_rate": 5.77997585092166e-07,
      "logits/chosen": 0.24684180319309235,
      "logits/rejected": 0.09757015109062195,
      "logps/chosen": -501.04132080078125,
      "logps/rejected": -473.86407470703125,
      "loss": 0.4557,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.5149147510528564,
      "rewards/margins": 0.7671060562133789,
      "rewards/rejected": -1.2820206880569458,
      "step": 1444
    },
    {
      "epoch": 1.800995024875622,
      "grad_norm": 4.118817329406738,
      "learning_rate": 5.504048430471753e-07,
      "logits/chosen": 0.05877215415239334,
      "logits/rejected": 0.0584217831492424,
      "logps/chosen": -416.53216552734375,
      "logps/rejected": -467.2144775390625,
      "loss": 0.439,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.606140673160553,
      "rewards/margins": 0.9090366363525391,
      "rewards/rejected": -1.5151773691177368,
      "step": 1448
    },
    {
      "epoch": 1.8034825870646767,
      "eval_logits/chosen": 0.20400173962116241,
      "eval_logits/rejected": 0.06605671346187592,
      "eval_logps/chosen": -459.7663879394531,
      "eval_logps/rejected": -423.7731018066406,
      "eval_loss": 0.6204391121864319,
      "eval_rewards/accuracies": 0.6493055820465088,
      "eval_rewards/chosen": -0.7469313144683838,
      "eval_rewards/margins": 0.45023012161254883,
      "eval_rewards/rejected": -1.1971614360809326,
      "eval_runtime": 150.447,
      "eval_samples_per_second": 7.597,
      "eval_steps_per_second": 0.239,
      "step": 1450
    },
    {
      "epoch": 1.8059701492537314,
      "grad_norm": 3.226379156112671,
      "learning_rate": 5.234682881719766e-07,
      "logits/chosen": 0.1486922800540924,
      "logits/rejected": 0.2820119261741638,
      "logps/chosen": -438.1523132324219,
      "logps/rejected": -485.3592529296875,
      "loss": 0.458,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.4801374673843384,
      "rewards/margins": 0.7025588750839233,
      "rewards/rejected": -1.1826963424682617,
      "step": 1452
    },
    {
      "epoch": 1.8109452736318408,
      "grad_norm": 4.159534454345703,
      "learning_rate": 4.971897909616985e-07,
      "logits/chosen": 0.42471548914909363,
      "logits/rejected": 0.16627195477485657,
      "logps/chosen": -582.96630859375,
      "logps/rejected": -513.5985107421875,
      "loss": 0.4856,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.4713844358921051,
      "rewards/margins": 0.9388619661331177,
      "rewards/rejected": -1.4102462530136108,
      "step": 1456
    },
    {
      "epoch": 1.81592039800995,
      "grad_norm": 3.511375665664673,
      "learning_rate": 4.715711762154362e-07,
      "logits/chosen": 0.11827405542135239,
      "logits/rejected": 0.02628401480615139,
      "logps/chosen": -472.3614501953125,
      "logps/rejected": -421.99163818359375,
      "loss": 0.438,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.5915001034736633,
      "rewards/margins": 0.8902807235717773,
      "rewards/rejected": -1.481780767440796,
      "step": 1460
    },
    {
      "epoch": 1.8208955223880596,
      "grad_norm": 3.314199686050415,
      "learning_rate": 4.4661422290954495e-07,
      "logits/chosen": 0.1869126260280609,
      "logits/rejected": 0.040468111634254456,
      "logps/chosen": -461.4591064453125,
      "logps/rejected": -420.57196044921875,
      "loss": 0.4234,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.6002779006958008,
      "rewards/margins": 0.8377397060394287,
      "rewards/rejected": -1.438017725944519,
      "step": 1464
    },
    {
      "epoch": 1.8258706467661692,
      "grad_norm": 3.301818609237671,
      "learning_rate": 4.2232066407409067e-07,
      "logits/chosen": 0.21843373775482178,
      "logits/rejected": 0.028878776356577873,
      "logps/chosen": -522.05029296875,
      "logps/rejected": -468.34906005859375,
      "loss": 0.4338,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.30435776710510254,
      "rewards/margins": 0.8217609524726868,
      "rewards/rejected": -1.126118779182434,
      "step": 1468
    },
    {
      "epoch": 1.8308457711442787,
      "grad_norm": 3.323982000350952,
      "learning_rate": 3.986921866725202e-07,
      "logits/chosen": 0.37691932916641235,
      "logits/rejected": 0.059887684881687164,
      "logps/chosen": -472.496337890625,
      "logps/rejected": -386.56976318359375,
      "loss": 0.4778,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.31983205676078796,
      "rewards/margins": 1.0095765590667725,
      "rewards/rejected": -1.3294085264205933,
      "step": 1472
    },
    {
      "epoch": 1.835820895522388,
      "grad_norm": 3.2554380893707275,
      "learning_rate": 3.7573043148451673e-07,
      "logits/chosen": 0.21050050854682922,
      "logits/rejected": 0.1986107975244522,
      "logps/chosen": -456.1379699707031,
      "logps/rejected": -496.9686584472656,
      "loss": 0.4472,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.4782811999320984,
      "rewards/margins": 0.9004664421081543,
      "rewards/rejected": -1.3787477016448975,
      "step": 1476
    },
    {
      "epoch": 1.8407960199004973,
      "grad_norm": 3.1780014038085938,
      "learning_rate": 3.5343699299205003e-07,
      "logits/chosen": 0.4725267291069031,
      "logits/rejected": 0.20679879188537598,
      "logps/chosen": -454.1123352050781,
      "logps/rejected": -402.17718505859375,
      "loss": 0.4866,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.6523603200912476,
      "rewards/margins": 0.8148846626281738,
      "rewards/rejected": -1.467245101928711,
      "step": 1480
    },
    {
      "epoch": 1.845771144278607,
      "grad_norm": 3.745753765106201,
      "learning_rate": 3.3181341926867283e-07,
      "logits/chosen": 0.48626863956451416,
      "logits/rejected": 0.5913352966308594,
      "logps/chosen": -453.683349609375,
      "logps/rejected": -447.6007385253906,
      "loss": 0.4875,
      "rewards/accuracies": 0.765625,
      "rewards/chosen": -0.3742063045501709,
      "rewards/margins": 0.7547400593757629,
      "rewards/rejected": -1.128946304321289,
      "step": 1484
    },
    {
      "epoch": 1.8507462686567164,
      "grad_norm": 3.743507146835327,
      "learning_rate": 3.1086121187200667e-07,
      "logits/chosen": 0.11791680753231049,
      "logits/rejected": 0.10027449578046799,
      "logps/chosen": -442.95611572265625,
      "logps/rejected": -485.8495788574219,
      "loss": 0.4396,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.3810359537601471,
      "rewards/margins": 0.9448322653770447,
      "rewards/rejected": -1.3258682489395142,
      "step": 1488
    },
    {
      "epoch": 1.855721393034826,
      "grad_norm": 3.817042350769043,
      "learning_rate": 2.905818257394799e-07,
      "logits/chosen": 0.15434856712818146,
      "logits/rejected": 0.07496091723442078,
      "logps/chosen": -409.6748046875,
      "logps/rejected": -421.5605773925781,
      "loss": 0.4731,
      "rewards/accuracies": 0.890625,
      "rewards/chosen": -0.3658009171485901,
      "rewards/margins": 0.9456602334976196,
      "rewards/rejected": -1.3114612102508545,
      "step": 1492
    },
    {
      "epoch": 1.8606965174129353,
      "grad_norm": 3.0990395545959473,
      "learning_rate": 2.7097666908729283e-07,
      "logits/chosen": 0.46521398425102234,
      "logits/rejected": 0.3093582093715668,
      "logps/chosen": -508.86285400390625,
      "logps/rejected": -487.97943115234375,
      "loss": 0.4883,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.479577898979187,
      "rewards/margins": 0.6940962672233582,
      "rewards/rejected": -1.17367422580719,
      "step": 1496
    },
    {
      "epoch": 1.8656716417910446,
      "grad_norm": 3.0450475215911865,
      "learning_rate": 2.520471033126326e-07,
      "logits/chosen": 0.261200487613678,
      "logits/rejected": 0.14318135380744934,
      "logps/chosen": -501.09991455078125,
      "logps/rejected": -465.6934509277344,
      "loss": 0.4419,
      "rewards/accuracies": 0.765625,
      "rewards/chosen": -0.5811474323272705,
      "rewards/margins": 0.7728549838066101,
      "rewards/rejected": -1.3540023565292358,
      "step": 1500
    },
    {
      "epoch": 1.8656716417910446,
      "eval_logits/chosen": 0.1892445683479309,
      "eval_logits/rejected": 0.05091705545783043,
      "eval_logps/chosen": -458.9963073730469,
      "eval_logps/rejected": -422.9080810546875,
      "eval_loss": 0.6194455623626709,
      "eval_rewards/accuracies": 0.6458333134651184,
      "eval_rewards/chosen": -0.6699296832084656,
      "eval_rewards/margins": 0.4407287836074829,
      "eval_rewards/rejected": -1.1106584072113037,
      "eval_runtime": 150.1801,
      "eval_samples_per_second": 7.611,
      "eval_steps_per_second": 0.24,
      "step": 1500
    },
    {
      "epoch": 1.8706467661691542,
      "grad_norm": 3.545064687728882,
      "learning_rate": 2.3379444289913344e-07,
      "logits/chosen": 0.47270292043685913,
      "logits/rejected": 0.26645568013191223,
      "logps/chosen": -409.9461975097656,
      "logps/rejected": -400.95550537109375,
      "loss": 0.438,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.3254129886627197,
      "rewards/margins": 0.9240537881851196,
      "rewards/rejected": -1.2494667768478394,
      "step": 1504
    },
    {
      "epoch": 1.8756218905472637,
      "grad_norm": 3.722698926925659,
      "learning_rate": 2.1621995532559947e-07,
      "logits/chosen": 0.2734871506690979,
      "logits/rejected": 0.05334743112325668,
      "logps/chosen": -501.898193359375,
      "logps/rejected": -427.0452880859375,
      "loss": 0.4706,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.5731074213981628,
      "rewards/margins": 0.7717230916023254,
      "rewards/rejected": -1.3448305130004883,
      "step": 1508
    },
    {
      "epoch": 1.8805970149253732,
      "grad_norm": 3.6065824031829834,
      "learning_rate": 1.9932486097799408e-07,
      "logits/chosen": 0.33175939321517944,
      "logits/rejected": 0.2642689049243927,
      "logps/chosen": -384.1080627441406,
      "logps/rejected": -377.58319091796875,
      "loss": 0.4599,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.4119167923927307,
      "rewards/margins": 0.9615055322647095,
      "rewards/rejected": -1.373422384262085,
      "step": 1512
    },
    {
      "epoch": 1.8855721393034826,
      "grad_norm": 2.6977298259735107,
      "learning_rate": 1.8311033306468552e-07,
      "logits/chosen": 0.4200694262981415,
      "logits/rejected": 0.023060984909534454,
      "logps/chosen": -495.07916259765625,
      "logps/rejected": -384.0296630859375,
      "loss": 0.4238,
      "rewards/accuracies": 0.859375,
      "rewards/chosen": -0.41816192865371704,
      "rewards/margins": 0.9803006649017334,
      "rewards/rejected": -1.3984625339508057,
      "step": 1516
    },
    {
      "epoch": 1.890547263681592,
      "grad_norm": 3.5309643745422363,
      "learning_rate": 1.6757749753498865e-07,
      "logits/chosen": 0.17390736937522888,
      "logits/rejected": 0.16996516287326813,
      "logps/chosen": -438.53564453125,
      "logps/rejected": -477.38470458984375,
      "loss": 0.4468,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -0.47648751735687256,
      "rewards/margins": 0.8215656876564026,
      "rewards/rejected": -1.2980531454086304,
      "step": 1520
    },
    {
      "epoch": 1.8955223880597014,
      "grad_norm": 3.5672707557678223,
      "learning_rate": 1.5272743300097316e-07,
      "logits/chosen": 0.35543692111968994,
      "logits/rejected": 0.38684284687042236,
      "logps/chosen": -425.6787414550781,
      "logps/rejected": -453.45623779296875,
      "loss": 0.4827,
      "rewards/accuracies": 0.734375,
      "rewards/chosen": -0.47601401805877686,
      "rewards/margins": 0.7526903748512268,
      "rewards/rejected": -1.2287043333053589,
      "step": 1524
    },
    {
      "epoch": 1.900497512437811,
      "grad_norm": 3.358347177505493,
      "learning_rate": 1.3856117066256225e-07,
      "logits/chosen": 0.2838931679725647,
      "logits/rejected": 0.07619883120059967,
      "logps/chosen": -547.037353515625,
      "logps/rejected": -493.8963623046875,
      "loss": 0.4515,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.11599953472614288,
      "rewards/margins": 0.964540958404541,
      "rewards/rejected": -1.080540657043457,
      "step": 1528
    },
    {
      "epoch": 1.9054726368159205,
      "grad_norm": 3.064255714416504,
      "learning_rate": 1.2507969423593225e-07,
      "logits/chosen": 0.29778000712394714,
      "logits/rejected": 0.24798990786075592,
      "logps/chosen": -478.83734130859375,
      "logps/rejected": -486.351806640625,
      "loss": 0.411,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.28864914178848267,
      "rewards/margins": 1.0248101949691772,
      "rewards/rejected": -1.3134592771530151,
      "step": 1532
    },
    {
      "epoch": 1.9104477611940298,
      "grad_norm": 3.4975333213806152,
      "learning_rate": 1.1228393988519381e-07,
      "logits/chosen": -0.012770354747772217,
      "logits/rejected": 0.11666233092546463,
      "logps/chosen": -442.9209899902344,
      "logps/rejected": -564.3067626953125,
      "loss": 0.4512,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -0.6616036891937256,
      "rewards/margins": 0.6503514647483826,
      "rewards/rejected": -1.311955213546753,
      "step": 1536
    },
    {
      "epoch": 1.9154228855721394,
      "grad_norm": 3.4289166927337646,
      "learning_rate": 1.0017479615738957e-07,
      "logits/chosen": 0.4374559223651886,
      "logits/rejected": 0.37482768297195435,
      "logps/chosen": -523.0839233398438,
      "logps/rejected": -634.0493774414062,
      "loss": 0.462,
      "rewards/accuracies": 0.703125,
      "rewards/chosen": -0.4454476237297058,
      "rewards/margins": 0.5911861658096313,
      "rewards/rejected": -1.036633849143982,
      "step": 1540
    },
    {
      "epoch": 1.9203980099502487,
      "grad_norm": 3.3477044105529785,
      "learning_rate": 8.875310392079118e-08,
      "logits/chosen": 0.22588732838630676,
      "logits/rejected": -0.04192977398633957,
      "logps/chosen": -507.6371765136719,
      "logps/rejected": -440.7511901855469,
      "loss": 0.4336,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.3868103325366974,
      "rewards/margins": 1.0209940671920776,
      "rewards/rejected": -1.4078043699264526,
      "step": 1544
    },
    {
      "epoch": 1.9253731343283582,
      "grad_norm": 3.4166507720947266,
      "learning_rate": 7.801965630651165e-08,
      "logits/chosen": 0.0826062485575676,
      "logits/rejected": 0.03505164384841919,
      "logps/chosen": -470.573974609375,
      "logps/rejected": -484.4287109375,
      "loss": 0.4593,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": -0.5422804951667786,
      "rewards/margins": 0.6872562170028687,
      "rewards/rejected": -1.2295366525650024,
      "step": 1548
    },
    {
      "epoch": 1.927860696517413,
      "eval_logits/chosen": 0.2005145251750946,
      "eval_logits/rejected": 0.06279084831476212,
      "eval_logps/chosen": -459.1916809082031,
      "eval_logps/rejected": -423.0291442871094,
      "eval_loss": 0.6213585138320923,
      "eval_rewards/accuracies": 0.6527777910232544,
      "eval_rewards/chosen": -0.6894701719284058,
      "eval_rewards/margins": 0.433290034532547,
      "eval_rewards/rejected": -1.1227601766586304,
      "eval_runtime": 150.4688,
      "eval_samples_per_second": 7.596,
      "eval_steps_per_second": 0.239,
      "step": 1550
    },
    {
      "epoch": 1.9303482587064678,
      "grad_norm": 2.936657190322876,
      "learning_rate": 6.797519865342161e-08,
      "logits/chosen": 0.6600261926651001,
      "logits/rejected": 0.5058936476707458,
      "logps/chosen": -422.639404296875,
      "logps/rejected": -443.1512145996094,
      "loss": 0.4434,
      "rewards/accuracies": 0.859375,
      "rewards/chosen": -0.5597524642944336,
      "rewards/margins": 0.8031996488571167,
      "rewards/rejected": -1.3629521131515503,
      "step": 1552
    },
    {
      "epoch": 1.935323383084577,
      "grad_norm": 2.7770910263061523,
      "learning_rate": 5.862042845640403e-08,
      "logits/chosen": 0.510213315486908,
      "logits/rejected": 0.3406936824321747,
      "logps/chosen": -503.9508361816406,
      "logps/rejected": -470.0325622558594,
      "loss": 0.4498,
      "rewards/accuracies": 0.875,
      "rewards/chosen": -0.21441341936588287,
      "rewards/margins": 1.0556612014770508,
      "rewards/rejected": -1.270074486732483,
      "step": 1556
    },
    {
      "epoch": 1.9402985074626866,
      "grad_norm": 3.034893751144409,
      "learning_rate": 4.9955995317908514e-08,
      "logits/chosen": 0.41465142369270325,
      "logits/rejected": 0.19684141874313354,
      "logps/chosen": -474.51544189453125,
      "logps/rejected": -428.1244201660156,
      "loss": 0.4425,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.16932249069213867,
      "rewards/margins": 1.1101325750350952,
      "rewards/rejected": -1.2794551849365234,
      "step": 1560
    },
    {
      "epoch": 1.945273631840796,
      "grad_norm": 2.902290105819702,
      "learning_rate": 4.198250090284961e-08,
      "logits/chosen": 0.22269777953624725,
      "logits/rejected": 0.017038095742464066,
      "logps/chosen": -470.39324951171875,
      "logps/rejected": -418.3542785644531,
      "loss": 0.4143,
      "rewards/accuracies": 0.859375,
      "rewards/chosen": -0.31770819425582886,
      "rewards/margins": 0.9097498655319214,
      "rewards/rejected": -1.227458119392395,
      "step": 1564
    },
    {
      "epoch": 1.9502487562189055,
      "grad_norm": 3.539262533187866,
      "learning_rate": 3.47004988968247e-08,
      "logits/chosen": 0.5226894021034241,
      "logits/rejected": 0.30332833528518677,
      "logps/chosen": -520.8106689453125,
      "logps/rejected": -476.7620544433594,
      "loss": 0.4462,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.49939191341400146,
      "rewards/margins": 0.961308479309082,
      "rewards/rejected": -1.460700273513794,
      "step": 1568
    },
    {
      "epoch": 1.955223880597015,
      "grad_norm": 3.8761661052703857,
      "learning_rate": 2.8110494967664713e-08,
      "logits/chosen": 0.30280035734176636,
      "logits/rejected": 0.13733740150928497,
      "logps/chosen": -457.7912292480469,
      "logps/rejected": -432.34967041015625,
      "loss": 0.437,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": -0.2639601230621338,
      "rewards/margins": 0.9372557401657104,
      "rewards/rejected": -1.2012157440185547,
      "step": 1572
    },
    {
      "epoch": 1.9601990049751243,
      "grad_norm": 3.9091761112213135,
      "learning_rate": 2.221294673032004e-08,
      "logits/chosen": -0.02172435261309147,
      "logits/rejected": -0.22200414538383484,
      "logps/chosen": -475.1850891113281,
      "logps/rejected": -424.7291259765625,
      "loss": 0.4323,
      "rewards/accuracies": 0.765625,
      "rewards/chosen": -0.49128663539886475,
      "rewards/margins": 0.7886272668838501,
      "rewards/rejected": -1.2799140214920044,
      "step": 1576
    },
    {
      "epoch": 1.9651741293532339,
      "grad_norm": 3.5163590908050537,
      "learning_rate": 1.7008263715085904e-08,
      "logits/chosen": 0.2808230519294739,
      "logits/rejected": 0.15157818794250488,
      "logps/chosen": -547.7991943359375,
      "logps/rejected": -508.9268798828125,
      "loss": 0.4872,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": -0.3645941913127899,
      "rewards/margins": 1.0243759155273438,
      "rewards/rejected": -1.388970136642456,
      "step": 1580
    },
    {
      "epoch": 1.9701492537313432,
      "grad_norm": 3.4658432006835938,
      "learning_rate": 1.24968073391607e-08,
      "logits/chosen": 0.16077536344528198,
      "logits/rejected": 0.02570854127407074,
      "logps/chosen": -450.45086669921875,
      "logps/rejected": -430.0142517089844,
      "loss": 0.4754,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.4632072448730469,
      "rewards/margins": 0.7755333185195923,
      "rewards/rejected": -1.2387404441833496,
      "step": 1584
    },
    {
      "epoch": 1.9751243781094527,
      "grad_norm": 3.7998785972595215,
      "learning_rate": 8.678890881552715e-09,
      "logits/chosen": 0.16036288440227509,
      "logits/rejected": 0.17200781404972076,
      "logps/chosen": -450.34710693359375,
      "logps/rejected": -467.6290283203125,
      "loss": 0.4537,
      "rewards/accuracies": 0.828125,
      "rewards/chosen": -0.44261491298675537,
      "rewards/margins": 0.9358773231506348,
      "rewards/rejected": -1.3784922361373901,
      "step": 1588
    },
    {
      "epoch": 1.9800995024875623,
      "grad_norm": 3.656935214996338,
      "learning_rate": 5.554779461323101e-09,
      "logits/chosen": 0.13178521394729614,
      "logits/rejected": -0.02235669642686844,
      "logps/chosen": -462.8760070800781,
      "logps/rejected": -402.28424072265625,
      "loss": 0.4578,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.23067457973957062,
      "rewards/margins": 0.9117249846458435,
      "rewards/rejected": -1.142399549484253,
      "step": 1592
    },
    {
      "epoch": 1.9850746268656716,
      "grad_norm": 3.9424142837524414,
      "learning_rate": 3.1246900191761463e-09,
      "logits/chosen": 0.27911561727523804,
      "logits/rejected": 0.14084932208061218,
      "logps/chosen": -568.9130249023438,
      "logps/rejected": -536.7129516601562,
      "loss": 0.4657,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.47243887186050415,
      "rewards/margins": 0.8830912113189697,
      "rewards/rejected": -1.355530023574829,
      "step": 1596
    },
    {
      "epoch": 1.9900497512437811,
      "grad_norm": 3.261087656021118,
      "learning_rate": 1.3887913023946652e-09,
      "logits/chosen": 0.40209636092185974,
      "logits/rejected": 0.20681683719158173,
      "logps/chosen": -534.0907592773438,
      "logps/rejected": -446.65838623046875,
      "loss": 0.4444,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": -0.3766060769557953,
      "rewards/margins": 0.7923564910888672,
      "rewards/rejected": -1.1689625978469849,
      "step": 1600
    },
    {
      "epoch": 1.9900497512437811,
      "eval_logits/chosen": 0.22255222499370575,
      "eval_logits/rejected": 0.08632177859544754,
      "eval_logps/chosen": -459.1236572265625,
      "eval_logps/rejected": -423.0472106933594,
      "eval_loss": 0.6228893399238586,
      "eval_rewards/accuracies": 0.6666666865348816,
      "eval_rewards/chosen": -0.6826636791229248,
      "eval_rewards/margins": 0.441908061504364,
      "eval_rewards/rejected": -1.1245719194412231,
      "eval_runtime": 150.7224,
      "eval_samples_per_second": 7.583,
      "eval_steps_per_second": 0.239,
      "step": 1600
    },
    {
      "epoch": 1.9950248756218905,
      "grad_norm": 3.3245160579681396,
      "learning_rate": 3.4720385312492223e-10,
      "logits/chosen": 0.24731820821762085,
      "logits/rejected": 0.46343696117401123,
      "logps/chosen": -394.77288818359375,
      "logps/rejected": -496.1209716796875,
      "loss": 0.4491,
      "rewards/accuracies": 0.796875,
      "rewards/chosen": -0.31272804737091064,
      "rewards/margins": 0.8752219080924988,
      "rewards/rejected": -1.1879500150680542,
      "step": 1604
    },
    {
      "epoch": 2.0,
      "grad_norm": 3.5245065689086914,
      "learning_rate": 0.0,
      "logits/chosen": 0.11977434158325195,
      "logits/rejected": 0.1967284381389618,
      "logps/chosen": -452.91552734375,
      "logps/rejected": -495.7862243652344,
      "loss": 0.4799,
      "rewards/accuracies": 0.75,
      "rewards/chosen": -0.47581416368484497,
      "rewards/margins": 0.5203736424446106,
      "rewards/rejected": -0.9961878657341003,
      "step": 1608
    },
    {
      "epoch": 2.0,
      "step": 1608,
      "total_flos": 0.0,
      "train_loss": 0.5581450056080794,
      "train_runtime": 39294.0243,
      "train_samples_per_second": 2.619,
      "train_steps_per_second": 0.041
    }
  ],
  "logging_steps": 4,
  "max_steps": 1608,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 50,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}