diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,5773 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9998424948810837,
+  "eval_steps": 100,
+  "global_step": 3174,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "grad_norm": 0.322265625,
+      "learning_rate": 1.5723270440251572e-09,
+      "logits/chosen": -1.3876760005950928,
+      "logits/rejected": -1.4584133625030518,
+      "logps/chosen": -148.11717224121094,
+      "logps/rejected": -197.28189086914062,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/margins_max": 0.0,
+      "rewards/margins_min": 0.0,
+      "rewards/margins_std": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.0,
+      "grad_norm": 0.474609375,
+      "learning_rate": 1.5723270440251573e-08,
+      "logits/chosen": -1.2969517707824707,
+      "logits/rejected": -1.0069656372070312,
+      "logps/chosen": -190.4855499267578,
+      "logps/rejected": -182.0135498046875,
+      "loss": 0.6929,
+      "rewards/accuracies": 0.5833333134651184,
+      "rewards/chosen": 0.0011108842445537448,
+      "rewards/margins": 0.001312906388193369,
+      "rewards/margins_max": 0.0032973522320389748,
+      "rewards/margins_min": -0.0006715393392369151,
+      "rewards/margins_std": 0.0028064302168786526,
+      "rewards/rejected": -0.00020202209998387843,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 0.443359375,
+      "learning_rate": 3.1446540880503146e-08,
+      "logits/chosen": -1.36593496799469,
+      "logits/rejected": -1.0528085231781006,
+      "logps/chosen": -225.4935760498047,
+      "logps/rejected": -200.0979766845703,
+      "loss": 0.6933,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": 7.484816160285845e-05,
+      "rewards/margins": -0.0001347160286968574,
+      "rewards/margins_max": 0.0016663169953972101,
+      "rewards/margins_min": -0.0019357489654794335,
+      "rewards/margins_std": 0.0025470454711467028,
+      "rewards/rejected": 0.00020956425578333437,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 0.431640625,
+      "learning_rate": 4.7169811320754715e-08,
+      "logits/chosen": -1.26302170753479,
+      "logits/rejected": -0.982827365398407,
+      "logps/chosen": -180.48269653320312,
+      "logps/rejected": -184.57960510253906,
+      "loss": 0.693,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.0005473994533531368,
+      "rewards/margins": 0.0005724715883843601,
+      "rewards/margins_max": 0.002282569883391261,
+      "rewards/margins_min": -0.0011376264737918973,
+      "rewards/margins_std": 0.002418444026261568,
+      "rewards/rejected": -0.0011198710417374969,
+      "step": 30
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 0.33984375,
+      "learning_rate": 6.289308176100629e-08,
+      "logits/chosen": -1.4589287042617798,
+      "logits/rejected": -1.1574287414550781,
+      "logps/chosen": -225.4607696533203,
+      "logps/rejected": -276.73675537109375,
+      "loss": 0.6935,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 0.00039744950481690466,
+      "rewards/margins": -0.00030673606670461595,
+      "rewards/margins_max": 0.0013146628625690937,
+      "rewards/margins_min": -0.0019281348213553429,
+      "rewards/margins_std": 0.0022930041886866093,
+      "rewards/rejected": 0.0007041855715215206,
+      "step": 40
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 0.515625,
+      "learning_rate": 7.861635220125786e-08,
+      "logits/chosen": -1.3671009540557861,
+      "logits/rejected": -0.8631851077079773,
+      "logps/chosen": -331.6417236328125,
+      "logps/rejected": -205.7646026611328,
+      "loss": 0.6932,
+      "rewards/accuracies": 0.42500001192092896,
+      "rewards/chosen": 0.0002600564039312303,
+      "rewards/margins": -0.0007569913868792355,
+      "rewards/margins_max": 0.0010670910123735666,
+      "rewards/margins_min": -0.002581073669716716,
+      "rewards/margins_std": 0.002579641994088888,
+      "rewards/rejected": 0.0010170477908104658,
+      "step": 50
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 0.451171875,
+      "learning_rate": 9.433962264150943e-08,
+      "logits/chosen": -1.1948202848434448,
+      "logits/rejected": -1.0117332935333252,
+      "logps/chosen": -203.6728515625,
+      "logps/rejected": -264.63153076171875,
+      "loss": 0.6933,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": 0.000772724102716893,
+      "rewards/margins": 1.4207902495400049e-05,
+      "rewards/margins_max": 0.0016571771120652556,
+      "rewards/margins_min": -0.001628761412575841,
+      "rewards/margins_std": 0.0023235089611262083,
+      "rewards/rejected": 0.0007585162529721856,
+      "step": 60
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 0.447265625,
+      "learning_rate": 1.10062893081761e-07,
+      "logits/chosen": -1.4154024124145508,
+      "logits/rejected": -1.0937511920928955,
+      "logps/chosen": -218.91259765625,
+      "logps/rejected": -224.9219207763672,
+      "loss": 0.693,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": 0.00017823689267970622,
+      "rewards/margins": -0.00020709517411887646,
+      "rewards/margins_max": 0.0016052055871114135,
+      "rewards/margins_min": -0.002019395586103201,
+      "rewards/margins_std": 0.00256298016756773,
+      "rewards/rejected": 0.00038533215411007404,
+      "step": 70
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 0.5078125,
+      "learning_rate": 1.2578616352201258e-07,
+      "logits/chosen": -1.2727240324020386,
+      "logits/rejected": -0.9936261177062988,
+      "logps/chosen": -285.10943603515625,
+      "logps/rejected": -266.4510192871094,
+      "loss": 0.6929,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.0009560451726429164,
+      "rewards/margins": 0.0006419096025638282,
+      "rewards/margins_max": 0.0029980712570250034,
+      "rewards/margins_min": -0.0017142522847279906,
+      "rewards/margins_std": 0.003332116873934865,
+      "rewards/rejected": 0.0003141355118714273,
+      "step": 80
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 0.59375,
+      "learning_rate": 1.4150943396226414e-07,
+      "logits/chosen": -1.4589568376541138,
+      "logits/rejected": -1.1692708730697632,
+      "logps/chosen": -212.2246551513672,
+      "logps/rejected": -219.21646118164062,
+      "loss": 0.6927,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 0.0005518359830603004,
+      "rewards/margins": 0.001025562291033566,
+      "rewards/margins_max": 0.0023937453515827656,
+      "rewards/margins_min": -0.0003426209441386163,
+      "rewards/margins_std": 0.001934903091751039,
+      "rewards/rejected": -0.00047372624976560473,
+      "step": 90
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 0.3359375,
+      "learning_rate": 1.5723270440251572e-07,
+      "logits/chosen": -1.405853033065796,
+      "logits/rejected": -0.9023151397705078,
+      "logps/chosen": -257.5167236328125,
+      "logps/rejected": -205.4027862548828,
+      "loss": 0.6925,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.0005634050467051566,
+      "rewards/margins": 0.001445975387468934,
+      "rewards/margins_max": 0.0039651584811508656,
+      "rewards/margins_min": -0.001073207939043641,
+      "rewards/margins_std": 0.0035626632161438465,
+      "rewards/rejected": -0.0008825702825561166,
+      "step": 100
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 0.392578125,
+      "learning_rate": 1.7295597484276728e-07,
+      "logits/chosen": -1.2503092288970947,
+      "logits/rejected": -0.9771049618721008,
+      "logps/chosen": -230.6888427734375,
+      "logps/rejected": -189.9393310546875,
+      "loss": 0.6924,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": 0.000937645963858813,
+      "rewards/margins": 0.001897513517178595,
+      "rewards/margins_max": 0.0035337067674845457,
+      "rewards/margins_min": 0.00026132012135349214,
+      "rewards/margins_std": 0.0023139265831559896,
+      "rewards/rejected": -0.0009598674369044602,
+      "step": 110
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 0.453125,
+      "learning_rate": 1.8867924528301886e-07,
+      "logits/chosen": -1.413317084312439,
+      "logits/rejected": -1.0483345985412598,
+      "logps/chosen": -195.40811157226562,
+      "logps/rejected": -186.1103515625,
+      "loss": 0.6928,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": 0.0013014640426263213,
+      "rewards/margins": 0.0010003356728702784,
+      "rewards/margins_max": 0.0033742673695087433,
+      "rewards/margins_min": -0.0013735961401835084,
+      "rewards/margins_std": 0.003357246518135071,
+      "rewards/rejected": 0.0003011283988598734,
+      "step": 120
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 0.57421875,
+      "learning_rate": 2.0440251572327044e-07,
+      "logits/chosen": -1.1766637563705444,
+      "logits/rejected": -0.9444602131843567,
+      "logps/chosen": -219.5814666748047,
+      "logps/rejected": -248.6021728515625,
+      "loss": 0.6927,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": 0.0013613433111459017,
+      "rewards/margins": 0.0008185977349057794,
+      "rewards/margins_max": 0.0035369223915040493,
+      "rewards/margins_min": -0.0018997270381078124,
+      "rewards/margins_std": 0.0038442914374172688,
+      "rewards/rejected": 0.0005427456344477832,
+      "step": 130
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 0.416015625,
+      "learning_rate": 2.20125786163522e-07,
+      "logits/chosen": -1.1843626499176025,
+      "logits/rejected": -0.9615445137023926,
+      "logps/chosen": -267.6846923828125,
+      "logps/rejected": -216.41455078125,
+      "loss": 0.6923,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 0.0015651207650080323,
+      "rewards/margins": 0.0013728371122851968,
+      "rewards/margins_max": 0.003893634770065546,
+      "rewards/margins_min": -0.0011479605454951525,
+      "rewards/margins_std": 0.0035649463534355164,
+      "rewards/rejected": 0.00019228360906708986,
+      "step": 140
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 0.314453125,
+      "learning_rate": 2.3584905660377358e-07,
+      "logits/chosen": -1.3410217761993408,
+      "logits/rejected": -0.8768698573112488,
+      "logps/chosen": -305.0233154296875,
+      "logps/rejected": -234.83407592773438,
+      "loss": 0.692,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": 0.0015008506597951055,
+      "rewards/margins": 0.002513662213459611,
+      "rewards/margins_max": 0.005906062666326761,
+      "rewards/margins_min": -0.0008787383558228612,
+      "rewards/margins_std": 0.004797579254955053,
+      "rewards/rejected": -0.0010128116700798273,
+      "step": 150
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 0.34765625,
+      "learning_rate": 2.5157232704402517e-07,
+      "logits/chosen": -1.3618042469024658,
+      "logits/rejected": -1.1711941957473755,
+      "logps/chosen": -168.73251342773438,
+      "logps/rejected": -229.12173461914062,
+      "loss": 0.6921,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 0.0013464975636452436,
+      "rewards/margins": 0.0017303951317444444,
+      "rewards/margins_max": 0.002993419300764799,
+      "rewards/margins_min": 0.000467371050035581,
+      "rewards/margins_std": 0.0017861860105767846,
+      "rewards/rejected": -0.0003838978009298444,
+      "step": 160
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 0.326171875,
+      "learning_rate": 2.672955974842767e-07,
+      "logits/chosen": -1.2365471124649048,
+      "logits/rejected": -0.9317380785942078,
+      "logps/chosen": -220.8829345703125,
+      "logps/rejected": -198.69509887695312,
+      "loss": 0.6921,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": 0.0018165509682148695,
+      "rewards/margins": 0.0023886661510914564,
+      "rewards/margins_max": 0.004315841477364302,
+      "rewards/margins_min": 0.0004614906501956284,
+      "rewards/margins_std": 0.0027254377491772175,
+      "rewards/rejected": -0.0005721148918382823,
+      "step": 170
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 0.5625,
+      "learning_rate": 2.830188679245283e-07,
+      "logits/chosen": -1.3770387172698975,
+      "logits/rejected": -1.0459026098251343,
+      "logps/chosen": -213.62649536132812,
+      "logps/rejected": -216.0526580810547,
+      "loss": 0.6916,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.0032491025049239397,
+      "rewards/margins": 0.004016959108412266,
+      "rewards/margins_max": 0.006775864399969578,
+      "rewards/margins_min": 0.0012580546317622066,
+      "rewards/margins_std": 0.0039016795344650745,
+      "rewards/rejected": -0.0007678564870730042,
+      "step": 180
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 0.43359375,
+      "learning_rate": 2.9874213836477983e-07,
+      "logits/chosen": -1.280879259109497,
+      "logits/rejected": -1.0743911266326904,
+      "logps/chosen": -196.5890655517578,
+      "logps/rejected": -215.959228515625,
+      "loss": 0.6916,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": 0.003082216251641512,
+      "rewards/margins": 0.0024519709404557943,
+      "rewards/margins_max": 0.004635250195860863,
+      "rewards/margins_min": 0.0002686919760890305,
+      "rewards/margins_std": 0.003087623044848442,
+      "rewards/rejected": 0.0006302451947703958,
+      "step": 190
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 0.431640625,
+      "learning_rate": 3.1446540880503144e-07,
+      "logits/chosen": -1.312201738357544,
+      "logits/rejected": -1.1042929887771606,
+      "logps/chosen": -219.0549774169922,
+      "logps/rejected": -207.017822265625,
+      "loss": 0.6917,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": 0.001382762915454805,
+      "rewards/margins": 0.002051582094281912,
+      "rewards/margins_max": 0.0041840835474431515,
+      "rewards/margins_min": -8.09192206361331e-05,
+      "rewards/margins_std": 0.0030158127192407846,
+      "rewards/rejected": -0.0006688194698654115,
+      "step": 200
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 0.38671875,
+      "learning_rate": 3.30188679245283e-07,
+      "logits/chosen": -1.4287524223327637,
+      "logits/rejected": -1.090522050857544,
+      "logps/chosen": -237.6526336669922,
+      "logps/rejected": -253.42056274414062,
+      "loss": 0.6913,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": 0.003422607434913516,
+      "rewards/margins": 0.0037254388444125652,
+      "rewards/margins_max": 0.007606147322803736,
+      "rewards/margins_min": -0.00015526966308243573,
+      "rewards/margins_std": 0.005488150753080845,
+      "rewards/rejected": -0.00030283164232969284,
+      "step": 210
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 0.3359375,
+      "learning_rate": 3.4591194968553456e-07,
+      "logits/chosen": -1.3905646800994873,
+      "logits/rejected": -1.1243839263916016,
+      "logps/chosen": -275.39739990234375,
+      "logps/rejected": -198.20419311523438,
+      "loss": 0.6913,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.0038289937656372786,
+      "rewards/margins": 0.0037508513778448105,
+      "rewards/margins_max": 0.00589752709493041,
+      "rewards/margins_min": 0.0016041755443438888,
+      "rewards/margins_std": 0.0030358582735061646,
+      "rewards/rejected": 7.814211130607873e-05,
+      "step": 220
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 0.482421875,
+      "learning_rate": 3.616352201257861e-07,
+      "logits/chosen": -1.4099429845809937,
+      "logits/rejected": -1.1149197816848755,
+      "logps/chosen": -253.6432647705078,
+      "logps/rejected": -201.7845458984375,
+      "loss": 0.6906,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": 0.004002997186034918,
+      "rewards/margins": 0.004339634440839291,
+      "rewards/margins_max": 0.0070360577665269375,
+      "rewards/margins_min": 0.0016432113479822874,
+      "rewards/margins_std": 0.003813318442553282,
+      "rewards/rejected": -0.00033663742942735553,
+      "step": 230
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.482421875,
+      "learning_rate": 3.773584905660377e-07,
+      "logits/chosen": -1.3923314809799194,
+      "logits/rejected": -1.2636398077011108,
+      "logps/chosen": -176.70986938476562,
+      "logps/rejected": -260.1700134277344,
+      "loss": 0.6905,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": 0.003964459989219904,
+      "rewards/margins": 0.0052338032983243465,
+      "rewards/margins_max": 0.008278938010334969,
+      "rewards/margins_min": 0.0021886671893298626,
+      "rewards/margins_std": 0.004306471906602383,
+      "rewards/rejected": -0.0012693424941971898,
+      "step": 240
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.392578125,
+      "learning_rate": 3.9308176100628933e-07,
+      "logits/chosen": -1.4243371486663818,
+      "logits/rejected": -1.1771718263626099,
+      "logps/chosen": -265.36944580078125,
+      "logps/rejected": -217.3080291748047,
+      "loss": 0.6903,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": 0.004339687060564756,
+      "rewards/margins": 0.005566070321947336,
+      "rewards/margins_max": 0.009654941037297249,
+      "rewards/margins_min": 0.00147719937376678,
+      "rewards/margins_std": 0.00578253623098135,
+      "rewards/rejected": -0.0012263832613825798,
+      "step": 250
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.412109375,
+      "learning_rate": 4.088050314465409e-07,
+      "logits/chosen": -1.2650946378707886,
+      "logits/rejected": -0.7829256057739258,
+      "logps/chosen": -283.19415283203125,
+      "logps/rejected": -258.4779052734375,
+      "loss": 0.6898,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": 0.006826590746641159,
+      "rewards/margins": 0.0073587894439697266,
+      "rewards/margins_max": 0.012493086978793144,
+      "rewards/margins_min": 0.002224491210654378,
+      "rewards/margins_std": 0.007260994054377079,
+      "rewards/rejected": -0.0005321979406289756,
+      "step": 260
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 0.51953125,
+      "learning_rate": 4.2452830188679244e-07,
+      "logits/chosen": -1.379631757736206,
+      "logits/rejected": -0.836907684803009,
+      "logps/chosen": -260.239501953125,
+      "logps/rejected": -241.7003631591797,
+      "loss": 0.6892,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.006983810570091009,
+      "rewards/margins": 0.009598185308277607,
+      "rewards/margins_max": 0.013700554147362709,
+      "rewards/margins_min": 0.00549581553786993,
+      "rewards/margins_std": 0.005801626015454531,
+      "rewards/rejected": -0.002614373806864023,
+      "step": 270
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 0.376953125,
+      "learning_rate": 4.40251572327044e-07,
+      "logits/chosen": -1.538783311843872,
+      "logits/rejected": -1.2011783123016357,
+      "logps/chosen": -195.48477172851562,
+      "logps/rejected": -190.34756469726562,
+      "loss": 0.6903,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.004987453110516071,
+      "rewards/margins": 0.005685538984835148,
+      "rewards/margins_max": 0.008754138834774494,
+      "rewards/margins_min": 0.002616937505081296,
+      "rewards/margins_std": 0.004339656792581081,
+      "rewards/rejected": -0.0006980849429965019,
+      "step": 280
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 0.30859375,
+      "learning_rate": 4.559748427672956e-07,
+      "logits/chosen": -1.453611135482788,
+      "logits/rejected": -1.022805094718933,
+      "logps/chosen": -242.57275390625,
+      "logps/rejected": -207.9861602783203,
+      "loss": 0.6885,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.007862430065870285,
+      "rewards/margins": 0.010466397739946842,
+      "rewards/margins_max": 0.015998583287000656,
+      "rewards/margins_min": 0.00493421358987689,
+      "rewards/margins_std": 0.007823689840734005,
+      "rewards/rejected": -0.0026039674412459135,
+      "step": 290
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 0.37109375,
+      "learning_rate": 4.7169811320754717e-07,
+      "logits/chosen": -1.6172186136245728,
+      "logits/rejected": -1.1852935552597046,
+      "logps/chosen": -227.5122528076172,
+      "logps/rejected": -211.18136596679688,
+      "loss": 0.6883,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.01041549351066351,
+      "rewards/margins": 0.009889104403555393,
+      "rewards/margins_max": 0.014782111160457134,
+      "rewards/margins_min": 0.004996097646653652,
+      "rewards/margins_std": 0.006919757463037968,
+      "rewards/rejected": 0.0005263882922008634,
+      "step": 300
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 0.609375,
+      "learning_rate": 4.874213836477988e-07,
+      "logits/chosen": -1.3813108205795288,
+      "logits/rejected": -1.1312620639801025,
+      "logps/chosen": -199.9052276611328,
+      "logps/rejected": -216.5789337158203,
+      "loss": 0.6888,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.009382456541061401,
+      "rewards/margins": 0.008607019670307636,
+      "rewards/margins_max": 0.013246886432170868,
+      "rewards/margins_min": 0.003967151511460543,
+      "rewards/margins_std": 0.0065617635846138,
+      "rewards/rejected": 0.0007754383259452879,
+      "step": 310
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 0.3984375,
+      "learning_rate": 4.999993950030735e-07,
+      "logits/chosen": -1.3889760971069336,
+      "logits/rejected": -1.0410958528518677,
+      "logps/chosen": -250.23452758789062,
+      "logps/rejected": -237.1486053466797,
+      "loss": 0.6888,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.007147905416786671,
+      "rewards/margins": 0.008209905587136745,
+      "rewards/margins_max": 0.013320088386535645,
+      "rewards/margins_min": 0.003099723719060421,
+      "rewards/margins_std": 0.007226888090372086,
+      "rewards/rejected": -0.0010620001703500748,
+      "step": 320
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 0.416015625,
+      "learning_rate": 4.999782204181026e-07,
+      "logits/chosen": -1.4792320728302002,
+      "logits/rejected": -0.9951168298721313,
+      "logps/chosen": -240.000732421875,
+      "logps/rejected": -256.5224304199219,
+      "loss": 0.6873,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.011202135123312473,
+      "rewards/margins": 0.014701342210173607,
+      "rewards/margins_max": 0.022865889593958855,
+      "rewards/margins_min": 0.006536795757710934,
+      "rewards/margins_std": 0.011546412482857704,
+      "rewards/rejected": -0.003499208018183708,
+      "step": 330
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 0.4453125,
+      "learning_rate": 4.999267989149139e-07,
+      "logits/chosen": -1.3123283386230469,
+      "logits/rejected": -0.9737062454223633,
+      "logps/chosen": -181.56187438964844,
+      "logps/rejected": -181.15927124023438,
+      "loss": 0.6872,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.00947630312293768,
+      "rewards/margins": 0.010779361240565777,
+      "rewards/margins_max": 0.014272956177592278,
+      "rewards/margins_min": 0.007285767234861851,
+      "rewards/margins_std": 0.004940689541399479,
+      "rewards/rejected": -0.0013030586997047067,
+      "step": 340
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 0.48828125,
+      "learning_rate": 4.998451367154173e-07,
+      "logits/chosen": -1.3401153087615967,
+      "logits/rejected": -0.9146574139595032,
+      "logps/chosen": -263.080810546875,
+      "logps/rejected": -242.10769653320312,
+      "loss": 0.6867,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.010717710480093956,
+      "rewards/margins": 0.013646000996232033,
+      "rewards/margins_max": 0.021306831389665604,
+      "rewards/margins_min": 0.005985168274492025,
+      "rewards/margins_std": 0.010834051296114922,
+      "rewards/rejected": -0.0029282893519848585,
+      "step": 350
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 0.490234375,
+      "learning_rate": 4.997332437005931e-07,
+      "logits/chosen": -1.6230709552764893,
+      "logits/rejected": -1.197361946105957,
+      "logps/chosen": -276.94305419921875,
+      "logps/rejected": -222.4744110107422,
+      "loss": 0.6867,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.01071252953261137,
+      "rewards/margins": 0.014663497917354107,
+      "rewards/margins_max": 0.023539308458566666,
+      "rewards/margins_min": 0.005787692964076996,
+      "rewards/margins_std": 0.012552286498248577,
+      "rewards/rejected": -0.003950969781726599,
+      "step": 360
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 0.404296875,
+      "learning_rate": 4.995911334092962e-07,
+      "logits/chosen": -1.4035460948944092,
+      "logits/rejected": -1.0208442211151123,
+      "logps/chosen": -231.21987915039062,
+      "logps/rejected": -171.5296630859375,
+      "loss": 0.6846,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.012600275687873363,
+      "rewards/margins": 0.01731901802122593,
+      "rewards/margins_max": 0.023710820823907852,
+      "rewards/margins_min": 0.010927212424576283,
+      "rewards/margins_std": 0.0090393777936697,
+      "rewards/rejected": -0.0047187404707074165,
+      "step": 370
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 0.345703125,
+      "learning_rate": 4.994188230366183e-07,
+      "logits/chosen": -1.3101140260696411,
+      "logits/rejected": -1.0723780393600464,
+      "logps/chosen": -228.2586669921875,
+      "logps/rejected": -181.29495239257812,
+      "loss": 0.6858,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.01025369018316269,
+      "rewards/margins": 0.014498481526970863,
+      "rewards/margins_max": 0.023106779903173447,
+      "rewards/margins_min": 0.005890182219445705,
+      "rewards/margins_std": 0.012173972092568874,
+      "rewards/rejected": -0.004244790878146887,
+      "step": 380
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 0.380859375,
+      "learning_rate": 4.992163334318065e-07,
+      "logits/chosen": -1.295276165008545,
+      "logits/rejected": -0.8806821703910828,
+      "logps/chosen": -266.9888916015625,
+      "logps/rejected": -213.50936889648438,
+      "loss": 0.6845,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.012072061188519001,
+      "rewards/margins": 0.016327695921063423,
+      "rewards/margins_max": 0.02478429302573204,
+      "rewards/margins_min": 0.007871100679039955,
+      "rewards/margins_std": 0.011959430761635303,
+      "rewards/rejected": -0.004255634266883135,
+      "step": 390
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 0.384765625,
+      "learning_rate": 4.989836890957414e-07,
+      "logits/chosen": -1.3160616159439087,
+      "logits/rejected": -0.985907256603241,
+      "logps/chosen": -209.94921875,
+      "logps/rejected": -199.602294921875,
+      "loss": 0.6861,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.011544553562998772,
+      "rewards/margins": 0.013081875629723072,
+      "rewards/margins_max": 0.020108871161937714,
+      "rewards/margins_min": 0.00605488196015358,
+      "rewards/margins_std": 0.009937671013176441,
+      "rewards/rejected": -0.0015373228816315532,
+      "step": 400
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 0.55859375,
+      "learning_rate": 4.987209181779722e-07,
+      "logits/chosen": -1.4713616371154785,
+      "logits/rejected": -1.2096041440963745,
+      "logps/chosen": -192.724853515625,
+      "logps/rejected": -176.57815551757812,
+      "loss": 0.6856,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.012110630050301552,
+      "rewards/margins": 0.013713735155761242,
+      "rewards/margins_max": 0.019766617566347122,
+      "rewards/margins_min": 0.007660853676497936,
+      "rewards/margins_std": 0.008560067042708397,
+      "rewards/rejected": -0.0016031056875362992,
+      "step": 410
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 0.390625,
+      "learning_rate": 4.984280524733107e-07,
+      "logits/chosen": -1.367755651473999,
+      "logits/rejected": -0.9895979762077332,
+      "logps/chosen": -256.28277587890625,
+      "logps/rejected": -244.4967041015625,
+      "loss": 0.6819,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.02168741635978222,
+      "rewards/margins": 0.0215130727738142,
+      "rewards/margins_max": 0.03101455047726631,
+      "rewards/margins_min": 0.012011596001684666,
+      "rewards/margins_std": 0.013437116518616676,
+      "rewards/rejected": 0.00017434502660762519,
+      "step": 420
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 0.443359375,
+      "learning_rate": 4.98105127417984e-07,
+      "logits/chosen": -1.3296594619750977,
+      "logits/rejected": -1.030011773109436,
+      "logps/chosen": -259.4856872558594,
+      "logps/rejected": -251.21728515625,
+      "loss": 0.6827,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": 0.019032226875424385,
+      "rewards/margins": 0.019077284261584282,
+      "rewards/margins_max": 0.032611675560474396,
+      "rewards/margins_min": 0.005542895756661892,
+      "rewards/margins_std": 0.019140515476465225,
+      "rewards/rejected": -4.505945253185928e-05,
+      "step": 430
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 0.462890625,
+      "learning_rate": 4.97752182085347e-07,
+      "logits/chosen": -1.513671636581421,
+      "logits/rejected": -0.9878429174423218,
+      "logps/chosen": -207.31887817382812,
+      "logps/rejected": -203.1181640625,
+      "loss": 0.6832,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": 0.02094658836722374,
+      "rewards/margins": 0.020975876599550247,
+      "rewards/margins_max": 0.0333896279335022,
+      "rewards/margins_min": 0.008562122471630573,
+      "rewards/margins_std": 0.01755569875240326,
+      "rewards/rejected": -2.9285531127243303e-05,
+      "step": 440
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 0.490234375,
+      "learning_rate": 4.973692591811548e-07,
+      "logits/chosen": -1.3032740354537964,
+      "logits/rejected": -1.1484416723251343,
+      "logps/chosen": -212.3832550048828,
+      "logps/rejected": -230.93881225585938,
+      "loss": 0.684,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.01571028307080269,
+      "rewards/margins": 0.018571963533759117,
+      "rewards/margins_max": 0.028482910245656967,
+      "rewards/margins_min": 0.008661014959216118,
+      "rewards/margins_std": 0.014016198925673962,
+      "rewards/rejected": -0.002861680928617716,
+      "step": 450
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 0.353515625,
+      "learning_rate": 4.96956405038395e-07,
+      "logits/chosen": -1.2598702907562256,
+      "logits/rejected": -0.9527764320373535,
+      "logps/chosen": -172.1599578857422,
+      "logps/rejected": -211.24148559570312,
+      "loss": 0.6821,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.015954652801156044,
+      "rewards/margins": 0.020714178681373596,
+      "rewards/margins_max": 0.03062686324119568,
+      "rewards/margins_min": 0.010801494121551514,
+      "rewards/margins_std": 0.014018652029335499,
+      "rewards/rejected": -0.004759527277201414,
+      "step": 460
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 0.40234375,
+      "learning_rate": 4.965136696116812e-07,
+      "logits/chosen": -1.3497663736343384,
+      "logits/rejected": -1.029840111732483,
+      "logps/chosen": -213.888916015625,
+      "logps/rejected": -260.24090576171875,
+      "loss": 0.6804,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.020394446328282356,
+      "rewards/margins": 0.026438722386956215,
+      "rewards/margins_max": 0.037151582539081573,
+      "rewards/margins_min": 0.015725860372185707,
+      "rewards/margins_std": 0.015150276012718678,
+      "rewards/rejected": -0.006044276989996433,
+      "step": 470
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 0.515625,
+      "learning_rate": 4.960411064712094e-07,
+      "logits/chosen": -1.3540217876434326,
+      "logits/rejected": -1.0137008428573608,
+      "logps/chosen": -183.4146270751953,
+      "logps/rejected": -218.0957489013672,
+      "loss": 0.6826,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.0185568667948246,
+      "rewards/margins": 0.021527493372559547,
+      "rewards/margins_max": 0.031103383749723434,
+      "rewards/margins_min": 0.011951602064073086,
+      "rewards/margins_std": 0.013542355969548225,
+      "rewards/rejected": -0.002970626810565591,
+      "step": 480
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 0.431640625,
+      "learning_rate": 4.955387727962759e-07,
+      "logits/chosen": -1.469268798828125,
+      "logits/rejected": -1.1933975219726562,
+      "logps/chosen": -175.39476013183594,
+      "logps/rejected": -170.35171508789062,
+      "loss": 0.6835,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.016227375715970993,
+      "rewards/margins": 0.018915237858891487,
+      "rewards/margins_max": 0.028273263946175575,
+      "rewards/margins_min": 0.009557214565575123,
+      "rewards/margins_std": 0.013234244659543037,
+      "rewards/rejected": -0.0026878633070737123,
+      "step": 490
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.39453125,
+      "learning_rate": 4.95006729368358e-07,
+      "logits/chosen": -1.591016411781311,
+      "logits/rejected": -1.1849809885025024,
+      "logps/chosen": -215.30050659179688,
+      "logps/rejected": -204.9720458984375,
+      "loss": 0.6813,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.017296748235821724,
+      "rewards/margins": 0.025146162137389183,
+      "rewards/margins_max": 0.03591996058821678,
+      "rewards/margins_min": 0.014372363686561584,
+      "rewards/margins_std": 0.015236446633934975,
+      "rewards/rejected": -0.007849409244954586,
+      "step": 500
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.36328125,
+      "learning_rate": 4.944450405637601e-07,
+      "logits/chosen": -1.3407318592071533,
+      "logits/rejected": -1.0564701557159424,
+      "logps/chosen": -208.2605438232422,
+      "logps/rejected": -194.71420288085938,
+      "loss": 0.681,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.014876808039844036,
+      "rewards/margins": 0.02353464625775814,
+      "rewards/margins_max": 0.03144057095050812,
+      "rewards/margins_min": 0.015628723427653313,
+      "rewards/margins_std": 0.011180664412677288,
+      "rewards/rejected": -0.008657841011881828,
+      "step": 510
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.34375,
+      "learning_rate": 4.938537743458248e-07,
+      "logits/chosen": -1.3480737209320068,
+      "logits/rejected": -1.028096318244934,
+      "logps/chosen": -179.07174682617188,
+      "logps/rejected": -181.2510223388672,
+      "loss": 0.684,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.019465144723653793,
+      "rewards/margins": 0.02149110659956932,
+      "rewards/margins_max": 0.032975539565086365,
+      "rewards/margins_min": 0.010006672702729702,
+      "rewards/margins_std": 0.016241444274783134,
+      "rewards/rejected": -0.0020259625744074583,
+      "step": 520
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 0.46484375,
+      "learning_rate": 4.932330022567081e-07,
+      "logits/chosen": -1.3110549449920654,
+      "logits/rejected": -1.0896965265274048,
+      "logps/chosen": -212.4080810546875,
+      "logps/rejected": -204.01026916503906,
+      "loss": 0.6808,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.018044626340270042,
+      "rewards/margins": 0.027044925838708878,
+      "rewards/margins_max": 0.03969361633062363,
+      "rewards/margins_min": 0.01439622975885868,
+      "rewards/margins_std": 0.017887955531477928,
+      "rewards/rejected": -0.009000294841825962,
+      "step": 530
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 0.4453125,
+      "learning_rate": 4.925827994087244e-07,
+      "logits/chosen": -1.467350721359253,
+      "logits/rejected": -0.9765011072158813,
+      "logps/chosen": -196.60804748535156,
+      "logps/rejected": -212.77114868164062,
+      "loss": 0.6806,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.022185953333973885,
+      "rewards/margins": 0.024724114686250687,
+      "rewards/margins_max": 0.03783790022134781,
+      "rewards/margins_min": 0.011610329151153564,
+      "rewards/margins_std": 0.018545694649219513,
+      "rewards/rejected": -0.00253815995529294,
+      "step": 540
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 0.41015625,
+      "learning_rate": 4.91903244475257e-07,
+      "logits/chosen": -1.4453445672988892,
+      "logits/rejected": -1.2255735397338867,
+      "logps/chosen": -233.5497589111328,
+      "logps/rejected": -203.3679962158203,
+      "loss": 0.6799,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.022691726684570312,
+      "rewards/margins": 0.027249213308095932,
+      "rewards/margins_max": 0.042755015194416046,
+      "rewards/margins_min": 0.011743416078388691,
+      "rewards/margins_std": 0.021928513422608376,
+      "rewards/rejected": -0.004557489417493343,
+      "step": 550
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 0.326171875,
+      "learning_rate": 4.91194419681239e-07,
+      "logits/chosen": -1.4020469188690186,
+      "logits/rejected": -1.0889606475830078,
+      "logps/chosen": -201.20901489257812,
+      "logps/rejected": -204.1788330078125,
+      "loss": 0.681,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.024152381345629692,
+      "rewards/margins": 0.02786511741578579,
+      "rewards/margins_max": 0.042585860937833786,
+      "rewards/margins_min": 0.013144371099770069,
+      "rewards/margins_std": 0.020818280056118965,
+      "rewards/rejected": -0.00371273560449481,
+      "step": 560
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 0.462890625,
+      "learning_rate": 4.904564107932048e-07,
+      "logits/chosen": -1.2641432285308838,
+      "logits/rejected": -0.897659182548523,
+      "logps/chosen": -271.8118896484375,
+      "logps/rejected": -239.61300659179688,
+      "loss": 0.6815,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.017158251255750656,
+      "rewards/margins": 0.024462290108203888,
+      "rewards/margins_max": 0.03610853850841522,
+      "rewards/margins_min": 0.012816043570637703,
+      "rewards/margins_std": 0.016470283269882202,
+      "rewards/rejected": -0.007304038852453232,
+      "step": 570
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 0.4296875,
+      "learning_rate": 4.896893071089115e-07,
+      "logits/chosen": -1.3425147533416748,
+      "logits/rejected": -1.0659515857696533,
+      "logps/chosen": -230.05111694335938,
+      "logps/rejected": -245.98550415039062,
+      "loss": 0.6748,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.02490960620343685,
+      "rewards/margins": 0.0353575199842453,
+      "rewards/margins_max": 0.05103808641433716,
+      "rewards/margins_min": 0.019676949828863144,
+      "rewards/margins_std": 0.022175675258040428,
+      "rewards/rejected": -0.010447912849485874,
+      "step": 580
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 0.40625,
+      "learning_rate": 4.888932014465352e-07,
+      "logits/chosen": -1.313063383102417,
+      "logits/rejected": -0.9944307208061218,
+      "logps/chosen": -208.10879516601562,
+      "logps/rejected": -223.5287322998047,
+      "loss": 0.679,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.022358160465955734,
+      "rewards/margins": 0.03080761432647705,
+      "rewards/margins_max": 0.04008474573493004,
+      "rewards/margins_min": 0.021530481055378914,
+      "rewards/margins_std": 0.013119848445057869,
+      "rewards/rejected": -0.008449452929198742,
+      "step": 590
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 0.5,
+      "learning_rate": 4.88068190133439e-07,
+      "logits/chosen": -1.4195083379745483,
+      "logits/rejected": -1.1984379291534424,
+      "logps/chosen": -293.54132080078125,
+      "logps/rejected": -259.38360595703125,
+      "loss": 0.6771,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.023516178131103516,
+      "rewards/margins": 0.03416413068771362,
+      "rewards/margins_max": 0.045261941850185394,
+      "rewards/margins_min": 0.023066317662596703,
+      "rewards/margins_std": 0.01569467782974243,
+      "rewards/rejected": -0.010647954419255257,
+      "step": 600
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 0.40625,
+      "learning_rate": 4.872143729945184e-07,
+      "logits/chosen": -1.2229716777801514,
+      "logits/rejected": -0.8150213360786438,
+      "logps/chosen": -218.43276977539062,
+      "logps/rejected": -191.75827026367188,
+      "loss": 0.6784,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.022476380690932274,
+      "rewards/margins": 0.03276657313108444,
+      "rewards/margins_max": 0.046399351209402084,
+      "rewards/margins_min": 0.019133802503347397,
+      "rewards/margins_std": 0.019279656931757927,
+      "rewards/rejected": -0.010290195234119892,
+      "step": 610
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.466796875,
+      "learning_rate": 4.863318533401223e-07,
+      "logits/chosen": -1.3115172386169434,
+      "logits/rejected": -0.8752225041389465,
+      "logps/chosen": -246.44140625,
+      "logps/rejected": -270.7298278808594,
+      "loss": 0.6758,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.02260987088084221,
+      "rewards/margins": 0.034483883529901505,
+      "rewards/margins_max": 0.053231727331876755,
+      "rewards/margins_min": 0.015736039727926254,
+      "rewards/margins_std": 0.02651345357298851,
+      "rewards/rejected": -0.01187401358038187,
+      "step": 620
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.326171875,
+      "learning_rate": 4.854207379535528e-07,
+      "logits/chosen": -1.4319788217544556,
+      "logits/rejected": -1.0323983430862427,
+      "logps/chosen": -254.2920684814453,
+      "logps/rejected": -237.34378051757812,
+      "loss": 0.6786,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.017374712973833084,
+      "rewards/margins": 0.029332011938095093,
+      "rewards/margins_max": 0.04456937313079834,
+      "rewards/margins_min": 0.014094656333327293,
+      "rewards/margins_std": 0.021548878401517868,
+      "rewards/rejected": -0.011957301758229733,
+      "step": 630
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.404296875,
+      "learning_rate": 4.844811370781446e-07,
+      "logits/chosen": -1.4312872886657715,
+      "logits/rejected": -0.9997726678848267,
+      "logps/chosen": -244.96224975585938,
+      "logps/rejected": -225.2017059326172,
+      "loss": 0.6778,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.030679643154144287,
+      "rewards/margins": 0.03587724640965462,
+      "rewards/margins_max": 0.05194888263940811,
+      "rewards/margins_min": 0.01980561390519142,
+      "rewards/margins_std": 0.022728722542524338,
+      "rewards/rejected": -0.00519760325551033,
+      "step": 640
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.4453125,
+      "learning_rate": 4.835131644039251e-07,
+      "logits/chosen": -1.4758861064910889,
+      "logits/rejected": -0.9546338319778442,
+      "logps/chosen": -339.2093505859375,
+      "logps/rejected": -224.3199920654297,
+      "loss": 0.6737,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.02631019614636898,
+      "rewards/margins": 0.04230981320142746,
+      "rewards/margins_max": 0.05546834319829941,
+      "rewards/margins_min": 0.02915129065513611,
+      "rewards/margins_std": 0.01860896497964859,
+      "rewards/rejected": -0.015999620780348778,
+      "step": 650
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 0.330078125,
+      "learning_rate": 4.825169370538594e-07,
+      "logits/chosen": -1.2813438177108765,
+      "logits/rejected": -1.069059133529663,
+      "logps/chosen": -231.5976104736328,
+      "logps/rejected": -245.3614501953125,
+      "loss": 0.6778,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": 0.02429072931408882,
+      "rewards/margins": 0.027610447257757187,
+      "rewards/margins_max": 0.0455966591835022,
+      "rewards/margins_min": 0.009624237194657326,
+      "rewards/margins_std": 0.025436347350478172,
+      "rewards/rejected": -0.003319723065942526,
+      "step": 660
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 0.46484375,
+      "learning_rate": 4.814925755696778e-07,
+      "logits/chosen": -1.4551244974136353,
+      "logits/rejected": -0.9832841157913208,
+      "logps/chosen": -288.0592346191406,
+      "logps/rejected": -252.08364868164062,
+      "loss": 0.6752,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.028888309374451637,
+      "rewards/margins": 0.03665446117520332,
+      "rewards/margins_max": 0.05256615951657295,
+      "rewards/margins_min": 0.020742762833833694,
+      "rewards/margins_std": 0.022502535954117775,
+      "rewards/rejected": -0.007766152266412973,
+      "step": 670
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 0.546875,
+      "learning_rate": 4.804402038972899e-07,
+      "logits/chosen": -1.4220234155654907,
+      "logits/rejected": -1.02151358127594,
+      "logps/chosen": -271.8201599121094,
+      "logps/rejected": -273.0591735839844,
+      "loss": 0.6743,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.028314124792814255,
+      "rewards/margins": 0.03461919724941254,
+      "rewards/margins_max": 0.0456906296312809,
+      "rewards/margins_min": 0.02354777231812477,
+      "rewards/margins_std": 0.015657365322113037,
+      "rewards/rejected": -0.006305074784904718,
+      "step": 680
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 0.279296875,
+      "learning_rate": 4.79359949371789e-07,
+      "logits/chosen": -1.3343526124954224,
+      "logits/rejected": -0.9362949132919312,
+      "logps/chosen": -257.0128173828125,
+      "logps/rejected": -225.06753540039062,
+      "loss": 0.6765,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.025834929198026657,
+      "rewards/margins": 0.035724394023418427,
+      "rewards/margins_max": 0.04703225940465927,
+      "rewards/margins_min": 0.024416524916887283,
+      "rewards/margins_std": 0.015991736203432083,
+      "rewards/rejected": -0.009889459237456322,
+      "step": 690
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 0.41796875,
+      "learning_rate": 4.782519427020432e-07,
+      "logits/chosen": -1.3143739700317383,
+      "logits/rejected": -0.9841324687004089,
+      "logps/chosen": -204.9932098388672,
+      "logps/rejected": -218.54141235351562,
+      "loss": 0.6756,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.016944795846939087,
+      "rewards/margins": 0.0319121815264225,
+      "rewards/margins_max": 0.04973548650741577,
+      "rewards/margins_min": 0.014088879339396954,
+      "rewards/margins_std": 0.025205958634614944,
+      "rewards/rejected": -0.014967384748160839,
+      "step": 700
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 0.33203125,
+      "learning_rate": 4.771163179548808e-07,
+      "logits/chosen": -1.3899494409561157,
+      "logits/rejected": -0.9665300250053406,
+      "logps/chosen": -333.5497131347656,
+      "logps/rejected": -231.9584503173828,
+      "loss": 0.6699,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.027130257338285446,
+      "rewards/margins": 0.04676414281129837,
+      "rewards/margins_max": 0.06533849239349365,
+      "rewards/margins_min": 0.028189798817038536,
+      "rewards/margins_std": 0.026268085464835167,
+      "rewards/rejected": -0.019633881747722626,
+      "step": 710
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 0.43359375,
+      "learning_rate": 4.75953212538868e-07,
+      "logits/chosen": -1.2207629680633545,
+      "logits/rejected": -0.8575620651245117,
+      "logps/chosen": -263.4650573730469,
+      "logps/rejected": -233.98886108398438,
+      "loss": 0.6717,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03418269008398056,
+      "rewards/margins": 0.05005268007516861,
+      "rewards/margins_max": 0.0767994374036789,
+      "rewards/margins_min": 0.02330590970814228,
+      "rewards/margins_std": 0.03782564401626587,
+      "rewards/rejected": -0.0158699844032526,
+      "step": 720
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 0.404296875,
+      "learning_rate": 4.7476276718768284e-07,
+      "logits/chosen": -1.434762716293335,
+      "logits/rejected": -1.0808919668197632,
+      "logps/chosen": -206.06533813476562,
+      "logps/rejected": -218.6961669921875,
+      "loss": 0.6751,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.026135995984077454,
+      "rewards/margins": 0.03937443345785141,
+      "rewards/margins_max": 0.05718846991658211,
+      "rewards/margins_min": 0.021560396999120712,
+      "rewards/margins_std": 0.025192851200699806,
+      "rewards/rejected": -0.01323844026774168,
+      "step": 730
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 0.41015625,
+      "learning_rate": 4.7354512594308654e-07,
+      "logits/chosen": -1.3616220951080322,
+      "logits/rejected": -1.1791460514068604,
+      "logps/chosen": -193.25332641601562,
+      "logps/rejected": -197.8474578857422,
+      "loss": 0.6753,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.024115614593029022,
+      "rewards/margins": 0.03462132811546326,
+      "rewards/margins_max": 0.052414439618587494,
+      "rewards/margins_min": 0.016828209161758423,
+      "rewards/margins_std": 0.02516326680779457,
+      "rewards/rejected": -0.010505708865821362,
+      "step": 740
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.431640625,
+      "learning_rate": 4.7230043613749527e-07,
+      "logits/chosen": -1.3196706771850586,
+      "logits/rejected": -1.0803533792495728,
+      "logps/chosen": -229.3977813720703,
+      "logps/rejected": -198.8769989013672,
+      "loss": 0.6758,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.023436803370714188,
+      "rewards/margins": 0.03306025639176369,
+      "rewards/margins_max": 0.05252969264984131,
+      "rewards/margins_min": 0.013590824790298939,
+      "rewards/margins_std": 0.027533939108252525,
+      "rewards/rejected": -0.009623454883694649,
+      "step": 750
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.373046875,
+      "learning_rate": 4.710288483761524e-07,
+      "logits/chosen": -1.1608425378799438,
+      "logits/rejected": -0.8409261703491211,
+      "logps/chosen": -238.56130981445312,
+      "logps/rejected": -212.3688507080078,
+      "loss": 0.677,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.01990620419383049,
+      "rewards/margins": 0.038102246820926666,
+      "rewards/margins_max": 0.053315240889787674,
+      "rewards/margins_min": 0.022889258340001106,
+      "rewards/margins_std": 0.021514419466257095,
+      "rewards/rejected": -0.018196044489741325,
+      "step": 760
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.38671875,
+      "learning_rate": 4.697305165189062e-07,
+      "logits/chosen": -1.4269897937774658,
+      "logits/rejected": -1.0499980449676514,
+      "logps/chosen": -230.6156768798828,
+      "logps/rejected": -229.01708984375,
+      "loss": 0.6741,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.028978174552321434,
+      "rewards/margins": 0.03824831172823906,
+      "rewards/margins_max": 0.06103180721402168,
+      "rewards/margins_min": 0.015464827418327332,
+      "rewards/margins_std": 0.03222071751952171,
+      "rewards/rejected": -0.009270140901207924,
+      "step": 770
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 0.546875,
+      "learning_rate": 4.6840559766159235e-07,
+      "logits/chosen": -1.3930243253707886,
+      "logits/rejected": -0.9540492296218872,
+      "logps/chosen": -225.96084594726562,
+      "logps/rejected": -237.0554962158203,
+      "loss": 0.6711,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03488198295235634,
+      "rewards/margins": 0.05557037144899368,
+      "rewards/margins_max": 0.07404030859470367,
+      "rewards/margins_min": 0.0371004194021225,
+      "rewards/margins_std": 0.026120448485016823,
+      "rewards/rejected": -0.02068837732076645,
+      "step": 780
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 0.5078125,
+      "learning_rate": 4.6705425211702656e-07,
+      "logits/chosen": -1.4000756740570068,
+      "logits/rejected": -1.1083465814590454,
+      "logps/chosen": -172.87281799316406,
+      "logps/rejected": -189.81704711914062,
+      "loss": 0.6745,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.023823823779821396,
+      "rewards/margins": 0.0378737710416317,
+      "rewards/margins_max": 0.05512396618723869,
+      "rewards/margins_min": 0.020623570308089256,
+      "rewards/margins_std": 0.02439546398818493,
+      "rewards/rejected": -0.014049944467842579,
+      "step": 790
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 0.431640625,
+      "learning_rate": 4.656766433956062e-07,
+      "logits/chosen": -1.3979090452194214,
+      "logits/rejected": -0.8946587443351746,
+      "logps/chosen": -248.97512817382812,
+      "logps/rejected": -218.88919067382812,
+      "loss": 0.6695,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03325175121426582,
+      "rewards/margins": 0.05383073538541794,
+      "rewards/margins_max": 0.07829690724611282,
+      "rewards/margins_min": 0.02936457097530365,
+      "rewards/margins_std": 0.034600384533405304,
+      "rewards/rejected": -0.020578987896442413,
+      "step": 800
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 0.337890625,
+      "learning_rate": 4.6427293818552613e-07,
+      "logits/chosen": -1.4188311100006104,
+      "logits/rejected": -0.9876410365104675,
+      "logps/chosen": -234.7069854736328,
+      "logps/rejected": -182.8696746826172,
+      "loss": 0.6725,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03687068074941635,
+      "rewards/margins": 0.04073936119675636,
+      "rewards/margins_max": 0.05916820093989372,
+      "rewards/margins_min": 0.022310517728328705,
+      "rewards/margins_std": 0.026062315329909325,
+      "rewards/rejected": -0.0038686811458319426,
+      "step": 810
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 0.498046875,
+      "learning_rate": 4.6284330633260994e-07,
+      "logits/chosen": -1.3178324699401855,
+      "logits/rejected": -0.9743862152099609,
+      "logps/chosen": -202.13705444335938,
+      "logps/rejected": -199.08094787597656,
+      "loss": 0.6723,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.0206548273563385,
+      "rewards/margins": 0.038690946996212006,
+      "rewards/margins_max": 0.057139646261930466,
+      "rewards/margins_min": 0.020242247730493546,
+      "rewards/margins_std": 0.026090402156114578,
+      "rewards/rejected": -0.018036121502518654,
+      "step": 820
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 0.40625,
+      "learning_rate": 4.6138792081975844e-07,
+      "logits/chosen": -1.4049233198165894,
+      "logits/rejected": -1.0411832332611084,
+      "logps/chosen": -223.6266632080078,
+      "logps/rejected": -188.9544219970703,
+      "loss": 0.6723,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03218904137611389,
+      "rewards/margins": 0.04215382784605026,
+      "rewards/margins_max": 0.06759864091873169,
+      "rewards/margins_min": 0.016709014773368835,
+      "rewards/margins_std": 0.03598439693450928,
+      "rewards/rejected": -0.009964784607291222,
+      "step": 830
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 0.41796875,
+      "learning_rate": 4.599069577460194e-07,
+      "logits/chosen": -1.4191118478775024,
+      "logits/rejected": -1.1629408597946167,
+      "logps/chosen": -280.8072814941406,
+      "logps/rejected": -243.64645385742188,
+      "loss": 0.6685,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.04105687886476517,
+      "rewards/margins": 0.05216727405786514,
+      "rewards/margins_max": 0.07590137422084808,
+      "rewards/margins_min": 0.028433170169591904,
+      "rewards/margins_std": 0.033565085381269455,
+      "rewards/rejected": -0.011110392399132252,
+      "step": 840
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 0.3515625,
+      "learning_rate": 4.5840059630527985e-07,
+      "logits/chosen": -1.505789875984192,
+      "logits/rejected": -1.090831995010376,
+      "logps/chosen": -203.38735961914062,
+      "logps/rejected": -218.90292358398438,
+      "loss": 0.6706,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.035862646996974945,
+      "rewards/margins": 0.048062682151794434,
+      "rewards/margins_max": 0.06934330612421036,
+      "rewards/margins_min": 0.02678206004202366,
+      "rewards/margins_std": 0.030095338821411133,
+      "rewards/rejected": -0.01220003329217434,
+      "step": 850
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 0.466796875,
+      "learning_rate": 4.5686901876458384e-07,
+      "logits/chosen": -1.4151548147201538,
+      "logits/rejected": -1.0735548734664917,
+      "logps/chosen": -211.01199340820312,
+      "logps/rejected": -224.63619995117188,
+      "loss": 0.6725,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.02967039868235588,
+      "rewards/margins": 0.04329541698098183,
+      "rewards/margins_max": 0.0652666911482811,
+      "rewards/margins_min": 0.021324139088392258,
+      "rewards/margins_std": 0.03107207641005516,
+      "rewards/rejected": -0.013625016435980797,
+      "step": 860
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 0.46484375,
+      "learning_rate": 4.553124104420784e-07,
+      "logits/chosen": -1.3255832195281982,
+      "logits/rejected": -1.1080420017242432,
+      "logps/chosen": -205.3770751953125,
+      "logps/rejected": -209.04660034179688,
+      "loss": 0.6728,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.022777115926146507,
+      "rewards/margins": 0.0444360189139843,
+      "rewards/margins_max": 0.06135256215929985,
+      "rewards/margins_min": 0.02751948870718479,
+      "rewards/margins_std": 0.023923594504594803,
+      "rewards/rejected": -0.02165890485048294,
+      "step": 870
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 0.353515625,
+      "learning_rate": 4.537309596845905e-07,
+      "logits/chosen": -1.4212206602096558,
+      "logits/rejected": -1.1468111276626587,
+      "logps/chosen": -203.2875213623047,
+      "logps/rejected": -183.04867553710938,
+      "loss": 0.6704,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03265067934989929,
+      "rewards/margins": 0.04764062911272049,
+      "rewards/margins_max": 0.06543318927288055,
+      "rewards/margins_min": 0.029848068952560425,
+      "rewards/margins_std": 0.025162484496831894,
+      "rewards/rejected": -0.014989949762821198,
+      "step": 880
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 0.333984375,
+      "learning_rate": 4.521248578448373e-07,
+      "logits/chosen": -1.295290231704712,
+      "logits/rejected": -1.2244700193405151,
+      "logps/chosen": -167.2049560546875,
+      "logps/rejected": -235.2522735595703,
+      "loss": 0.6736,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.021955791860818863,
+      "rewards/margins": 0.0307827889919281,
+      "rewards/margins_max": 0.04658069089055061,
+      "rewards/margins_min": 0.01498488150537014,
+      "rewards/margins_std": 0.022341612726449966,
+      "rewards/rejected": -0.008826995268464088,
+      "step": 890
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 0.392578125,
+      "learning_rate": 4.504942992582732e-07,
+      "logits/chosen": -1.2876170873641968,
+      "logits/rejected": -1.070996642112732,
+      "logps/chosen": -201.41519165039062,
+      "logps/rejected": -215.9574737548828,
+      "loss": 0.6713,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.033751118928194046,
+      "rewards/margins": 0.03825461119413376,
+      "rewards/margins_max": 0.05966836214065552,
+      "rewards/margins_min": 0.016840863972902298,
+      "rewards/margins_std": 0.030283614993095398,
+      "rewards/rejected": -0.004503494594246149,
+      "step": 900
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 0.3671875,
+      "learning_rate": 4.4883948121957483e-07,
+      "logits/chosen": -1.3818947076797485,
+      "logits/rejected": -1.1178925037384033,
+      "logps/chosen": -170.48712158203125,
+      "logps/rejected": -221.67098999023438,
+      "loss": 0.6719,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.028661269694566727,
+      "rewards/margins": 0.04194828122854233,
+      "rewards/margins_max": 0.06600390374660492,
+      "rewards/margins_min": 0.017892662435770035,
+      "rewards/margins_std": 0.03401978313922882,
+      "rewards/rejected": -0.013287017121911049,
+      "step": 910
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 0.4609375,
+      "learning_rate": 4.471606039587695e-07,
+      "logits/chosen": -1.4353498220443726,
+      "logits/rejected": -1.2498797178268433,
+      "logps/chosen": -250.303466796875,
+      "logps/rejected": -252.1241912841797,
+      "loss": 0.6728,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.030318697914481163,
+      "rewards/margins": 0.03714519739151001,
+      "rewards/margins_max": 0.05723171681165695,
+      "rewards/margins_min": 0.01705867424607277,
+      "rewards/margins_std": 0.02840663120150566,
+      "rewards/rejected": -0.006826499011367559,
+      "step": 920
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 0.298828125,
+      "learning_rate": 4.4545787061700746e-07,
+      "logits/chosen": -1.4596531391143799,
+      "logits/rejected": -0.9841306805610657,
+      "logps/chosen": -191.699462890625,
+      "logps/rejected": -231.6093292236328,
+      "loss": 0.6695,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.037762559950351715,
+      "rewards/margins": 0.05371398851275444,
+      "rewards/margins_max": 0.07777608931064606,
+      "rewards/margins_min": 0.029651891440153122,
+      "rewards/margins_std": 0.03402894735336304,
+      "rewards/rejected": -0.015951428562402725,
+      "step": 930
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 0.478515625,
+      "learning_rate": 4.4373148722198183e-07,
+      "logits/chosen": -1.3031915426254272,
+      "logits/rejected": -0.9831310510635376,
+      "logps/chosen": -203.33865356445312,
+      "logps/rejected": -233.1627197265625,
+      "loss": 0.6694,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03300677612423897,
+      "rewards/margins": 0.06004180386662483,
+      "rewards/margins_max": 0.09207084774971008,
+      "rewards/margins_min": 0.028012752532958984,
+      "rewards/margins_std": 0.04529590904712677,
+      "rewards/rejected": -0.027035022154450417,
+      "step": 940
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 0.498046875,
+      "learning_rate": 4.4198166266300025e-07,
+      "logits/chosen": -1.4863415956497192,
+      "logits/rejected": -1.0757322311401367,
+      "logps/chosen": -224.2287139892578,
+      "logps/rejected": -239.1637725830078,
+      "loss": 0.6657,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.034104812890291214,
+      "rewards/margins": 0.05569925159215927,
+      "rewards/margins_max": 0.08411959558725357,
+      "rewards/margins_min": 0.027278924360871315,
+      "rewards/margins_std": 0.04019241780042648,
+      "rewards/rejected": -0.021594444289803505,
+      "step": 950
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 0.39453125,
+      "learning_rate": 4.402086086657092e-07,
+      "logits/chosen": -1.5037004947662354,
+      "logits/rejected": -0.9914538264274597,
+      "logps/chosen": -196.54397583007812,
+      "logps/rejected": -211.8581085205078,
+      "loss": 0.6703,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.030650585889816284,
+      "rewards/margins": 0.04529775679111481,
+      "rewards/margins_max": 0.06939564645290375,
+      "rewards/margins_min": 0.021199876442551613,
+      "rewards/margins_std": 0.034079547971487045,
+      "rewards/rejected": -0.014647173695266247,
+      "step": 960
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 0.46875,
+      "learning_rate": 4.3841253976647584e-07,
+      "logits/chosen": -1.4153146743774414,
+      "logits/rejected": -1.0589603185653687,
+      "logps/chosen": -195.8428192138672,
+      "logps/rejected": -189.7724609375,
+      "loss": 0.6679,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03924962133169174,
+      "rewards/margins": 0.05352933332324028,
+      "rewards/margins_max": 0.08327177166938782,
+      "rewards/margins_min": 0.023786883801221848,
+      "rewards/margins_std": 0.042062170803546906,
+      "rewards/rejected": -0.014279710128903389,
+      "step": 970
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 0.28125,
+      "learning_rate": 4.3659367328642917e-07,
+      "logits/chosen": -1.1924479007720947,
+      "logits/rejected": -1.0621583461761475,
+      "logps/chosen": -212.1740264892578,
+      "logps/rejected": -255.7356414794922,
+      "loss": 0.6707,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.026019830256700516,
+      "rewards/margins": 0.039071694016456604,
+      "rewards/margins_max": 0.05669945478439331,
+      "rewards/margins_min": 0.021443922072649002,
+      "rewards/margins_std": 0.024929430335760117,
+      "rewards/rejected": -0.013051861897110939,
+      "step": 980
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 0.5,
+      "learning_rate": 4.3475222930516473e-07,
+      "logits/chosen": -1.3828264474868774,
+      "logits/rejected": -1.12723708152771,
+      "logps/chosen": -209.1006622314453,
+      "logps/rejected": -211.49014282226562,
+      "loss": 0.6707,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.024994900450110435,
+      "rewards/margins": 0.04330515116453171,
+      "rewards/margins_max": 0.0647624060511589,
+      "rewards/margins_min": 0.021847892552614212,
+      "rewards/margins_std": 0.03034515120089054,
+      "rewards/rejected": -0.018310246989130974,
+      "step": 990
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.345703125,
+      "learning_rate": 4.3288843063411573e-07,
+      "logits/chosen": -1.588935136795044,
+      "logits/rejected": -1.1631680727005005,
+      "logps/chosen": -212.937255859375,
+      "logps/rejected": -199.36758422851562,
+      "loss": 0.6685,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03406776860356331,
+      "rewards/margins": 0.04911542311310768,
+      "rewards/margins_max": 0.07006208598613739,
+      "rewards/margins_min": 0.02816876210272312,
+      "rewards/margins_std": 0.029623055830597878,
+      "rewards/rejected": -0.015047654509544373,
+      "step": 1000
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.4296875,
+      "learning_rate": 4.310025027895925e-07,
+      "logits/chosen": -1.4283082485198975,
+      "logits/rejected": -1.1020632982254028,
+      "logps/chosen": -215.6881103515625,
+      "logps/rejected": -228.725341796875,
+      "loss": 0.6686,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.035303063690662384,
+      "rewards/margins": 0.047801949083805084,
+      "rewards/margins_max": 0.06932314485311508,
+      "rewards/margins_min": 0.026280760765075684,
+      "rewards/margins_std": 0.03043556772172451,
+      "rewards/rejected": -0.01249888725578785,
+      "step": 1010
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.447265625,
+      "learning_rate": 4.290946739654962e-07,
+      "logits/chosen": -1.3023067712783813,
+      "logits/rejected": -0.9218745231628418,
+      "logps/chosen": -245.7296905517578,
+      "logps/rejected": -226.1380615234375,
+      "loss": 0.6675,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.031115401536226273,
+      "rewards/margins": 0.05050064995884895,
+      "rewards/margins_max": 0.06927161663770676,
+      "rewards/margins_min": 0.03172967582941055,
+      "rewards/margins_std": 0.026546159759163857,
+      "rewards/rejected": -0.019385244697332382,
+      "step": 1020
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.3046875,
+      "learning_rate": 4.2716517500570704e-07,
+      "logits/chosen": -1.3911397457122803,
+      "logits/rejected": -1.181490182876587,
+      "logps/chosen": -186.88909912109375,
+      "logps/rejected": -218.47900390625,
+      "loss": 0.6743,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.024538397789001465,
+      "rewards/margins": 0.040439218282699585,
+      "rewards/margins_max": 0.060990117490291595,
+      "rewards/margins_min": 0.019888322800397873,
+      "rewards/margins_std": 0.029063355177640915,
+      "rewards/rejected": -0.01590082235634327,
+      "step": 1030
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 0.515625,
+      "learning_rate": 4.252142393761533e-07,
+      "logits/chosen": -1.4555580615997314,
+      "logits/rejected": -1.0047805309295654,
+      "logps/chosen": -251.005615234375,
+      "logps/rejected": -284.2795715332031,
+      "loss": 0.668,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03476887568831444,
+      "rewards/margins": 0.054674047976732254,
+      "rewards/margins_max": 0.07890333235263824,
+      "rewards/margins_min": 0.030444765463471413,
+      "rewards/margins_std": 0.03426538407802582,
+      "rewards/rejected": -0.019905168563127518,
+      "step": 1040
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 0.359375,
+      "learning_rate": 4.232421031365617e-07,
+      "logits/chosen": -1.3305257558822632,
+      "logits/rejected": -1.1427993774414062,
+      "logps/chosen": -180.7315216064453,
+      "logps/rejected": -214.3630828857422,
+      "loss": 0.6704,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.02955777570605278,
+      "rewards/margins": 0.051715098321437836,
+      "rewards/margins_max": 0.07381218671798706,
+      "rewards/margins_min": 0.029618006199598312,
+      "rewards/margins_std": 0.031250011175870895,
+      "rewards/rejected": -0.022157320752739906,
+      "step": 1050
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 0.318359375,
+      "learning_rate": 4.212490049118951e-07,
+      "logits/chosen": -1.4470938444137573,
+      "logits/rejected": -1.143046498298645,
+      "logps/chosen": -198.9834442138672,
+      "logps/rejected": -239.5135955810547,
+      "loss": 0.6707,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.028033524751663208,
+      "rewards/margins": 0.04688093811273575,
+      "rewards/margins_max": 0.06461174786090851,
+      "rewards/margins_min": 0.02915012836456299,
+      "rewards/margins_std": 0.025075148791074753,
+      "rewards/rejected": -0.018847409635782242,
+      "step": 1060
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 0.337890625,
+      "learning_rate": 4.1923518586347914e-07,
+      "logits/chosen": -1.4638912677764893,
+      "logits/rejected": -1.0022966861724854,
+      "logps/chosen": -209.8042449951172,
+      "logps/rejected": -192.01329040527344,
+      "loss": 0.6697,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03496958687901497,
+      "rewards/margins": 0.05312635377049446,
+      "rewards/margins_max": 0.07696934044361115,
+      "rewards/margins_min": 0.029283368960022926,
+      "rewards/margins_std": 0.03371907025575638,
+      "rewards/rejected": -0.018156763166189194,
+      "step": 1070
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 0.455078125,
+      "learning_rate": 4.172008896598221e-07,
+      "logits/chosen": -1.3048521280288696,
+      "logits/rejected": -1.0749359130859375,
+      "logps/chosen": -201.3562469482422,
+      "logps/rejected": -187.42080688476562,
+      "loss": 0.6696,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03374785929918289,
+      "rewards/margins": 0.055463533848524094,
+      "rewards/margins_max": 0.07117541134357452,
+      "rewards/margins_min": 0.03975165635347366,
+      "rewards/margins_std": 0.022219957783818245,
+      "rewards/rejected": -0.02171567641198635,
+      "step": 1080
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 0.40234375,
+      "learning_rate": 4.151463624471313e-07,
+      "logits/chosen": -1.32763671875,
+      "logits/rejected": -0.8290489315986633,
+      "logps/chosen": -311.2829895019531,
+      "logps/rejected": -223.5568084716797,
+      "loss": 0.6627,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.04091322422027588,
+      "rewards/margins": 0.07021255791187286,
+      "rewards/margins_max": 0.10776461660861969,
+      "rewards/margins_min": 0.03266051039099693,
+      "rewards/margins_std": 0.05310662463307381,
+      "rewards/rejected": -0.029299337416887283,
+      "step": 1090
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 0.37109375,
+      "learning_rate": 4.130718528195303e-07,
+      "logits/chosen": -1.4879382848739624,
+      "logits/rejected": -1.0252676010131836,
+      "logps/chosen": -229.93917846679688,
+      "logps/rejected": -225.00491333007812,
+      "loss": 0.666,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.041905976831912994,
+      "rewards/margins": 0.06251799315214157,
+      "rewards/margins_max": 0.08764694631099701,
+      "rewards/margins_min": 0.03738904744386673,
+      "rewards/margins_std": 0.035537708550691605,
+      "rewards/rejected": -0.020612016320228577,
+      "step": 1100
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 0.328125,
+      "learning_rate": 4.109776117889789e-07,
+      "logits/chosen": -1.371626853942871,
+      "logits/rejected": -0.9644553065299988,
+      "logps/chosen": -256.90826416015625,
+      "logps/rejected": -262.3277282714844,
+      "loss": 0.665,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.04058977589011192,
+      "rewards/margins": 0.058307357132434845,
+      "rewards/margins_max": 0.07639677822589874,
+      "rewards/margins_min": 0.04021793603897095,
+      "rewards/margins_std": 0.025582294911146164,
+      "rewards/rejected": -0.017717575654387474,
+      "step": 1110
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 0.3515625,
+      "learning_rate": 4.088638927549016e-07,
+      "logits/chosen": -1.4024112224578857,
+      "logits/rejected": -1.0277204513549805,
+      "logps/chosen": -257.0721740722656,
+      "logps/rejected": -223.2074432373047,
+      "loss": 0.6695,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.033399466425180435,
+      "rewards/margins": 0.05190381407737732,
+      "rewards/margins_max": 0.07284527271986008,
+      "rewards/margins_min": 0.03096235729753971,
+      "rewards/margins_std": 0.029615694656968117,
+      "rewards/rejected": -0.018504345789551735,
+      "step": 1120
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 0.3359375,
+      "learning_rate": 4.067309514735267e-07,
+      "logits/chosen": -1.2835520505905151,
+      "logits/rejected": -0.9591856002807617,
+      "logps/chosen": -253.2421417236328,
+      "logps/rejected": -214.3036651611328,
+      "loss": 0.6642,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03112444281578064,
+      "rewards/margins": 0.06105799227952957,
+      "rewards/margins_max": 0.08269943296909332,
+      "rewards/margins_min": 0.03941655158996582,
+      "rewards/margins_std": 0.030605623498558998,
+      "rewards/rejected": -0.02993355132639408,
+      "step": 1130
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 0.4296875,
+      "learning_rate": 4.045790460269395e-07,
+      "logits/chosen": -1.29916250705719,
+      "logits/rejected": -0.9579310417175293,
+      "logps/chosen": -222.2379608154297,
+      "logps/rejected": -203.0634307861328,
+      "loss": 0.667,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03449912741780281,
+      "rewards/margins": 0.04771226644515991,
+      "rewards/margins_max": 0.0739569216966629,
+      "rewards/margins_min": 0.02146761119365692,
+      "rewards/margins_std": 0.03711555153131485,
+      "rewards/rejected": -0.0132131427526474,
+      "step": 1140
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 0.46484375,
+      "learning_rate": 4.02408436791856e-07,
+      "logits/chosen": -1.3718782663345337,
+      "logits/rejected": -1.0133472681045532,
+      "logps/chosen": -234.8833770751953,
+      "logps/rejected": -237.4645233154297,
+      "loss": 0.6669,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03908390551805496,
+      "rewards/margins": 0.06387855857610703,
+      "rewards/margins_max": 0.0912180095911026,
+      "rewards/margins_min": 0.03653910756111145,
+      "rewards/margins_std": 0.038663819432258606,
+      "rewards/rejected": -0.02479465678334236,
+      "step": 1150
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 0.6796875,
+      "learning_rate": 4.0021938640811717e-07,
+      "logits/chosen": -1.3344662189483643,
+      "logits/rejected": -0.9591034054756165,
+      "logps/chosen": -221.8365478515625,
+      "logps/rejected": -358.8748779296875,
+      "loss": 0.6653,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03558691591024399,
+      "rewards/margins": 0.06812174618244171,
+      "rewards/margins_max": 0.09799469262361526,
+      "rewards/margins_min": 0.03824879601597786,
+      "rewards/margins_std": 0.042246729135513306,
+      "rewards/rejected": -0.032534826546907425,
+      "step": 1160
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 0.275390625,
+      "learning_rate": 3.980121597469095e-07,
+      "logits/chosen": -1.4173529148101807,
+      "logits/rejected": -1.046112298965454,
+      "logps/chosen": -222.1094970703125,
+      "logps/rejected": -195.96484375,
+      "loss": 0.6705,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.02532361075282097,
+      "rewards/margins": 0.04526478797197342,
+      "rewards/margins_max": 0.06393333524465561,
+      "rewards/margins_min": 0.02659623883664608,
+      "rewards/margins_std": 0.02640131488442421,
+      "rewards/rejected": -0.0199411790817976,
+      "step": 1170
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 0.412109375,
+      "learning_rate": 3.9578702387871735e-07,
+      "logits/chosen": -1.4770991802215576,
+      "logits/rejected": -1.0594831705093384,
+      "logps/chosen": -200.45314025878906,
+      "logps/rejected": -181.73829650878906,
+      "loss": 0.67,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03991563245654106,
+      "rewards/margins": 0.04643087834119797,
+      "rewards/margins_max": 0.0705905631184578,
+      "rewards/margins_min": 0.022271184250712395,
+      "rewards/margins_std": 0.034166961908340454,
+      "rewards/rejected": -0.00651524355635047,
+      "step": 1180
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 0.34375,
+      "learning_rate": 3.9354424804100647e-07,
+      "logits/chosen": -1.3302786350250244,
+      "logits/rejected": -1.0419865846633911,
+      "logps/chosen": -180.52911376953125,
+      "logps/rejected": -229.23507690429688,
+      "loss": 0.6661,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03989443928003311,
+      "rewards/margins": 0.05144830420613289,
+      "rewards/margins_max": 0.07513656467199326,
+      "rewards/margins_min": 0.02776004932820797,
+      "rewards/margins_std": 0.03350025415420532,
+      "rewards/rejected": -0.0115538714453578,
+      "step": 1190
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 0.2734375,
+      "learning_rate": 3.9128410360564793e-07,
+      "logits/chosen": -1.4453057050704956,
+      "logits/rejected": -0.843630313873291,
+      "logps/chosen": -239.1511993408203,
+      "logps/rejected": -228.0477294921875,
+      "loss": 0.6689,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.0347132682800293,
+      "rewards/margins": 0.05644859001040459,
+      "rewards/margins_max": 0.07778388261795044,
+      "rewards/margins_min": 0.035113297402858734,
+      "rewards/margins_std": 0.03017266094684601,
+      "rewards/rejected": -0.02173532173037529,
+      "step": 1200
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 0.337890625,
+      "learning_rate": 3.8900686404608174e-07,
+      "logits/chosen": -1.4021894931793213,
+      "logits/rejected": -1.1501901149749756,
+      "logps/chosen": -246.96676635742188,
+      "logps/rejected": -243.79055786132812,
+      "loss": 0.6648,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.02853170968592167,
+      "rewards/margins": 0.05541776865720749,
+      "rewards/margins_max": 0.0840243324637413,
+      "rewards/margins_min": 0.026811202988028526,
+      "rewards/margins_std": 0.04045579582452774,
+      "rewards/rejected": -0.02688606083393097,
+      "step": 1210
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 0.328125,
+      "learning_rate": 3.8671280490422753e-07,
+      "logits/chosen": -1.4860647916793823,
+      "logits/rejected": -1.2145134210586548,
+      "logps/chosen": -173.87155151367188,
+      "logps/rejected": -215.08114624023438,
+      "loss": 0.6686,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03185255080461502,
+      "rewards/margins": 0.0523541197180748,
+      "rewards/margins_max": 0.07217199355363846,
+      "rewards/margins_min": 0.032536253333091736,
+      "rewards/margins_std": 0.028026703745126724,
+      "rewards/rejected": -0.020501574501395226,
+      "step": 1220
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 0.3984375,
+      "learning_rate": 3.8440220375714435e-07,
+      "logits/chosen": -1.4330469369888306,
+      "logits/rejected": -0.923498809337616,
+      "logps/chosen": -194.24989318847656,
+      "logps/rejected": -188.0842742919922,
+      "loss": 0.6661,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.02217457816004753,
+      "rewards/margins": 0.05012967437505722,
+      "rewards/margins_max": 0.07560008764266968,
+      "rewards/margins_min": 0.02465927042067051,
+      "rewards/margins_std": 0.03602059185504913,
+      "rewards/rejected": -0.02795509621500969,
+      "step": 1230
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 0.42578125,
+      "learning_rate": 3.8207534018344434e-07,
+      "logits/chosen": -1.4624649286270142,
+      "logits/rejected": -1.2272025346755981,
+      "logps/chosen": -224.9335479736328,
+      "logps/rejected": -215.4106903076172,
+      "loss": 0.6645,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.02788296714425087,
+      "rewards/margins": 0.05390559881925583,
+      "rewards/margins_max": 0.07784163951873779,
+      "rewards/margins_min": 0.02996954880654812,
+      "rewards/margins_std": 0.033850688487291336,
+      "rewards/rejected": -0.02602263353765011,
+      "step": 1240
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 0.376953125,
+      "learning_rate": 3.797324957294643e-07,
+      "logits/chosen": -1.4522289037704468,
+      "logits/rejected": -1.0942248106002808,
+      "logps/chosen": -197.66709899902344,
+      "logps/rejected": -188.29644775390625,
+      "loss": 0.6667,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.028640951961278915,
+      "rewards/margins": 0.04304185137152672,
+      "rewards/margins_max": 0.06764715909957886,
+      "rewards/margins_min": 0.01843653805553913,
+      "rewards/margins_std": 0.034797169268131256,
+      "rewards/rejected": -0.014400901272892952,
+      "step": 1250
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.451171875,
+      "learning_rate": 3.773739538751988e-07,
+      "logits/chosen": -1.4544618129730225,
+      "logits/rejected": -1.0294139385223389,
+      "logps/chosen": -245.71435546875,
+      "logps/rejected": -208.09115600585938,
+      "loss": 0.6646,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.032376714050769806,
+      "rewards/margins": 0.04516047239303589,
+      "rewards/margins_max": 0.06522423774003983,
+      "rewards/margins_min": 0.025096703320741653,
+      "rewards/margins_std": 0.028374452143907547,
+      "rewards/rejected": -0.012783756479620934,
+      "step": 1260
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.431640625,
+      "learning_rate": 3.75e-07,
+      "logits/chosen": -1.39158034324646,
+      "logits/rejected": -0.9538629651069641,
+      "logps/chosen": -339.5301513671875,
+      "logps/rejected": -214.0384521484375,
+      "loss": 0.6693,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03498070687055588,
+      "rewards/margins": 0.05068878084421158,
+      "rewards/margins_max": 0.07239842414855957,
+      "rewards/margins_min": 0.028979141265153885,
+      "rewards/margins_std": 0.030702069401741028,
+      "rewards/rejected": -0.015708070248365402,
+      "step": 1270
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.388671875,
+      "learning_rate": 3.7261092134804695e-07,
+      "logits/chosen": -1.313458800315857,
+      "logits/rejected": -0.9937132000923157,
+      "logps/chosen": -205.0299835205078,
+      "logps/rejected": -212.155029296875,
+      "loss": 0.6684,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03651620075106621,
+      "rewards/margins": 0.05705242604017258,
+      "rewards/margins_max": 0.08746035397052765,
+      "rewards/margins_min": 0.026644494384527206,
+      "rewards/margins_std": 0.043003302067518234,
+      "rewards/rejected": -0.020536217838525772,
+      "step": 1280
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 0.40234375,
+      "learning_rate": 3.702070069935898e-07,
+      "logits/chosen": -1.4626922607421875,
+      "logits/rejected": -1.015981674194336,
+      "logps/chosen": -227.63339233398438,
+      "logps/rejected": -221.4516143798828,
+      "loss": 0.6682,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03474265709519386,
+      "rewards/margins": 0.051122285425662994,
+      "rewards/margins_max": 0.06716804951429367,
+      "rewards/margins_min": 0.03507651016116142,
+      "rewards/margins_std": 0.02269214577972889,
+      "rewards/rejected": -0.016379622742533684,
+      "step": 1290
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 0.6171875,
+      "learning_rate": 3.6778854780597213e-07,
+      "logits/chosen": -1.2919328212738037,
+      "logits/rejected": -0.9956780672073364,
+      "logps/chosen": -222.3484344482422,
+      "logps/rejected": -182.62179565429688,
+      "loss": 0.6681,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.030011823400855064,
+      "rewards/margins": 0.0488753467798233,
+      "rewards/margins_max": 0.06740256398916245,
+      "rewards/margins_min": 0.030348125845193863,
+      "rewards/margins_std": 0.02620144747197628,
+      "rewards/rejected": -0.01886352151632309,
+      "step": 1300
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 0.466796875,
+      "learning_rate": 3.653558364144363e-07,
+      "logits/chosen": -1.4199802875518799,
+      "logits/rejected": -1.1749187707901,
+      "logps/chosen": -182.4161376953125,
+      "logps/rejected": -217.2281951904297,
+      "loss": 0.6651,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.03831896930932999,
+      "rewards/margins": 0.053058166056871414,
+      "rewards/margins_max": 0.07967302948236465,
+      "rewards/margins_min": 0.026443298906087875,
+      "rewards/margins_std": 0.03763909637928009,
+      "rewards/rejected": -0.014739197678864002,
+      "step": 1310
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 0.4296875,
+      "learning_rate": 3.629091671727159e-07,
+      "logits/chosen": -1.383264422416687,
+      "logits/rejected": -0.935562252998352,
+      "logps/chosen": -236.8832550048828,
+      "logps/rejected": -232.43701171875,
+      "loss": 0.6652,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03460818529129028,
+      "rewards/margins": 0.05942409485578537,
+      "rewards/margins_max": 0.08626364171504974,
+      "rewards/margins_min": 0.0325845405459404,
+      "rewards/margins_std": 0.037956852465867996,
+      "rewards/rejected": -0.02481590211391449,
+      "step": 1320
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 0.515625,
+      "learning_rate": 3.6044883612341957e-07,
+      "logits/chosen": -1.4922215938568115,
+      "logits/rejected": -1.210303544998169,
+      "logps/chosen": -175.39468383789062,
+      "logps/rejected": -175.10372924804688,
+      "loss": 0.6688,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.0377926230430603,
+      "rewards/margins": 0.044999849051237106,
+      "rewards/margins_max": 0.06272000819444656,
+      "rewards/margins_min": 0.027279695495963097,
+      "rewards/margins_std": 0.025060083717107773,
+      "rewards/rejected": -0.007207226939499378,
+      "step": 1330
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 0.416015625,
+      "learning_rate": 3.5797514096221024e-07,
+      "logits/chosen": -1.447775959968567,
+      "logits/rejected": -1.1010136604309082,
+      "logps/chosen": -233.7635040283203,
+      "logps/rejected": -213.46658325195312,
+      "loss": 0.6693,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.032312069088220596,
+      "rewards/margins": 0.052999138832092285,
+      "rewards/margins_max": 0.07665625959634781,
+      "rewards/margins_min": 0.02934201993048191,
+      "rewards/margins_std": 0.033456217497587204,
+      "rewards/rejected": -0.02068706974387169,
+      "step": 1340
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 0.38671875,
+      "learning_rate": 3.554883810017844e-07,
+      "logits/chosen": -1.3156002759933472,
+      "logits/rejected": -1.0745857954025269,
+      "logps/chosen": -181.6421661376953,
+      "logps/rejected": -183.23080444335938,
+      "loss": 0.6698,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.030048031359910965,
+      "rewards/margins": 0.04210250452160835,
+      "rewards/margins_max": 0.07046877592802048,
+      "rewards/margins_min": 0.013736230321228504,
+      "rewards/margins_std": 0.04011595994234085,
+      "rewards/rejected": -0.01205446757376194,
+      "step": 1350
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 0.298828125,
+      "learning_rate": 3.529888571356561e-07,
+      "logits/chosen": -1.2578437328338623,
+      "logits/rejected": -1.0070809125900269,
+      "logps/chosen": -250.3462677001953,
+      "logps/rejected": -232.718994140625,
+      "loss": 0.6706,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.026622626930475235,
+      "rewards/margins": 0.04009575396776199,
+      "rewards/margins_max": 0.06229530647397041,
+      "rewards/margins_min": 0.017896197736263275,
+      "rewards/margins_std": 0.03139491006731987,
+      "rewards/rejected": -0.01347312517464161,
+      "step": 1360
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 0.4609375,
+      "learning_rate": 3.50476871801749e-07,
+      "logits/chosen": -1.374895453453064,
+      "logits/rejected": -0.9742172956466675,
+      "logps/chosen": -298.19110107421875,
+      "logps/rejected": -209.47329711914062,
+      "loss": 0.6677,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.03527087718248367,
+      "rewards/margins": 0.04785536974668503,
+      "rewards/margins_max": 0.06894843280315399,
+      "rewards/margins_min": 0.026762310415506363,
+      "rewards/margins_std": 0.029830092564225197,
+      "rewards/rejected": -0.012584498152136803,
+      "step": 1370
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 0.337890625,
+      "learning_rate": 3.479527289458021e-07,
+      "logits/chosen": -1.3711079359054565,
+      "logits/rejected": -1.0774781703948975,
+      "logps/chosen": -184.34344482421875,
+      "logps/rejected": -224.1437225341797,
+      "loss": 0.6642,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03007492795586586,
+      "rewards/margins": 0.05908045917749405,
+      "rewards/margins_max": 0.09251175820827484,
+      "rewards/margins_min": 0.02564915083348751,
+      "rewards/margins_std": 0.04727901145815849,
+      "rewards/rejected": -0.029005536809563637,
+      "step": 1380
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 0.427734375,
+      "learning_rate": 3.4541673398459315e-07,
+      "logits/chosen": -1.293668508529663,
+      "logits/rejected": -1.0986145734786987,
+      "logps/chosen": -209.5894012451172,
+      "logps/rejected": -229.1302490234375,
+      "loss": 0.6686,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.0236887875944376,
+      "rewards/margins": 0.04496780037879944,
+      "rewards/margins_max": 0.06106124445796013,
+      "rewards/margins_min": 0.028874356299638748,
+      "rewards/margins_std": 0.0227595716714859,
+      "rewards/rejected": -0.021279016509652138,
+      "step": 1390
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 0.48046875,
+      "learning_rate": 3.4286919376898303e-07,
+      "logits/chosen": -1.2458115816116333,
+      "logits/rejected": -0.9769574403762817,
+      "logps/chosen": -219.8367919921875,
+      "logps/rejected": -227.66421508789062,
+      "loss": 0.6661,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.028372962027788162,
+      "rewards/margins": 0.04673437029123306,
+      "rewards/margins_max": 0.06330729275941849,
+      "rewards/margins_min": 0.030161460861563683,
+      "rewards/margins_std": 0.02343764156103134,
+      "rewards/rejected": -0.018361413851380348,
+      "step": 1400
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 0.51953125,
+      "learning_rate": 3.403104165467883e-07,
+      "logits/chosen": -1.3929589986801147,
+      "logits/rejected": -1.1880546808242798,
+      "logps/chosen": -276.8525085449219,
+      "logps/rejected": -241.208740234375,
+      "loss": 0.666,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.03430411219596863,
+      "rewards/margins": 0.04882946237921715,
+      "rewards/margins_max": 0.08031658828258514,
+      "rewards/margins_min": 0.017342329025268555,
+      "rewards/margins_std": 0.04452953487634659,
+      "rewards/rejected": -0.014525346457958221,
+      "step": 1410
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 0.486328125,
+      "learning_rate": 3.377407119254826e-07,
+      "logits/chosen": -1.307857632637024,
+      "logits/rejected": -0.973365306854248,
+      "logps/chosen": -262.1522521972656,
+      "logps/rejected": -219.1666717529297,
+      "loss": 0.6699,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.03059108555316925,
+      "rewards/margins": 0.05130365490913391,
+      "rewards/margins_max": 0.07557855546474457,
+      "rewards/margins_min": 0.027028745040297508,
+      "rewards/margins_std": 0.03432989865541458,
+      "rewards/rejected": -0.02071256935596466,
+      "step": 1420
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 0.578125,
+      "learning_rate": 3.351603908347359e-07,
+      "logits/chosen": -1.3961646556854248,
+      "logits/rejected": -1.0634922981262207,
+      "logps/chosen": -244.14907836914062,
+      "logps/rejected": -209.52413940429688,
+      "loss": 0.6664,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.02553880773484707,
+      "rewards/margins": 0.039372727274894714,
+      "rewards/margins_max": 0.05578699707984924,
+      "rewards/margins_min": 0.022958464920520782,
+      "rewards/margins_std": 0.023213278502225876,
+      "rewards/rejected": -0.013833923265337944,
+      "step": 1430
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 0.443359375,
+      "learning_rate": 3.325697654887918e-07,
+      "logits/chosen": -1.457953929901123,
+      "logits/rejected": -1.1763416528701782,
+      "logps/chosen": -168.73855590820312,
+      "logps/rejected": -200.1396026611328,
+      "loss": 0.6663,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.039046648889780045,
+      "rewards/margins": 0.061664480715990067,
+      "rewards/margins_max": 0.08563290536403656,
+      "rewards/margins_min": 0.03769605979323387,
+      "rewards/margins_std": 0.03389647603034973,
+      "rewards/rejected": -0.02261783741414547,
+      "step": 1440
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 0.435546875,
+      "learning_rate": 3.2996914934869034e-07,
+      "logits/chosen": -1.4136825799942017,
+      "logits/rejected": -0.9438567161560059,
+      "logps/chosen": -211.27880859375,
+      "logps/rejected": -251.1080322265625,
+      "loss": 0.6655,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.05148143321275711,
+      "rewards/margins": 0.05926315858960152,
+      "rewards/margins_max": 0.0925159901380539,
+      "rewards/margins_min": 0.026010334491729736,
+      "rewards/margins_std": 0.04702659696340561,
+      "rewards/rejected": -0.00778172304853797,
+      "step": 1450
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 0.392578125,
+      "learning_rate": 3.273588570843399e-07,
+      "logits/chosen": -1.3561222553253174,
+      "logits/rejected": -0.8794288635253906,
+      "logps/chosen": -219.59188842773438,
+      "logps/rejected": -204.20651245117188,
+      "loss": 0.6653,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.04018976539373398,
+      "rewards/margins": 0.058758050203323364,
+      "rewards/margins_max": 0.08319707214832306,
+      "rewards/margins_min": 0.034319035708904266,
+      "rewards/margins_std": 0.034561995416879654,
+      "rewards/rejected": -0.018568288534879684,
+      "step": 1460
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 0.5078125,
+      "learning_rate": 3.2473920453644254e-07,
+      "logits/chosen": -1.364458680152893,
+      "logits/rejected": -1.1189966201782227,
+      "logps/chosen": -200.58279418945312,
+      "logps/rejected": -247.4306182861328,
+      "loss": 0.6625,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03194325789809227,
+      "rewards/margins": 0.058095790445804596,
+      "rewards/margins_max": 0.08179818838834763,
+      "rewards/margins_min": 0.03439338877797127,
+      "rewards/margins_std": 0.03352025896310806,
+      "rewards/rejected": -0.02615252695977688,
+      "step": 1470
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 0.40234375,
+      "learning_rate": 3.2211050867827805e-07,
+      "logits/chosen": -1.4114757776260376,
+      "logits/rejected": -1.0227770805358887,
+      "logps/chosen": -217.49783325195312,
+      "logps/rejected": -270.8158874511719,
+      "loss": 0.6649,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03752985596656799,
+      "rewards/margins": 0.06543248146772385,
+      "rewards/margins_max": 0.08699898421764374,
+      "rewards/margins_min": 0.043865982443094254,
+      "rewards/margins_std": 0.030499637126922607,
+      "rewards/rejected": -0.02790263295173645,
+      "step": 1480
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 0.34765625,
+      "learning_rate": 3.194730875773504e-07,
+      "logits/chosen": -1.3351142406463623,
+      "logits/rejected": -1.0667884349822998,
+      "logps/chosen": -226.33425903320312,
+      "logps/rejected": -211.48983764648438,
+      "loss": 0.6666,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.03304114192724228,
+      "rewards/margins": 0.047557245939970016,
+      "rewards/margins_max": 0.06921641528606415,
+      "rewards/margins_min": 0.02589806541800499,
+      "rewards/margins_std": 0.030630702152848244,
+      "rewards/rejected": -0.014516102150082588,
+      "step": 1490
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 0.42578125,
+      "learning_rate": 3.168272603569025e-07,
+      "logits/chosen": -1.4025719165802002,
+      "logits/rejected": -0.8659202456474304,
+      "logps/chosen": -255.092529296875,
+      "logps/rejected": -191.5826416015625,
+      "loss": 0.6657,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.037762049585580826,
+      "rewards/margins": 0.05839651823043823,
+      "rewards/margins_max": 0.08473102748394012,
+      "rewards/margins_min": 0.03206200897693634,
+      "rewards/margins_std": 0.03724262863397598,
+      "rewards/rejected": -0.020634472370147705,
+      "step": 1500
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.41015625,
+      "learning_rate": 3.1417334715730257e-07,
+      "logits/chosen": -1.312922716140747,
+      "logits/rejected": -0.9928410649299622,
+      "logps/chosen": -274.3824768066406,
+      "logps/rejected": -207.8001251220703,
+      "loss": 0.6652,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03649697080254555,
+      "rewards/margins": 0.04787913337349892,
+      "rewards/margins_max": 0.07063382118940353,
+      "rewards/margins_min": 0.025124436244368553,
+      "rewards/margins_std": 0.032179996371269226,
+      "rewards/rejected": -0.01138215884566307,
+      "step": 1510
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.3125,
+      "learning_rate": 3.115116690973081e-07,
+      "logits/chosen": -1.275967001914978,
+      "logits/rejected": -1.0719497203826904,
+      "logps/chosen": -170.84716796875,
+      "logps/rejected": -187.09201049804688,
+      "loss": 0.6697,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.030098671093583107,
+      "rewards/margins": 0.04616239666938782,
+      "rewards/margins_max": 0.06867832690477371,
+      "rewards/margins_min": 0.023646462708711624,
+      "rewards/margins_std": 0.03184233605861664,
+      "rewards/rejected": -0.01606372371315956,
+      "step": 1520
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.375,
+      "learning_rate": 3.088425482352106e-07,
+      "logits/chosen": -1.3329031467437744,
+      "logits/rejected": -0.9551903009414673,
+      "logps/chosen": -178.49220275878906,
+      "logps/rejected": -163.50289916992188,
+      "loss": 0.6707,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.02671188674867153,
+      "rewards/margins": 0.05042758584022522,
+      "rewards/margins_max": 0.07536738365888596,
+      "rewards/margins_min": 0.025487786158919334,
+      "rewards/margins_std": 0.03527020663022995,
+      "rewards/rejected": -0.023715700954198837,
+      "step": 1530
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 0.5625,
+      "learning_rate": 3.061663075298675e-07,
+      "logits/chosen": -1.5138485431671143,
+      "logits/rejected": -1.1314074993133545,
+      "logps/chosen": -250.61813354492188,
+      "logps/rejected": -272.20379638671875,
+      "loss": 0.6643,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03775627166032791,
+      "rewards/margins": 0.05153984948992729,
+      "rewards/margins_max": 0.07664564251899719,
+      "rewards/margins_min": 0.026434045284986496,
+      "rewards/margins_std": 0.035504959523677826,
+      "rewards/rejected": -0.013783574104309082,
+      "step": 1540
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 0.408203125,
+      "learning_rate": 3.034832708016243e-07,
+      "logits/chosen": -1.5145914554595947,
+      "logits/rejected": -1.0713765621185303,
+      "logps/chosen": -261.14312744140625,
+      "logps/rejected": -210.29232788085938,
+      "loss": 0.6632,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03341571241617203,
+      "rewards/margins": 0.048537809401750565,
+      "rewards/margins_max": 0.07006336748600006,
+      "rewards/margins_min": 0.027012262493371964,
+      "rewards/margins_std": 0.030441725626587868,
+      "rewards/rejected": -0.01512210350483656,
+      "step": 1550
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 0.37890625,
+      "learning_rate": 3.0079376269313354e-07,
+      "logits/chosen": -1.4111496210098267,
+      "logits/rejected": -1.072613000869751,
+      "logps/chosen": -207.9450225830078,
+      "logps/rejected": -267.03912353515625,
+      "loss": 0.6651,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.029351189732551575,
+      "rewards/margins": 0.05201409012079239,
+      "rewards/margins_max": 0.07417653501033783,
+      "rewards/margins_min": 0.0298516396433115,
+      "rewards/margins_std": 0.031342435628175735,
+      "rewards/rejected": -0.022662896662950516,
+      "step": 1560
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 0.330078125,
+      "learning_rate": 2.9809810863007284e-07,
+      "logits/chosen": -1.4359506368637085,
+      "logits/rejected": -1.0733433961868286,
+      "logps/chosen": -200.97647094726562,
+      "logps/rejected": -209.4395751953125,
+      "loss": 0.6674,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.039248835295438766,
+      "rewards/margins": 0.04961882531642914,
+      "rewards/margins_max": 0.0718330442905426,
+      "rewards/margins_min": 0.027404606342315674,
+      "rewards/margins_std": 0.031415652483701706,
+      "rewards/rejected": -0.010369991883635521,
+      "step": 1570
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.55859375,
+      "learning_rate": 2.9539663478176946e-07,
+      "logits/chosen": -1.2646214962005615,
+      "logits/rejected": -1.1139628887176514,
+      "logps/chosen": -206.5272674560547,
+      "logps/rejected": -250.39108276367188,
+      "loss": 0.6681,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.02430318295955658,
+      "rewards/margins": 0.051103752106428146,
+      "rewards/margins_max": 0.0777682214975357,
+      "rewards/margins_min": 0.024439293891191483,
+      "rewards/margins_std": 0.03770923987030983,
+      "rewards/rejected": -0.026800569146871567,
+      "step": 1580
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.4765625,
+      "learning_rate": 2.9268966802173436e-07,
+      "logits/chosen": -1.3860819339752197,
+      "logits/rejected": -0.975805938243866,
+      "logps/chosen": -270.6651611328125,
+      "logps/rejected": -221.06259155273438,
+      "loss": 0.6665,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03461884707212448,
+      "rewards/margins": 0.05071113631129265,
+      "rewards/margins_max": 0.0760193020105362,
+      "rewards/margins_min": 0.025402987375855446,
+      "rewards/margins_std": 0.03579113632440567,
+      "rewards/rejected": -0.016092294827103615,
+      "step": 1590
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.443359375,
+      "learning_rate": 2.89977535888111e-07,
+      "logits/chosen": -1.3565785884857178,
+      "logits/rejected": -0.9915903210639954,
+      "logps/chosen": -177.0413055419922,
+      "logps/rejected": -182.9870147705078,
+      "loss": 0.6673,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03303280100226402,
+      "rewards/margins": 0.06585012376308441,
+      "rewards/margins_max": 0.08999715745449066,
+      "rewards/margins_min": 0.04170309379696846,
+      "rewards/margins_std": 0.034149058163166046,
+      "rewards/rejected": -0.03281732648611069,
+      "step": 1600
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 0.388671875,
+      "learning_rate": 2.872605665440436e-07,
+      "logits/chosen": -1.3481905460357666,
+      "logits/rejected": -1.1729605197906494,
+      "logps/chosen": -169.9842529296875,
+      "logps/rejected": -223.30044555664062,
+      "loss": 0.6626,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.032422084361314774,
+      "rewards/margins": 0.055260200053453445,
+      "rewards/margins_max": 0.07780520617961884,
+      "rewards/margins_min": 0.03271518647670746,
+      "rewards/margins_std": 0.03188345581293106,
+      "rewards/rejected": -0.02283811755478382,
+      "step": 1610
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 0.37890625,
+      "learning_rate": 2.845390887379706e-07,
+      "logits/chosen": -1.4345109462738037,
+      "logits/rejected": -1.1150403022766113,
+      "logps/chosen": -225.3082275390625,
+      "logps/rejected": -199.63519287109375,
+      "loss": 0.669,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.034576646983623505,
+      "rewards/margins": 0.04932091385126114,
+      "rewards/margins_max": 0.06937690079212189,
+      "rewards/margins_min": 0.029264941811561584,
+      "rewards/margins_std": 0.028363442048430443,
+      "rewards/rejected": -0.014744272455573082,
+      "step": 1620
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 0.58203125,
+      "learning_rate": 2.8181343176384585e-07,
+      "logits/chosen": -1.2172272205352783,
+      "logits/rejected": -1.0032122135162354,
+      "logps/chosen": -194.42764282226562,
+      "logps/rejected": -336.8403015136719,
+      "loss": 0.662,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.02610202692449093,
+      "rewards/margins": 0.06659840792417526,
+      "rewards/margins_max": 0.09039248526096344,
+      "rewards/margins_min": 0.04280433803796768,
+      "rewards/margins_std": 0.03364989906549454,
+      "rewards/rejected": -0.04049638658761978,
+      "step": 1630
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 0.408203125,
+      "learning_rate": 2.7908392542129537e-07,
+      "logits/chosen": -1.491234540939331,
+      "logits/rejected": -1.1456706523895264,
+      "logps/chosen": -226.4430694580078,
+      "logps/rejected": -264.64874267578125,
+      "loss": 0.6649,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.036219272762537,
+      "rewards/margins": 0.06396204233169556,
+      "rewards/margins_max": 0.0869758352637291,
+      "rewards/margins_min": 0.040948253124952316,
+      "rewards/margins_std": 0.032546427100896835,
+      "rewards/rejected": -0.02774277701973915,
+      "step": 1640
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 0.42578125,
+      "learning_rate": 2.763508999757119e-07,
+      "logits/chosen": -1.4049649238586426,
+      "logits/rejected": -1.239553689956665,
+      "logps/chosen": -215.4875030517578,
+      "logps/rejected": -298.31365966796875,
+      "loss": 0.6683,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03639969974756241,
+      "rewards/margins": 0.053609687834978104,
+      "rewards/margins_max": 0.07144194096326828,
+      "rewards/margins_min": 0.035777442157268524,
+      "rewards/margins_std": 0.025218605995178223,
+      "rewards/rejected": -0.017209986224770546,
+      "step": 1650
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 0.4140625,
+      "learning_rate": 2.7361468611829326e-07,
+      "logits/chosen": -1.4899475574493408,
+      "logits/rejected": -1.128447413444519,
+      "logps/chosen": -200.3207550048828,
+      "logps/rejected": -228.01718139648438,
+      "loss": 0.6621,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03625740110874176,
+      "rewards/margins": 0.0598982498049736,
+      "rewards/margins_max": 0.09039153158664703,
+      "rewards/margins_min": 0.029404977336525917,
+      "rewards/margins_std": 0.043124008923769,
+      "rewards/rejected": -0.02364085428416729,
+      "step": 1660
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 0.259765625,
+      "learning_rate": 2.708756149260292e-07,
+      "logits/chosen": -1.4126758575439453,
+      "logits/rejected": -1.0123107433319092,
+      "logps/chosen": -235.05734252929688,
+      "logps/rejected": -203.85006713867188,
+      "loss": 0.6662,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.034583888947963715,
+      "rewards/margins": 0.052448056638240814,
+      "rewards/margins_max": 0.07766715437173843,
+      "rewards/margins_min": 0.027228962630033493,
+      "rewards/margins_std": 0.03566519170999527,
+      "rewards/rejected": -0.0178641676902771,
+      "step": 1670
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 0.486328125,
+      "learning_rate": 2.681340178216423e-07,
+      "logits/chosen": -1.6247339248657227,
+      "logits/rejected": -1.223256230354309,
+      "logps/chosen": -237.5697784423828,
+      "logps/rejected": -252.75521850585938,
+      "loss": 0.6637,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03515109419822693,
+      "rewards/margins": 0.06105039268732071,
+      "rewards/margins_max": 0.08089162409305573,
+      "rewards/margins_min": 0.041209153831005096,
+      "rewards/margins_std": 0.028059745207428932,
+      "rewards/rejected": -0.02589929662644863,
+      "step": 1680
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 0.5078125,
+      "learning_rate": 2.6539022653348575e-07,
+      "logits/chosen": -1.3141326904296875,
+      "logits/rejected": -0.9784961938858032,
+      "logps/chosen": -204.03591918945312,
+      "logps/rejected": -265.62591552734375,
+      "loss": 0.664,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03488199785351753,
+      "rewards/margins": 0.06790916621685028,
+      "rewards/margins_max": 0.09974372386932373,
+      "rewards/margins_min": 0.03607460856437683,
+      "rewards/margins_std": 0.04502086713910103,
+      "rewards/rejected": -0.03302717208862305,
+      "step": 1690
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 0.361328125,
+      "learning_rate": 2.62644573055405e-07,
+      "logits/chosen": -1.527411699295044,
+      "logits/rejected": -1.0853965282440186,
+      "logps/chosen": -193.60665893554688,
+      "logps/rejected": -200.410888671875,
+      "loss": 0.6657,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.037782810628414154,
+      "rewards/margins": 0.06309525668621063,
+      "rewards/margins_max": 0.0949065238237381,
+      "rewards/margins_min": 0.031283993273973465,
+      "rewards/margins_std": 0.04498792067170143,
+      "rewards/rejected": -0.02531243860721588,
+      "step": 1700
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 0.447265625,
+      "learning_rate": 2.598973896065674e-07,
+      "logits/chosen": -1.1190847158432007,
+      "logits/rejected": -0.9498281478881836,
+      "logps/chosen": -246.06240844726562,
+      "logps/rejected": -278.57708740234375,
+      "loss": 0.6647,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.029680589213967323,
+      "rewards/margins": 0.06372956186532974,
+      "rewards/margins_max": 0.08478715270757675,
+      "rewards/margins_min": 0.04267194867134094,
+      "rewards/margins_std": 0.029779959470033646,
+      "rewards/rejected": -0.03404896706342697,
+      "step": 1710
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 0.322265625,
+      "learning_rate": 2.571490085912638e-07,
+      "logits/chosen": -1.294392704963684,
+      "logits/rejected": -0.901209831237793,
+      "logps/chosen": -222.6404571533203,
+      "logps/rejected": -221.46646118164062,
+      "loss": 0.666,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.035451389849185944,
+      "rewards/margins": 0.06020699813961983,
+      "rewards/margins_max": 0.08351422101259232,
+      "rewards/margins_min": 0.036899782717227936,
+      "rewards/margins_std": 0.03296138346195221,
+      "rewards/rejected": -0.024755608290433884,
+      "step": 1720
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 0.404296875,
+      "learning_rate": 2.5439976255868846e-07,
+      "logits/chosen": -1.3172805309295654,
+      "logits/rejected": -0.9587199091911316,
+      "logps/chosen": -201.81642150878906,
+      "logps/rejected": -264.8630065917969,
+      "loss": 0.6643,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.02492239698767662,
+      "rewards/margins": 0.06449567526578903,
+      "rewards/margins_max": 0.10114102065563202,
+      "rewards/margins_min": 0.02785031870007515,
+      "rewards/margins_std": 0.051824361085891724,
+      "rewards/rejected": -0.03957327455282211,
+      "step": 1730
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 0.458984375,
+      "learning_rate": 2.5164998416270137e-07,
+      "logits/chosen": -1.4752823114395142,
+      "logits/rejected": -1.1924030780792236,
+      "logps/chosen": -225.65927124023438,
+      "logps/rejected": -236.69290161132812,
+      "loss": 0.6656,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.025519024580717087,
+      "rewards/margins": 0.05898071080446243,
+      "rewards/margins_max": 0.09197360277175903,
+      "rewards/margins_min": 0.025987815111875534,
+      "rewards/margins_std": 0.04665899649262428,
+      "rewards/rejected": -0.033461686223745346,
+      "step": 1740
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 0.34765625,
+      "learning_rate": 2.489000061215775e-07,
+      "logits/chosen": -1.3754206895828247,
+      "logits/rejected": -1.0634129047393799,
+      "logps/chosen": -212.5056915283203,
+      "logps/rejected": -217.0105438232422,
+      "loss": 0.6659,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03384281322360039,
+      "rewards/margins": 0.05164814740419388,
+      "rewards/margins_max": 0.0746842697262764,
+      "rewards/margins_min": 0.02861202321946621,
+      "rewards/margins_std": 0.0325779989361763,
+      "rewards/rejected": -0.01780533231794834,
+      "step": 1750
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 0.365234375,
+      "learning_rate": 2.461501611777483e-07,
+      "logits/chosen": -1.3263044357299805,
+      "logits/rejected": -1.0537205934524536,
+      "logps/chosen": -197.9228973388672,
+      "logps/rejected": -214.32839965820312,
+      "loss": 0.671,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.030653411522507668,
+      "rewards/margins": 0.04631539434194565,
+      "rewards/margins_max": 0.06874962151050568,
+      "rewards/margins_min": 0.023881174623966217,
+      "rewards/margins_std": 0.03172678127884865,
+      "rewards/rejected": -0.01566198468208313,
+      "step": 1760
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 0.345703125,
+      "learning_rate": 2.4340078205754096e-07,
+      "logits/chosen": -1.4674514532089233,
+      "logits/rejected": -1.0580947399139404,
+      "logps/chosen": -228.774169921875,
+      "logps/rejected": -245.3206329345703,
+      "loss": 0.6632,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.03198526054620743,
+      "rewards/margins": 0.060487449169158936,
+      "rewards/margins_max": 0.09252621978521347,
+      "rewards/margins_min": 0.028448667377233505,
+      "rewards/margins_std": 0.045309677720069885,
+      "rewards/rejected": -0.02850218489766121,
+      "step": 1770
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 0.390625,
+      "learning_rate": 2.406522014309186e-07,
+      "logits/chosen": -1.3413441181182861,
+      "logits/rejected": -1.0260752439498901,
+      "logps/chosen": -217.0348358154297,
+      "logps/rejected": -218.7316436767578,
+      "loss": 0.6673,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03381979838013649,
+      "rewards/margins": 0.05491740256547928,
+      "rewards/margins_max": 0.08126216381788254,
+      "rewards/margins_min": 0.028572645038366318,
+      "rewards/margins_std": 0.037257120013237,
+      "rewards/rejected": -0.021097611635923386,
+      "step": 1780
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 0.3984375,
+      "learning_rate": 2.3790475187122832e-07,
+      "logits/chosen": -1.3534529209136963,
+      "logits/rejected": -1.0642507076263428,
+      "logps/chosen": -203.16989135742188,
+      "logps/rejected": -185.0489044189453,
+      "loss": 0.6664,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03119819238781929,
+      "rewards/margins": 0.058540262281894684,
+      "rewards/margins_max": 0.0830526053905487,
+      "rewards/margins_min": 0.034027911722660065,
+      "rewards/margins_std": 0.034665681421756744,
+      "rewards/rejected": -0.027342066168785095,
+      "step": 1790
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 0.412109375,
+      "learning_rate": 2.351587658149598e-07,
+      "logits/chosen": -1.453975796699524,
+      "logits/rejected": -0.9396857023239136,
+      "logps/chosen": -307.119140625,
+      "logps/rejected": -293.79193115234375,
+      "loss": 0.6639,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.04417193681001663,
+      "rewards/margins": 0.06028149649500847,
+      "rewards/margins_max": 0.08487708121538162,
+      "rewards/margins_min": 0.03568592667579651,
+      "rewards/margins_std": 0.03478339686989784,
+      "rewards/rejected": -0.016109565272927284,
+      "step": 1800
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 0.39453125,
+      "learning_rate": 2.3241457552152187e-07,
+      "logits/chosen": -1.2886158227920532,
+      "logits/rejected": -0.8535853624343872,
+      "logps/chosen": -255.9151153564453,
+      "logps/rejected": -190.72183227539062,
+      "loss": 0.6651,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.0356779471039772,
+      "rewards/margins": 0.06389064341783524,
+      "rewards/margins_max": 0.09344568848609924,
+      "rewards/margins_min": 0.034335602074861526,
+      "rewards/margins_std": 0.04179714247584343,
+      "rewards/rejected": -0.028212696313858032,
+      "step": 1810
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 0.37890625,
+      "learning_rate": 2.2967251303303876e-07,
+      "logits/chosen": -1.2967920303344727,
+      "logits/rejected": -1.069603443145752,
+      "logps/chosen": -174.32562255859375,
+      "logps/rejected": -198.73556518554688,
+      "loss": 0.6673,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.02710595726966858,
+      "rewards/margins": 0.04836275056004524,
+      "rewards/margins_max": 0.07030778378248215,
+      "rewards/margins_min": 0.02641770802438259,
+      "rewards/margins_std": 0.03103497065603733,
+      "rewards/rejected": -0.021256795153021812,
+      "step": 1820
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 0.275390625,
+      "learning_rate": 2.2693291013417452e-07,
+      "logits/chosen": -1.3830006122589111,
+      "logits/rejected": -1.131734848022461,
+      "logps/chosen": -196.27232360839844,
+      "logps/rejected": -220.3488311767578,
+      "loss": 0.6668,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.04211854934692383,
+      "rewards/margins": 0.054630208760499954,
+      "rewards/margins_max": 0.08319230377674103,
+      "rewards/margins_min": 0.026068110018968582,
+      "rewards/margins_std": 0.0403929129242897,
+      "rewards/rejected": -0.012511657550930977,
+      "step": 1830
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 0.458984375,
+      "learning_rate": 2.2419609831198695e-07,
+      "logits/chosen": -1.314412236213684,
+      "logits/rejected": -1.0906130075454712,
+      "logps/chosen": -202.8844451904297,
+      "logps/rejected": -282.2475280761719,
+      "loss": 0.6657,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.029452290385961533,
+      "rewards/margins": 0.06307311356067657,
+      "rewards/margins_max": 0.08669252693653107,
+      "rewards/margins_min": 0.03945370018482208,
+      "rewards/margins_std": 0.03340289741754532,
+      "rewards/rejected": -0.03362082317471504,
+      "step": 1840
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 0.4765625,
+      "learning_rate": 2.2146240871581875e-07,
+      "logits/chosen": -1.4870127439498901,
+      "logits/rejected": -1.10221529006958,
+      "logps/chosen": -257.47381591796875,
+      "logps/rejected": -300.7210388183594,
+      "loss": 0.6677,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.048544105142354965,
+      "rewards/margins": 0.06802462041378021,
+      "rewards/margins_max": 0.0930628627538681,
+      "rewards/margins_min": 0.04298638552427292,
+      "rewards/margins_std": 0.035409413278102875,
+      "rewards/rejected": -0.019480522722005844,
+      "step": 1850
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 0.404296875,
+      "learning_rate": 2.187321721172288e-07,
+      "logits/chosen": -1.2666473388671875,
+      "logits/rejected": -0.9587362408638,
+      "logps/chosen": -202.96151733398438,
+      "logps/rejected": -188.11402893066406,
+      "loss": 0.6625,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.035519860684871674,
+      "rewards/margins": 0.06863918900489807,
+      "rewards/margins_max": 0.10405266284942627,
+      "rewards/margins_min": 0.033225707709789276,
+      "rewards/margins_std": 0.05008222907781601,
+      "rewards/rejected": -0.0331193283200264,
+      "step": 1860
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 0.306640625,
+      "learning_rate": 2.1600571886996932e-07,
+      "logits/chosen": -1.409246563911438,
+      "logits/rejected": -0.9662661552429199,
+      "logps/chosen": -255.17337036132812,
+      "logps/rejected": -237.2165069580078,
+      "loss": 0.664,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.034895267337560654,
+      "rewards/margins": 0.060319460928440094,
+      "rewards/margins_max": 0.08776156604290009,
+      "rewards/margins_min": 0.032877348363399506,
+      "rewards/margins_std": 0.038808997720479965,
+      "rewards/rejected": -0.025424188002943993,
+      "step": 1870
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 0.34765625,
+      "learning_rate": 2.1328337887001386e-07,
+      "logits/chosen": -1.3689050674438477,
+      "logits/rejected": -0.9174262881278992,
+      "logps/chosen": -250.42257690429688,
+      "logps/rejected": -213.65115356445312,
+      "loss": 0.6637,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.03616097569465637,
+      "rewards/margins": 0.0674886554479599,
+      "rewards/margins_max": 0.09155096858739853,
+      "rewards/margins_min": 0.04342634230852127,
+      "rewards/margins_std": 0.03402925282716751,
+      "rewards/rejected": -0.03132767975330353,
+      "step": 1880
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.55859375,
+      "learning_rate": 2.105654815156406e-07,
+      "logits/chosen": -1.2773230075836182,
+      "logits/rejected": -0.9415411949157715,
+      "logps/chosen": -211.5564727783203,
+      "logps/rejected": -241.5669403076172,
+      "loss": 0.6639,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03792757913470268,
+      "rewards/margins": 0.05873064324259758,
+      "rewards/margins_max": 0.08351272344589233,
+      "rewards/margins_min": 0.03394855558872223,
+      "rewards/margins_std": 0.03504716232419014,
+      "rewards/rejected": -0.0208030603826046,
+      "step": 1890
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.443359375,
+      "learning_rate": 2.0785235566757517e-07,
+      "logits/chosen": -1.5174918174743652,
+      "logits/rejected": -1.0792747735977173,
+      "logps/chosen": -274.3040466308594,
+      "logps/rejected": -269.9195556640625,
+      "loss": 0.6665,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.031049564480781555,
+      "rewards/margins": 0.04908784478902817,
+      "rewards/margins_max": 0.07297800481319427,
+      "rewards/margins_min": 0.02519768849015236,
+      "rewards/margins_std": 0.033785782754421234,
+      "rewards/rejected": -0.01803828403353691,
+      "step": 1900
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.3984375,
+      "learning_rate": 2.0514432960919976e-07,
+      "logits/chosen": -1.3264081478118896,
+      "logits/rejected": -0.8952063322067261,
+      "logps/chosen": -275.90582275390625,
+      "logps/rejected": -227.85183715820312,
+      "loss": 0.6629,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.035590268671512604,
+      "rewards/margins": 0.05433149263262749,
+      "rewards/margins_max": 0.08622786402702332,
+      "rewards/margins_min": 0.022435134276747704,
+      "rewards/margins_std": 0.04510827362537384,
+      "rewards/rejected": -0.01874123141169548,
+      "step": 1910
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.384765625,
+      "learning_rate": 2.024417310068309e-07,
+      "logits/chosen": -1.3526580333709717,
+      "logits/rejected": -1.0428838729858398,
+      "logps/chosen": -242.9093475341797,
+      "logps/rejected": -221.0670928955078,
+      "loss": 0.6657,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03770860657095909,
+      "rewards/margins": 0.06553932279348373,
+      "rewards/margins_max": 0.09631849825382233,
+      "rewards/margins_min": 0.03476015478372574,
+      "rewards/margins_std": 0.04352831840515137,
+      "rewards/rejected": -0.027830716222524643,
+      "step": 1920
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 0.392578125,
+      "learning_rate": 1.9974488687007272e-07,
+      "logits/chosen": -1.321537733078003,
+      "logits/rejected": -0.9563083648681641,
+      "logps/chosen": -189.53338623046875,
+      "logps/rejected": -208.65695190429688,
+      "loss": 0.6677,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.037261709570884705,
+      "rewards/margins": 0.050910621881484985,
+      "rewards/margins_max": 0.08092696219682693,
+      "rewards/margins_min": 0.020894277840852737,
+      "rewards/margins_std": 0.042449526488780975,
+      "rewards/rejected": -0.01364891231060028,
+      "step": 1930
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 0.314453125,
+      "learning_rate": 1.9705412351224935e-07,
+      "logits/chosen": -1.341074824333191,
+      "logits/rejected": -1.031362533569336,
+      "logps/chosen": -262.0687561035156,
+      "logps/rejected": -209.2541046142578,
+      "loss": 0.6632,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.04073809087276459,
+      "rewards/margins": 0.06763813644647598,
+      "rewards/margins_max": 0.10079771280288696,
+      "rewards/margins_min": 0.034478556364774704,
+      "rewards/margins_std": 0.04689472168684006,
+      "rewards/rejected": -0.026900043711066246,
+      "step": 1940
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 0.482421875,
+      "learning_rate": 1.9436976651092142e-07,
+      "logits/chosen": -1.4449079036712646,
+      "logits/rejected": -1.0441436767578125,
+      "logps/chosen": -323.22515869140625,
+      "logps/rejected": -259.187744140625,
+      "loss": 0.6621,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.04286254942417145,
+      "rewards/margins": 0.06869898736476898,
+      "rewards/margins_max": 0.08886998146772385,
+      "rewards/margins_min": 0.048527974635362625,
+      "rewards/margins_std": 0.028526106849312782,
+      "rewards/rejected": -0.025836432352662086,
+      "step": 1950
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.380859375,
+      "learning_rate": 1.9169214066849198e-07,
+      "logits/chosen": -1.3310493230819702,
+      "logits/rejected": -1.0039780139923096,
+      "logps/chosen": -207.80368041992188,
+      "logps/rejected": -217.77279663085938,
+      "loss": 0.6671,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.029799357056617737,
+      "rewards/margins": 0.05040057748556137,
+      "rewards/margins_max": 0.07911469042301178,
+      "rewards/margins_min": 0.021686479449272156,
+      "rewards/margins_std": 0.04060788080096245,
+      "rewards/rejected": -0.02060122787952423,
+      "step": 1960
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.37109375,
+      "learning_rate": 1.890215699729057e-07,
+      "logits/chosen": -1.3599677085876465,
+      "logits/rejected": -0.952431321144104,
+      "logps/chosen": -220.8314971923828,
+      "logps/rejected": -218.5143280029297,
+      "loss": 0.6636,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03455578535795212,
+      "rewards/margins": 0.059498321264982224,
+      "rewards/margins_max": 0.08264943957328796,
+      "rewards/margins_min": 0.03634720668196678,
+      "rewards/margins_std": 0.032740626484155655,
+      "rewards/rejected": -0.024942539632320404,
+      "step": 1970
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.3828125,
+      "learning_rate": 1.8635837755844736e-07,
+      "logits/chosen": -1.5396320819854736,
+      "logits/rejected": -1.1135740280151367,
+      "logps/chosen": -192.1985321044922,
+      "logps/rejected": -189.65496826171875,
+      "loss": 0.6638,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.04031743109226227,
+      "rewards/margins": 0.06330820918083191,
+      "rewards/margins_max": 0.09154955297708511,
+      "rewards/margins_min": 0.035066869109869,
+      "rewards/margins_std": 0.03993929177522659,
+      "rewards/rejected": -0.02299078181385994,
+      "step": 1980
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 0.328125,
+      "learning_rate": 1.837028856666426e-07,
+      "logits/chosen": -1.396333932876587,
+      "logits/rejected": -1.0482286214828491,
+      "logps/chosen": -223.5980987548828,
+      "logps/rejected": -197.462646484375,
+      "loss": 0.6639,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03402381017804146,
+      "rewards/margins": 0.05975471809506416,
+      "rewards/margins_max": 0.09332195669412613,
+      "rewards/margins_min": 0.026187485083937645,
+      "rewards/margins_std": 0.04747123643755913,
+      "rewards/rejected": -0.025730907917022705,
+      "step": 1990
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 0.37109375,
+      "learning_rate": 1.8105541560726783e-07,
+      "logits/chosen": -1.5116699934005737,
+      "logits/rejected": -1.005076289176941,
+      "logps/chosen": -216.2085418701172,
+      "logps/rejected": -199.5402374267578,
+      "loss": 0.6648,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.037188541144132614,
+      "rewards/margins": 0.05942929536104202,
+      "rewards/margins_max": 0.08686941862106323,
+      "rewards/margins_min": 0.03198916092514992,
+      "rewards/margins_std": 0.038806211203336716,
+      "rewards/rejected": -0.02224075235426426,
+      "step": 2000
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 0.353515625,
+      "learning_rate": 1.7841628771947186e-07,
+      "logits/chosen": -1.4040260314941406,
+      "logits/rejected": -0.965591549873352,
+      "logps/chosen": -234.39431762695312,
+      "logps/rejected": -202.01571655273438,
+      "loss": 0.6651,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03427529335021973,
+      "rewards/margins": 0.0503767728805542,
+      "rewards/margins_max": 0.07114100456237793,
+      "rewards/margins_min": 0.02961254119873047,
+      "rewards/margins_std": 0.02936505898833275,
+      "rewards/rejected": -0.016101477667689323,
+      "step": 2010
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.3515625,
+      "learning_rate": 1.757858213330157e-07,
+      "logits/chosen": -1.1877460479736328,
+      "logits/rejected": -0.9582545161247253,
+      "logps/chosen": -229.884033203125,
+      "logps/rejected": -281.41351318359375,
+      "loss": 0.6646,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03942031413316727,
+      "rewards/margins": 0.06542594730854034,
+      "rewards/margins_max": 0.09780795872211456,
+      "rewards/margins_min": 0.03304394707083702,
+      "rewards/margins_std": 0.04579506441950798,
+      "rewards/rejected": -0.026005636900663376,
+      "step": 2020
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.462890625,
+      "learning_rate": 1.7316433472963426e-07,
+      "logits/chosen": -1.507406234741211,
+      "logits/rejected": -1.1749341487884521,
+      "logps/chosen": -281.5582580566406,
+      "logps/rejected": -243.66110229492188,
+      "loss": 0.6623,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03884587436914444,
+      "rewards/margins": 0.059391576796770096,
+      "rewards/margins_max": 0.08674292266368866,
+      "rewards/margins_min": 0.032040227204561234,
+      "rewards/margins_std": 0.03868064284324646,
+      "rewards/rejected": -0.02054569497704506,
+      "step": 2030
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.357421875,
+      "learning_rate": 1.7055214510452458e-07,
+      "logits/chosen": -1.3578734397888184,
+      "logits/rejected": -0.849805474281311,
+      "logps/chosen": -331.993408203125,
+      "logps/rejected": -279.07733154296875,
+      "loss": 0.6626,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03726685792207718,
+      "rewards/margins": 0.06775570660829544,
+      "rewards/margins_max": 0.09739796817302704,
+      "rewards/margins_min": 0.03811345621943474,
+      "rewards/margins_std": 0.04192047566175461,
+      "rewards/rejected": -0.03048885427415371,
+      "step": 2040
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 0.3828125,
+      "learning_rate": 1.6794956852796616e-07,
+      "logits/chosen": -1.421799659729004,
+      "logits/rejected": -1.0734702348709106,
+      "logps/chosen": -214.08364868164062,
+      "logps/rejected": -222.42636108398438,
+      "loss": 0.66,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.046803176403045654,
+      "rewards/margins": 0.07683407515287399,
+      "rewards/margins_max": 0.11319296061992645,
+      "rewards/margins_min": 0.040475185960531235,
+      "rewards/margins_std": 0.05141923576593399,
+      "rewards/rejected": -0.03003089688718319,
+      "step": 2050
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 0.283203125,
+      "learning_rate": 1.653569199070764e-07,
+      "logits/chosen": -1.437723994255066,
+      "logits/rejected": -1.0029988288879395,
+      "logps/chosen": -206.7332000732422,
+      "logps/rejected": -232.79580688476562,
+      "loss": 0.661,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.04119989275932312,
+      "rewards/margins": 0.06901855766773224,
+      "rewards/margins_max": 0.10958409309387207,
+      "rewards/margins_min": 0.028453027829527855,
+      "rewards/margins_std": 0.05736833065748215,
+      "rewards/rejected": -0.027818670496344566,
+      "step": 2060
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 0.46484375,
+      "learning_rate": 1.6277451294770832e-07,
+      "logits/chosen": -1.427294135093689,
+      "logits/rejected": -1.043678641319275,
+      "logps/chosen": -173.60861206054688,
+      "logps/rejected": -159.7396697998047,
+      "loss": 0.663,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03490697965025902,
+      "rewards/margins": 0.05194821208715439,
+      "rewards/margins_max": 0.0755261555314064,
+      "rewards/margins_min": 0.028370272368192673,
+      "rewards/margins_std": 0.03334423899650574,
+      "rewards/rejected": -0.01704123243689537,
+      "step": 2070
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 0.396484375,
+      "learning_rate": 1.6020266011649176e-07,
+      "logits/chosen": -1.3484151363372803,
+      "logits/rejected": -0.9436542391777039,
+      "logps/chosen": -246.00296020507812,
+      "logps/rejected": -232.9607391357422,
+      "loss": 0.6638,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03393206372857094,
+      "rewards/margins": 0.06296433508396149,
+      "rewards/margins_max": 0.09208185970783234,
+      "rewards/margins_min": 0.03384682536125183,
+      "rewards/margins_std": 0.0411783829331398,
+      "rewards/rejected": -0.029032278805971146,
+      "step": 2080
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 0.34375,
+      "learning_rate": 1.5764167260302608e-07,
+      "logits/chosen": -1.269598364830017,
+      "logits/rejected": -1.101138949394226,
+      "logps/chosen": -212.4265594482422,
+      "logps/rejected": -261.7176208496094,
+      "loss": 0.6673,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.02871812880039215,
+      "rewards/margins": 0.059116750955581665,
+      "rewards/margins_max": 0.081370510160923,
+      "rewards/margins_min": 0.03686298802495003,
+      "rewards/margins_std": 0.03147156536579132,
+      "rewards/rejected": -0.030398612841963768,
+      "step": 2090
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 0.369140625,
+      "learning_rate": 1.5509186028222653e-07,
+      "logits/chosen": -1.3609730005264282,
+      "logits/rejected": -0.8888334035873413,
+      "logps/chosen": -240.88809204101562,
+      "logps/rejected": -205.7561492919922,
+      "loss": 0.6634,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.036828793585300446,
+      "rewards/margins": 0.06859615445137024,
+      "rewards/margins_max": 0.09640248119831085,
+      "rewards/margins_min": 0.040789827704429626,
+      "rewards/margins_std": 0.0393240861594677,
+      "rewards/rejected": -0.031767360866069794,
+      "step": 2100
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 0.390625,
+      "learning_rate": 1.5255353167683017e-07,
+      "logits/chosen": -1.4757276773452759,
+      "logits/rejected": -1.0737035274505615,
+      "logps/chosen": -197.3357696533203,
+      "logps/rejected": -193.08956909179688,
+      "loss": 0.6677,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03849588334560394,
+      "rewards/margins": 0.049884069710969925,
+      "rewards/margins_max": 0.07029401510953903,
+      "rewards/margins_min": 0.02947412058711052,
+      "rewards/margins_std": 0.028864026069641113,
+      "rewards/rejected": -0.01138819195330143,
+      "step": 2110
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 0.44140625,
+      "learning_rate": 1.500269939200648e-07,
+      "logits/chosen": -1.4104186296463013,
+      "logits/rejected": -1.1364113092422485,
+      "logps/chosen": -180.714111328125,
+      "logps/rejected": -193.08792114257812,
+      "loss": 0.6653,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03277165815234184,
+      "rewards/margins": 0.04854750260710716,
+      "rewards/margins_max": 0.07237715274095535,
+      "rewards/margins_min": 0.02471785433590412,
+      "rewards/margins_std": 0.03370020538568497,
+      "rewards/rejected": -0.01577584072947502,
+      "step": 2120
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 0.384765625,
+      "learning_rate": 1.4751255271848661e-07,
+      "logits/chosen": -1.3990291357040405,
+      "logits/rejected": -1.111859917640686,
+      "logps/chosen": -191.26333618164062,
+      "logps/rejected": -209.4487762451172,
+      "loss": 0.6633,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03463239595293999,
+      "rewards/margins": 0.05561947077512741,
+      "rewards/margins_max": 0.08030703663825989,
+      "rewards/margins_min": 0.03093191422522068,
+      "rewards/margins_std": 0.03491348773241043,
+      "rewards/rejected": -0.02098708227276802,
+      "step": 2130
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 0.4296875,
+      "learning_rate": 1.450105123149904e-07,
+      "logits/chosen": -1.3517110347747803,
+      "logits/rejected": -0.8976603746414185,
+      "logps/chosen": -236.5410614013672,
+      "logps/rejected": -285.66143798828125,
+      "loss": 0.6594,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.04675716906785965,
+      "rewards/margins": 0.0757768452167511,
+      "rewards/margins_max": 0.1105475053191185,
+      "rewards/margins_min": 0.0410061851143837,
+      "rewards/margins_std": 0.04917313903570175,
+      "rewards/rejected": -0.029019678011536598,
+      "step": 2140
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.36328125,
+      "learning_rate": 1.4252117545199638e-07,
+      "logits/chosen": -1.2252193689346313,
+      "logits/rejected": -1.2452119588851929,
+      "logps/chosen": -129.21884155273438,
+      "logps/rejected": -187.29981994628906,
+      "loss": 0.6689,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.02311699464917183,
+      "rewards/margins": 0.053245484828948975,
+      "rewards/margins_max": 0.08089035749435425,
+      "rewards/margins_min": 0.025600602850317955,
+      "rewards/margins_std": 0.03909575939178467,
+      "rewards/rejected": -0.030128484591841698,
+      "step": 2150
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.421875,
+      "learning_rate": 1.400448433348191e-07,
+      "logits/chosen": -1.3551205396652222,
+      "logits/rejected": -1.0361279249191284,
+      "logps/chosen": -181.05245971679688,
+      "logps/rejected": -190.93905639648438,
+      "loss": 0.6667,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.033756453543901443,
+      "rewards/margins": 0.05258417874574661,
+      "rewards/margins_max": 0.08322058618068695,
+      "rewards/margins_min": 0.02194777876138687,
+      "rewards/margins_std": 0.04332640767097473,
+      "rewards/rejected": -0.01882772520184517,
+      "step": 2160
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.3828125,
+      "learning_rate": 1.3758181559522219e-07,
+      "logits/chosen": -1.3742306232452393,
+      "logits/rejected": -1.1042159795761108,
+      "logps/chosen": -195.7826690673828,
+      "logps/rejected": -224.00357055664062,
+      "loss": 0.6649,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.039305493235588074,
+      "rewards/margins": 0.054510366171598434,
+      "rewards/margins_max": 0.07698939740657806,
+      "rewards/margins_min": 0.032031331211328506,
+      "rewards/margins_std": 0.031790152192115784,
+      "rewards/rejected": -0.015204873867332935,
+      "step": 2170
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 0.490234375,
+      "learning_rate": 1.351323902551631e-07,
+      "logits/chosen": -1.423339605331421,
+      "logits/rejected": -1.0979268550872803,
+      "logps/chosen": -188.20086669921875,
+      "logps/rejected": -208.48483276367188,
+      "loss": 0.6595,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.036755792796611786,
+      "rewards/margins": 0.06653173267841339,
+      "rewards/margins_max": 0.10358710587024689,
+      "rewards/margins_min": 0.029476355761289597,
+      "rewards/margins_std": 0.052404217422008514,
+      "rewards/rejected": -0.029775941744446754,
+      "step": 2180
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 0.46484375,
+      "learning_rate": 1.3269686369073347e-07,
+      "logits/chosen": -1.4356403350830078,
+      "logits/rejected": -0.9359350204467773,
+      "logps/chosen": -255.5299530029297,
+      "logps/rejected": -220.5718536376953,
+      "loss": 0.663,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03550455719232559,
+      "rewards/margins": 0.07294157147407532,
+      "rewards/margins_max": 0.11041506379842758,
+      "rewards/margins_min": 0.03546806797385216,
+      "rewards/margins_std": 0.052995532751083374,
+      "rewards/rejected": -0.037437014281749725,
+      "step": 2190
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 0.56640625,
+      "learning_rate": 1.3027553059629776e-07,
+      "logits/chosen": -1.270801305770874,
+      "logits/rejected": -0.9209572076797485,
+      "logps/chosen": -203.37147521972656,
+      "logps/rejected": -237.0596160888672,
+      "loss": 0.6625,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03659834340214729,
+      "rewards/margins": 0.07047709822654724,
+      "rewards/margins_max": 0.10837771743535995,
+      "rewards/margins_min": 0.03257646784186363,
+      "rewards/margins_std": 0.05359958857297897,
+      "rewards/rejected": -0.03387875854969025,
+      "step": 2200
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 0.400390625,
+      "learning_rate": 1.2786868394883615e-07,
+      "logits/chosen": -1.3924726247787476,
+      "logits/rejected": -0.9072662591934204,
+      "logps/chosen": -237.67532348632812,
+      "logps/rejected": -171.44007873535156,
+      "loss": 0.6647,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": 0.03645704686641693,
+      "rewards/margins": 0.04906289279460907,
+      "rewards/margins_max": 0.07811780273914337,
+      "rewards/margins_min": 0.02000797912478447,
+      "rewards/margins_std": 0.041089847683906555,
+      "rewards/rejected": -0.012605843134224415,
+      "step": 2210
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 0.287109375,
+      "learning_rate": 1.2547661497249423e-07,
+      "logits/chosen": -1.505576491355896,
+      "logits/rejected": -1.0931254625320435,
+      "logps/chosen": -251.4204559326172,
+      "logps/rejected": -184.33187866210938,
+      "loss": 0.6618,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03499855846166611,
+      "rewards/margins": 0.060498736798763275,
+      "rewards/margins_max": 0.09210414439439774,
+      "rewards/margins_min": 0.028893321752548218,
+      "rewards/margins_std": 0.04469680041074753,
+      "rewards/rejected": -0.025500169023871422,
+      "step": 2220
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 0.369140625,
+      "learning_rate": 1.2309961310334608e-07,
+      "logits/chosen": -1.381753921508789,
+      "logits/rejected": -1.0234613418579102,
+      "logps/chosen": -209.87673950195312,
+      "logps/rejected": -193.29415893554688,
+      "loss": 0.6657,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.036537621170282364,
+      "rewards/margins": 0.05814922973513603,
+      "rewards/margins_max": 0.0908384695649147,
+      "rewards/margins_min": 0.025459999218583107,
+      "rewards/margins_std": 0.04622955992817879,
+      "rewards/rejected": -0.021611608564853668,
+      "step": 2230
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 0.47265625,
+      "learning_rate": 1.207379659543726e-07,
+      "logits/chosen": -1.5136375427246094,
+      "logits/rejected": -1.0719817876815796,
+      "logps/chosen": -235.4477081298828,
+      "logps/rejected": -190.52899169921875,
+      "loss": 0.6619,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.04006263613700867,
+      "rewards/margins": 0.05348850414156914,
+      "rewards/margins_max": 0.07529211789369583,
+      "rewards/margins_min": 0.03168489784002304,
+      "rewards/margins_std": 0.03083496168255806,
+      "rewards/rejected": -0.013425871729850769,
+      "step": 2240
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 0.48046875,
+      "learning_rate": 1.1839195928066101e-07,
+      "logits/chosen": -1.5472790002822876,
+      "logits/rejected": -1.063508152961731,
+      "logps/chosen": -237.460205078125,
+      "logps/rejected": -203.92752075195312,
+      "loss": 0.6676,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03670421242713928,
+      "rewards/margins": 0.0651477798819542,
+      "rewards/margins_max": 0.09266404807567596,
+      "rewards/margins_min": 0.03763151913881302,
+      "rewards/margins_std": 0.038913875818252563,
+      "rewards/rejected": -0.02844356931746006,
+      "step": 2250
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 0.4140625,
+      "learning_rate": 1.1606187694482895e-07,
+      "logits/chosen": -1.3274108171463013,
+      "logits/rejected": -1.0006046295166016,
+      "logps/chosen": -341.37298583984375,
+      "logps/rejected": -298.43218994140625,
+      "loss": 0.6606,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03555456921458244,
+      "rewards/margins": 0.0692644715309143,
+      "rewards/margins_max": 0.09813406318426132,
+      "rewards/margins_min": 0.04039488732814789,
+      "rewards/margins_std": 0.040827758610248566,
+      "rewards/rejected": -0.03370990604162216,
+      "step": 2260
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.453125,
+      "learning_rate": 1.1374800088267766e-07,
+      "logits/chosen": -1.3964722156524658,
+      "logits/rejected": -0.8625639081001282,
+      "logps/chosen": -256.6228332519531,
+      "logps/rejected": -204.37188720703125,
+      "loss": 0.6618,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03464067354798317,
+      "rewards/margins": 0.06588082760572433,
+      "rewards/margins_max": 0.09385097026824951,
+      "rewards/margins_min": 0.03791068494319916,
+      "rewards/margins_std": 0.03955575078725815,
+      "rewards/rejected": -0.031240154057741165,
+      "step": 2270
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.392578125,
+      "learning_rate": 1.1145061106907803e-07,
+      "logits/chosen": -1.3579143285751343,
+      "logits/rejected": -1.1530735492706299,
+      "logps/chosen": -213.7913055419922,
+      "logps/rejected": -274.8453674316406,
+      "loss": 0.6626,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.039796892553567886,
+      "rewards/margins": 0.07231783121824265,
+      "rewards/margins_max": 0.1056450754404068,
+      "rewards/margins_min": 0.03899059444665909,
+      "rewards/margins_std": 0.04713182896375656,
+      "rewards/rejected": -0.03252093866467476,
+      "step": 2280
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.34375,
+      "learning_rate": 1.0916998548409447e-07,
+      "logits/chosen": -1.2776060104370117,
+      "logits/rejected": -1.0304553508758545,
+      "logps/chosen": -208.4978790283203,
+      "logps/rejected": -255.5095977783203,
+      "loss": 0.663,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03622225672006607,
+      "rewards/margins": 0.06858749687671661,
+      "rewards/margins_max": 0.09841950237751007,
+      "rewards/margins_min": 0.03875547647476196,
+      "rewards/margins_std": 0.04218883812427521,
+      "rewards/rejected": -0.032365236431360245,
+      "step": 2290
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.5859375,
+      "learning_rate": 1.0690640007934978e-07,
+      "logits/chosen": -1.365751028060913,
+      "logits/rejected": -0.8165037035942078,
+      "logps/chosen": -263.61102294921875,
+      "logps/rejected": -221.7294158935547,
+      "loss": 0.6703,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.036759573966264725,
+      "rewards/margins": 0.057599522173404694,
+      "rewards/margins_max": 0.08515635877847672,
+      "rewards/margins_min": 0.030042681843042374,
+      "rewards/margins_std": 0.03897125646471977,
+      "rewards/rejected": -0.020839953795075417,
+      "step": 2300
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 0.451171875,
+      "learning_rate": 1.0466012874463507e-07,
+      "logits/chosen": -1.2811259031295776,
+      "logits/rejected": -0.9887920618057251,
+      "logps/chosen": -267.3749694824219,
+      "logps/rejected": -244.70596313476562,
+      "loss": 0.6677,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.038502246141433716,
+      "rewards/margins": 0.060044266283512115,
+      "rewards/margins_max": 0.08822239935398102,
+      "rewards/margins_min": 0.03186614066362381,
+      "rewards/margins_std": 0.039849892258644104,
+      "rewards/rejected": -0.02154202200472355,
+      "step": 2310
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 0.498046875,
+      "learning_rate": 1.0243144327477013e-07,
+      "logits/chosen": -1.4756540060043335,
+      "logits/rejected": -0.9919270277023315,
+      "logps/chosen": -223.4065704345703,
+      "logps/rejected": -209.97573852539062,
+      "loss": 0.6588,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.04816528037190437,
+      "rewards/margins": 0.07530733942985535,
+      "rewards/margins_max": 0.10730701684951782,
+      "rewards/margins_min": 0.04330766201019287,
+      "rewards/margins_std": 0.04525437951087952,
+      "rewards/rejected": -0.027142059057950974,
+      "step": 2320
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 0.326171875,
+      "learning_rate": 1.0022061333671647e-07,
+      "logits/chosen": -1.3365637063980103,
+      "logits/rejected": -0.9453974962234497,
+      "logps/chosen": -221.6447296142578,
+      "logps/rejected": -205.4340057373047,
+      "loss": 0.6633,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.043263550847768784,
+      "rewards/margins": 0.07088526338338852,
+      "rewards/margins_max": 0.09706144034862518,
+      "rewards/margins_min": 0.044709086418151855,
+      "rewards/margins_std": 0.037018708884716034,
+      "rewards/rejected": -0.027621712535619736,
+      "step": 2330
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.490234375,
+      "learning_rate": 9.802790643694817e-08,
+      "logits/chosen": -1.3576759099960327,
+      "logits/rejected": -1.1886638402938843,
+      "logps/chosen": -196.93856811523438,
+      "logps/rejected": -203.70106506347656,
+      "loss": 0.6661,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.03112906776368618,
+      "rewards/margins": 0.05759000778198242,
+      "rewards/margins_max": 0.08904091268777847,
+      "rewards/margins_min": 0.02613910473883152,
+      "rewards/margins_std": 0.044478293508291245,
+      "rewards/rejected": -0.026460934430360794,
+      "step": 2340
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.4609375,
+      "learning_rate": 9.585358788908393e-08,
+      "logits/chosen": -1.386399745941162,
+      "logits/rejected": -1.065953254699707,
+      "logps/chosen": -228.66220092773438,
+      "logps/rejected": -250.2444610595703,
+      "loss": 0.6644,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.030235329642891884,
+      "rewards/margins": 0.05980142205953598,
+      "rewards/margins_max": 0.09089671075344086,
+      "rewards/margins_min": 0.028706133365631104,
+      "rewards/margins_std": 0.043975379317998886,
+      "rewards/rejected": -0.029566094279289246,
+      "step": 2350
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.453125,
+      "learning_rate": 9.36979207817849e-08,
+      "logits/chosen": -1.5047038793563843,
+      "logits/rejected": -1.2480775117874146,
+      "logps/chosen": -239.8202667236328,
+      "logps/rejected": -234.4571533203125,
+      "loss": 0.6693,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.032885629683732986,
+      "rewards/margins": 0.05206092447042465,
+      "rewards/margins_max": 0.07507045567035675,
+      "rewards/margins_min": 0.029051411896944046,
+      "rewards/margins_std": 0.032540373504161835,
+      "rewards/rejected": -0.019175300374627113,
+      "step": 2360
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.5390625,
+      "learning_rate": 9.156116594692096e-08,
+      "logits/chosen": -1.4589383602142334,
+      "logits/rejected": -0.9495819807052612,
+      "logps/chosen": -231.2331085205078,
+      "logps/rejected": -212.32382202148438,
+      "loss": 0.66,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.04424898326396942,
+      "rewards/margins": 0.06708662211894989,
+      "rewards/margins_max": 0.09897585213184357,
+      "rewards/margins_min": 0.03519739955663681,
+      "rewards/margins_std": 0.04509817436337471,
+      "rewards/rejected": -0.02283763512969017,
+      "step": 2370
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.375,
+      "learning_rate": 8.944358192801102e-08,
+      "logits/chosen": -1.4549717903137207,
+      "logits/rejected": -0.9532996416091919,
+      "logps/chosen": -222.93148803710938,
+      "logps/rejected": -191.50634765625,
+      "loss": 0.6578,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.042102448642253876,
+      "rewards/margins": 0.07653506100177765,
+      "rewards/margins_max": 0.11154161393642426,
+      "rewards/margins_min": 0.041528504341840744,
+      "rewards/margins_std": 0.04950674995779991,
+      "rewards/rejected": -0.034432608634233475,
+      "step": 2380
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 0.3984375,
+      "learning_rate": 8.734542494893954e-08,
+      "logits/chosen": -1.492494821548462,
+      "logits/rejected": -1.2444711923599243,
+      "logps/chosen": -219.95266723632812,
+      "logps/rejected": -268.90484619140625,
+      "loss": 0.6652,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.04024102911353111,
+      "rewards/margins": 0.06013556569814682,
+      "rewards/margins_max": 0.08759422600269318,
+      "rewards/margins_min": 0.03267688676714897,
+      "rewards/margins_std": 0.03883242979645729,
+      "rewards/rejected": -0.01989452913403511,
+      "step": 2390
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.921875,
+      "learning_rate": 8.526694888295355e-08,
+      "logits/chosen": -1.3630679845809937,
+      "logits/rejected": -1.0612514019012451,
+      "logps/chosen": -223.59716796875,
+      "logps/rejected": -237.7313690185547,
+      "loss": 0.6612,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03609809651970863,
+      "rewards/margins": 0.06568726152181625,
+      "rewards/margins_max": 0.08733747154474258,
+      "rewards/margins_min": 0.04403705149888992,
+      "rewards/margins_std": 0.03061802126467228,
+      "rewards/rejected": -0.02958916500210762,
+      "step": 2400
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.42578125,
+      "learning_rate": 8.320840522194505e-08,
+      "logits/chosen": -1.3517181873321533,
+      "logits/rejected": -1.105916142463684,
+      "logps/chosen": -233.48831176757812,
+      "logps/rejected": -236.3004913330078,
+      "loss": 0.6624,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03493565320968628,
+      "rewards/margins": 0.061103563755750656,
+      "rewards/margins_max": 0.09413080662488937,
+      "rewards/margins_min": 0.02807632088661194,
+      "rewards/margins_std": 0.046707578003406525,
+      "rewards/rejected": -0.026167908683419228,
+      "step": 2410
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.400390625,
+      "learning_rate": 8.117004304602052e-08,
+      "logits/chosen": -1.4049303531646729,
+      "logits/rejected": -0.988071620464325,
+      "logps/chosen": -274.993896484375,
+      "logps/rejected": -221.76278686523438,
+      "loss": 0.6689,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.037282317876815796,
+      "rewards/margins": 0.049982473254203796,
+      "rewards/margins_max": 0.07475082576274872,
+      "rewards/margins_min": 0.025214115157723427,
+      "rewards/margins_std": 0.035027749836444855,
+      "rewards/rejected": -0.01270015724003315,
+      "step": 2420
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.3359375,
+      "learning_rate": 7.915210899336283e-08,
+      "logits/chosen": -1.5335876941680908,
+      "logits/rejected": -1.1939712762832642,
+      "logps/chosen": -214.1549530029297,
+      "logps/rejected": -259.2396545410156,
+      "loss": 0.6641,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.0516619011759758,
+      "rewards/margins": 0.06498047709465027,
+      "rewards/margins_max": 0.09797366708517075,
+      "rewards/margins_min": 0.03198728710412979,
+      "rewards/margins_std": 0.046659428626298904,
+      "rewards/rejected": -0.013318580575287342,
+      "step": 2430
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.50390625,
+      "learning_rate": 7.715484723038837e-08,
+      "logits/chosen": -1.1930948495864868,
+      "logits/rejected": -0.938764750957489,
+      "logps/chosen": -220.21621704101562,
+      "logps/rejected": -254.71420288085938,
+      "loss": 0.6654,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.027883481234312057,
+      "rewards/margins": 0.060532040894031525,
+      "rewards/margins_max": 0.0814305990934372,
+      "rewards/margins_min": 0.03963347524404526,
+      "rewards/margins_std": 0.029555032029747963,
+      "rewards/rejected": -0.03264855593442917,
+      "step": 2440
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.412109375,
+      "learning_rate": 7.517849942220348e-08,
+      "logits/chosen": -1.288425087928772,
+      "logits/rejected": -0.9016556739807129,
+      "logps/chosen": -207.7607421875,
+      "logps/rejected": -215.00808715820312,
+      "loss": 0.6621,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.033341165632009506,
+      "rewards/margins": 0.05306249111890793,
+      "rewards/margins_max": 0.07986272126436234,
+      "rewards/margins_min": 0.026262247934937477,
+      "rewards/margins_std": 0.03790125995874405,
+      "rewards/rejected": -0.019721319898962975,
+      "step": 2450
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.48828125,
+      "learning_rate": 7.322330470336313e-08,
+      "logits/chosen": -1.3114441633224487,
+      "logits/rejected": -1.1315343379974365,
+      "logps/chosen": -204.32998657226562,
+      "logps/rejected": -197.68760681152344,
+      "loss": 0.6669,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.023209819570183754,
+      "rewards/margins": 0.04553220421075821,
+      "rewards/margins_max": 0.06928315758705139,
+      "rewards/margins_min": 0.021781256422400475,
+      "rewards/margins_std": 0.033588919788599014,
+      "rewards/rejected": -0.022322386503219604,
+      "step": 2460
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.390625,
+      "learning_rate": 7.128949964893646e-08,
+      "logits/chosen": -1.4030101299285889,
+      "logits/rejected": -1.0203847885131836,
+      "logps/chosen": -246.3531951904297,
+      "logps/rejected": -231.5150604248047,
+      "loss": 0.6645,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.041862308979034424,
+      "rewards/margins": 0.06798645108938217,
+      "rewards/margins_max": 0.09953634440898895,
+      "rewards/margins_min": 0.036436546593904495,
+      "rewards/margins_std": 0.04461830109357834,
+      "rewards/rejected": -0.026124143972992897,
+      "step": 2470
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.2890625,
+      "learning_rate": 6.937731824588141e-08,
+      "logits/chosen": -1.3225687742233276,
+      "logits/rejected": -1.2012965679168701,
+      "logps/chosen": -161.27560424804688,
+      "logps/rejected": -162.04849243164062,
+      "loss": 0.6697,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.024264657869935036,
+      "rewards/margins": 0.04363849759101868,
+      "rewards/margins_max": 0.06468725949525833,
+      "rewards/margins_min": 0.02258973941206932,
+      "rewards/margins_std": 0.029767444357275963,
+      "rewards/rejected": -0.01937383972108364,
+      "step": 2480
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.4140625,
+      "learning_rate": 6.74869918647325e-08,
+      "logits/chosen": -1.2273991107940674,
+      "logits/rejected": -0.8869683146476746,
+      "logps/chosen": -242.3751678466797,
+      "logps/rejected": -222.62265014648438,
+      "loss": 0.6686,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.04028186947107315,
+      "rewards/margins": 0.05239185690879822,
+      "rewards/margins_max": 0.07009953260421753,
+      "rewards/margins_min": 0.03468417376279831,
+      "rewards/margins_std": 0.025042440742254257,
+      "rewards/rejected": -0.012109987437725067,
+      "step": 2490
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.443359375,
+      "learning_rate": 6.56187492316059e-08,
+      "logits/chosen": -1.3965575695037842,
+      "logits/rejected": -0.9450374841690063,
+      "logps/chosen": -220.7981414794922,
+      "logps/rejected": -155.75204467773438,
+      "loss": 0.6613,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.02550414577126503,
+      "rewards/margins": 0.06219423562288284,
+      "rewards/margins_max": 0.08597894012928009,
+      "rewards/margins_min": 0.0384095273911953,
+      "rewards/margins_std": 0.033636655658483505,
+      "rewards/rejected": -0.036690086126327515,
+      "step": 2500
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.447265625,
+      "learning_rate": 6.377281640052357e-08,
+      "logits/chosen": -1.5471882820129395,
+      "logits/rejected": -1.1804416179656982,
+      "logps/chosen": -192.26565551757812,
+      "logps/rejected": -246.218994140625,
+      "loss": 0.6628,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.04850774258375168,
+      "rewards/margins": 0.06347064673900604,
+      "rewards/margins_max": 0.10149389505386353,
+      "rewards/margins_min": 0.025447404012084007,
+      "rewards/margins_std": 0.05377299338579178,
+      "rewards/rejected": -0.014962906017899513,
+      "step": 2510
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.40625,
+      "learning_rate": 6.19494167260613e-08,
+      "logits/chosen": -1.425964117050171,
+      "logits/rejected": -1.0960302352905273,
+      "logps/chosen": -184.11727905273438,
+      "logps/rejected": -191.51913452148438,
+      "loss": 0.6597,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.0385814905166626,
+      "rewards/margins": 0.061642616987228394,
+      "rewards/margins_max": 0.09265581518411636,
+      "rewards/margins_min": 0.030629415065050125,
+      "rewards/margins_std": 0.04385928437113762,
+      "rewards/rejected": -0.023061122745275497,
+      "step": 2520
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.39453125,
+      "learning_rate": 6.01487708363232e-08,
+      "logits/chosen": -1.4187657833099365,
+      "logits/rejected": -1.0462344884872437,
+      "logps/chosen": -231.49960327148438,
+      "logps/rejected": -250.50973510742188,
+      "loss": 0.6599,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.04294178634881973,
+      "rewards/margins": 0.06284011900424957,
+      "rewards/margins_max": 0.0833154022693634,
+      "rewards/margins_min": 0.042364828288555145,
+      "rewards/margins_std": 0.02895643189549446,
+      "rewards/rejected": -0.01989833451807499,
+      "step": 2530
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.52734375,
+      "learning_rate": 5.837109660624606e-08,
+      "logits/chosen": -1.3851536512374878,
+      "logits/rejected": -1.0157699584960938,
+      "logps/chosen": -226.1177978515625,
+      "logps/rejected": -238.81539916992188,
+      "loss": 0.663,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03696604073047638,
+      "rewards/margins": 0.06656143069267273,
+      "rewards/margins_max": 0.0883278027176857,
+      "rewards/margins_min": 0.04479505866765976,
+      "rewards/margins_std": 0.030782291665673256,
+      "rewards/rejected": -0.02959538996219635,
+      "step": 2540
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.3359375,
+      "learning_rate": 5.6616609131236725e-08,
+      "logits/chosen": -1.5234705209732056,
+      "logits/rejected": -1.249939203262329,
+      "logps/chosen": -209.16690063476562,
+      "logps/rejected": -201.7328643798828,
+      "loss": 0.666,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.042094189673662186,
+      "rewards/margins": 0.05819466710090637,
+      "rewards/margins_max": 0.08667898923158646,
+      "rewards/margins_min": 0.029710358008742332,
+      "rewards/margins_std": 0.040282897651195526,
+      "rewards/rejected": -0.016100479289889336,
+      "step": 2550
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.59765625,
+      "learning_rate": 5.4885520701146324e-08,
+      "logits/chosen": -1.27875816822052,
+      "logits/rejected": -0.9493977427482605,
+      "logps/chosen": -214.4361572265625,
+      "logps/rejected": -233.2643280029297,
+      "loss": 0.6636,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.034729085862636566,
+      "rewards/margins": 0.06826482713222504,
+      "rewards/margins_max": 0.11228573322296143,
+      "rewards/margins_min": 0.024243932217359543,
+      "rewards/margins_std": 0.06225494667887688,
+      "rewards/rejected": -0.03353574126958847,
+      "step": 2560
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.46484375,
+      "learning_rate": 5.3178040774583236e-08,
+      "logits/chosen": -1.4629589319229126,
+      "logits/rejected": -0.9861122965812683,
+      "logps/chosen": -280.67486572265625,
+      "logps/rejected": -271.3564147949219,
+      "loss": 0.6655,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03766489028930664,
+      "rewards/margins": 0.06308640539646149,
+      "rewards/margins_max": 0.08921506255865097,
+      "rewards/margins_min": 0.036957744508981705,
+      "rewards/margins_std": 0.03695150464773178,
+      "rewards/rejected": -0.025421511381864548,
+      "step": 2570
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.451171875,
+      "learning_rate": 5.149437595356901e-08,
+      "logits/chosen": -1.3392517566680908,
+      "logits/rejected": -0.9539203643798828,
+      "logps/chosen": -244.0900421142578,
+      "logps/rejected": -216.6325225830078,
+      "loss": 0.6665,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.03929731249809265,
+      "rewards/margins": 0.05567679926753044,
+      "rewards/margins_max": 0.08472796529531479,
+      "rewards/margins_min": 0.026625623926520348,
+      "rewards/margins_std": 0.041084565222263336,
+      "rewards/rejected": -0.01637948676943779,
+      "step": 2580
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.490234375,
+      "learning_rate": 4.9834729958540016e-08,
+      "logits/chosen": -1.3185430765151978,
+      "logits/rejected": -0.9537866711616516,
+      "logps/chosen": -255.76937866210938,
+      "logps/rejected": -173.42251586914062,
+      "loss": 0.6619,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03467049077153206,
+      "rewards/margins": 0.05125656723976135,
+      "rewards/margins_max": 0.07643640786409378,
+      "rewards/margins_min": 0.026076724752783775,
+      "rewards/margins_std": 0.03560966998338699,
+      "rewards/rejected": -0.016586078330874443,
+      "step": 2590
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.26171875,
+      "learning_rate": 4.8199303603697614e-08,
+      "logits/chosen": -1.4323641061782837,
+      "logits/rejected": -1.1901360750198364,
+      "logps/chosen": -212.28759765625,
+      "logps/rejected": -251.69052124023438,
+      "loss": 0.6676,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03305204585194588,
+      "rewards/margins": 0.04768746346235275,
+      "rewards/margins_max": 0.0705387219786644,
+      "rewards/margins_min": 0.024836191907525063,
+      "rewards/margins_std": 0.03231657296419144,
+      "rewards/rejected": -0.014635416679084301,
+      "step": 2600
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.56640625,
+      "learning_rate": 4.658829477270995e-08,
+      "logits/chosen": -1.4831786155700684,
+      "logits/rejected": -1.0595829486846924,
+      "logps/chosen": -205.73196411132812,
+      "logps/rejected": -281.29119873046875,
+      "loss": 0.6601,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.04150627925992012,
+      "rewards/margins": 0.06586649268865585,
+      "rewards/margins_max": 0.08460468798875809,
+      "rewards/margins_min": 0.047128308564424515,
+      "rewards/margins_std": 0.026499798521399498,
+      "rewards/rejected": -0.02436022460460663,
+      "step": 2610
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.37109375,
+      "learning_rate": 4.5001898394768336e-08,
+      "logits/chosen": -1.4085218906402588,
+      "logits/rejected": -1.1751958131790161,
+      "logps/chosen": -211.86831665039062,
+      "logps/rejected": -212.71908569335938,
+      "loss": 0.6666,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.02613511122763157,
+      "rewards/margins": 0.05009372904896736,
+      "rewards/margins_max": 0.07305373251438141,
+      "rewards/margins_min": 0.027133729308843613,
+      "rewards/margins_std": 0.03247034177184105,
+      "rewards/rejected": -0.023958619683980942,
+      "step": 2620
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.50390625,
+      "learning_rate": 4.3440306421001324e-08,
+      "logits/chosen": -1.531702995300293,
+      "logits/rejected": -1.2762770652770996,
+      "logps/chosen": -264.6157531738281,
+      "logps/rejected": -239.91134643554688,
+      "loss": 0.6656,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.03299673646688461,
+      "rewards/margins": 0.05226144194602966,
+      "rewards/margins_max": 0.08147990703582764,
+      "rewards/margins_min": 0.023042969405651093,
+      "rewards/margins_std": 0.041321154683828354,
+      "rewards/rejected": -0.019264699891209602,
+      "step": 2630
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.3046875,
+      "learning_rate": 4.190370780124863e-08,
+      "logits/chosen": -1.2897651195526123,
+      "logits/rejected": -1.0072309970855713,
+      "logps/chosen": -186.4278564453125,
+      "logps/rejected": -243.1654815673828,
+      "loss": 0.669,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.032657403498888016,
+      "rewards/margins": 0.049304358661174774,
+      "rewards/margins_max": 0.07682739198207855,
+      "rewards/margins_min": 0.021781327202916145,
+      "rewards/margins_std": 0.038923438638448715,
+      "rewards/rejected": -0.01664695516228676,
+      "step": 2640
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.345703125,
+      "learning_rate": 4.0392288461199045e-08,
+      "logits/chosen": -1.2460219860076904,
+      "logits/rejected": -1.0387169122695923,
+      "logps/chosen": -224.2480926513672,
+      "logps/rejected": -217.1114959716797,
+      "loss": 0.6665,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.033198267221450806,
+      "rewards/margins": 0.061884719878435135,
+      "rewards/margins_max": 0.09340154379606247,
+      "rewards/margins_min": 0.0303678959608078,
+      "rewards/margins_std": 0.04457152262330055,
+      "rewards/rejected": -0.02868645451962948,
+      "step": 2650
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.37890625,
+      "learning_rate": 3.8906231279893423e-08,
+      "logits/chosen": -1.231979250907898,
+      "logits/rejected": -1.0273730754852295,
+      "logps/chosen": -233.99267578125,
+      "logps/rejected": -187.70278930664062,
+      "loss": 0.6644,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.02670123614370823,
+      "rewards/margins": 0.05759245902299881,
+      "rewards/margins_max": 0.09034743160009384,
+      "rewards/margins_min": 0.024837475270032883,
+      "rewards/margins_std": 0.0463225394487381,
+      "rewards/rejected": -0.03089122101664543,
+      "step": 2660
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.369140625,
+      "learning_rate": 3.74457160675965e-08,
+      "logits/chosen": -1.3447935581207275,
+      "logits/rejected": -1.003073811531067,
+      "logps/chosen": -207.041015625,
+      "logps/rejected": -198.29556274414062,
+      "loss": 0.6667,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03199172765016556,
+      "rewards/margins": 0.05442710965871811,
+      "rewards/margins_max": 0.07237287610769272,
+      "rewards/margins_min": 0.036481358110904694,
+      "rewards/margins_std": 0.025379130616784096,
+      "rewards/rejected": -0.02243538200855255,
+      "step": 2670
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.373046875,
+      "learning_rate": 3.601091954404062e-08,
+      "logits/chosen": -1.2016583681106567,
+      "logits/rejected": -0.9326213002204895,
+      "logps/chosen": -238.39126586914062,
+      "logps/rejected": -243.9576416015625,
+      "loss": 0.6645,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.026809915900230408,
+      "rewards/margins": 0.04789675027132034,
+      "rewards/margins_max": 0.07007952034473419,
+      "rewards/margins_min": 0.025713974609971046,
+      "rewards/margins_std": 0.03137117996811867,
+      "rewards/rejected": -0.021086832508444786,
+      "step": 2680
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.44921875,
+      "learning_rate": 3.460201531704263e-08,
+      "logits/chosen": -1.3697774410247803,
+      "logits/rejected": -0.8151613473892212,
+      "logps/chosen": -393.69189453125,
+      "logps/rejected": -246.65817260742188,
+      "loss": 0.6595,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03834783285856247,
+      "rewards/margins": 0.07543188333511353,
+      "rewards/margins_max": 0.10231365263462067,
+      "rewards/margins_min": 0.04855012148618698,
+      "rewards/margins_std": 0.038016561418771744,
+      "rewards/rejected": -0.037084050476551056,
+      "step": 2690
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.38671875,
+      "learning_rate": 3.321917386149772e-08,
+      "logits/chosen": -1.4533543586730957,
+      "logits/rejected": -1.0557693243026733,
+      "logps/chosen": -209.1657257080078,
+      "logps/rejected": -214.769287109375,
+      "loss": 0.6642,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.042614761739969254,
+      "rewards/margins": 0.05421183258295059,
+      "rewards/margins_max": 0.08117054402828217,
+      "rewards/margins_min": 0.02725311741232872,
+      "rewards/margins_std": 0.038125377148389816,
+      "rewards/rejected": -0.011597072705626488,
+      "step": 2700
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 0.412109375,
+      "learning_rate": 3.1862562498752354e-08,
+      "logits/chosen": -1.4646778106689453,
+      "logits/rejected": -1.1616142988204956,
+      "logps/chosen": -192.743408203125,
+      "logps/rejected": -208.6314697265625,
+      "loss": 0.6701,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03919973596930504,
+      "rewards/margins": 0.048980120569467545,
+      "rewards/margins_max": 0.06728260964155197,
+      "rewards/margins_min": 0.030677635222673416,
+      "rewards/margins_std": 0.02588362991809845,
+      "rewards/rejected": -0.009780386462807655,
+      "step": 2710
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.4453125,
+      "learning_rate": 3.053234537635857e-08,
+      "logits/chosen": -1.5152153968811035,
+      "logits/rejected": -1.1075925827026367,
+      "logps/chosen": -182.39224243164062,
+      "logps/rejected": -248.19351196289062,
+      "loss": 0.6603,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.038503944873809814,
+      "rewards/margins": 0.06572575867176056,
+      "rewards/margins_max": 0.09247289597988129,
+      "rewards/margins_min": 0.03897860646247864,
+      "rewards/margins_std": 0.03782618045806885,
+      "rewards/rejected": -0.027221810072660446,
+      "step": 2720
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.50390625,
+      "learning_rate": 2.922868344821236e-08,
+      "logits/chosen": -1.3224998712539673,
+      "logits/rejected": -0.881952166557312,
+      "logps/chosen": -220.5806121826172,
+      "logps/rejected": -189.16519165039062,
+      "loss": 0.6628,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.03971542418003082,
+      "rewards/margins": 0.06064347177743912,
+      "rewards/margins_max": 0.08912724256515503,
+      "rewards/margins_min": 0.03215969726443291,
+      "rewards/margins_std": 0.04028213769197464,
+      "rewards/rejected": -0.020928047597408295,
+      "step": 2730
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.404296875,
+      "learning_rate": 2.7951734455078786e-08,
+      "logits/chosen": -1.4898918867111206,
+      "logits/rejected": -0.9584072828292847,
+      "logps/chosen": -253.1838836669922,
+      "logps/rejected": -262.40740966796875,
+      "loss": 0.6648,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.04760271683335304,
+      "rewards/margins": 0.06493322551250458,
+      "rewards/margins_max": 0.088630810379982,
+      "rewards/margins_min": 0.041235629469156265,
+      "rewards/margins_std": 0.03351346030831337,
+      "rewards/rejected": -0.017330504953861237,
+      "step": 2740
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.41796875,
+      "learning_rate": 2.670165290550544e-08,
+      "logits/chosen": -1.386683464050293,
+      "logits/rejected": -0.9467649459838867,
+      "logps/chosen": -209.0247802734375,
+      "logps/rejected": -213.07766723632812,
+      "loss": 0.6661,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03524526581168175,
+      "rewards/margins": 0.05571124702692032,
+      "rewards/margins_max": 0.0755188837647438,
+      "rewards/margins_min": 0.03590361401438713,
+      "rewards/margins_std": 0.028012219816446304,
+      "rewards/rejected": -0.02046598121523857,
+      "step": 2750
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.380859375,
+      "learning_rate": 2.5478590057127268e-08,
+      "logits/chosen": -1.4220774173736572,
+      "logits/rejected": -1.0289338827133179,
+      "logps/chosen": -211.04776000976562,
+      "logps/rejected": -194.3659210205078,
+      "loss": 0.6609,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03885051980614662,
+      "rewards/margins": 0.06495725363492966,
+      "rewards/margins_max": 0.09185833483934402,
+      "rewards/margins_min": 0.038056183606386185,
+      "rewards/margins_std": 0.03804386407136917,
+      "rewards/rejected": -0.026106741279363632,
+      "step": 2760
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.38671875,
+      "learning_rate": 2.4282693898364432e-08,
+      "logits/chosen": -1.4226223230361938,
+      "logits/rejected": -0.9696500897407532,
+      "logps/chosen": -176.65994262695312,
+      "logps/rejected": -180.49554443359375,
+      "loss": 0.6622,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.04054059833288193,
+      "rewards/margins": 0.06953348219394684,
+      "rewards/margins_max": 0.09578864276409149,
+      "rewards/margins_min": 0.04327831417322159,
+      "rewards/margins_std": 0.03713040426373482,
+      "rewards/rejected": -0.02899288199841976,
+      "step": 2770
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.328125,
+      "learning_rate": 2.3114109130516424e-08,
+      "logits/chosen": -1.3210171461105347,
+      "logits/rejected": -0.9485718607902527,
+      "logps/chosen": -182.39852905273438,
+      "logps/rejected": -210.02572631835938,
+      "loss": 0.6639,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.03208126500248909,
+      "rewards/margins": 0.06662876158952713,
+      "rewards/margins_max": 0.09643807262182236,
+      "rewards/margins_min": 0.036819443106651306,
+      "rewards/margins_std": 0.04215674102306366,
+      "rewards/rejected": -0.03454749658703804,
+      "step": 2780
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.302734375,
+      "learning_rate": 2.1972977150253064e-08,
+      "logits/chosen": -1.5038772821426392,
+      "logits/rejected": -0.935627818107605,
+      "logps/chosen": -247.6013641357422,
+      "logps/rejected": -288.5367431640625,
+      "loss": 0.6649,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.04114503413438797,
+      "rewards/margins": 0.07020784169435501,
+      "rewards/margins_max": 0.11474663019180298,
+      "rewards/margins_min": 0.025669043883681297,
+      "rewards/margins_std": 0.06298737227916718,
+      "rewards/rejected": -0.02906280755996704,
+      "step": 2790
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.57421875,
+      "learning_rate": 2.085943603250595e-08,
+      "logits/chosen": -1.428411841392517,
+      "logits/rejected": -1.1179401874542236,
+      "logps/chosen": -189.0768585205078,
+      "logps/rejected": -204.92483520507812,
+      "loss": 0.6648,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.037042513489723206,
+      "rewards/margins": 0.06584902107715607,
+      "rewards/margins_max": 0.08738056570291519,
+      "rewards/margins_min": 0.04431745409965515,
+      "rewards/margins_std": 0.03045022115111351,
+      "rewards/rejected": -0.028806498274207115,
+      "step": 2800
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 0.31640625,
+      "learning_rate": 1.977362051376158e-08,
+      "logits/chosen": -1.4192006587982178,
+      "logits/rejected": -1.046197772026062,
+      "logps/chosen": -207.2356414794922,
+      "logps/rejected": -183.64010620117188,
+      "loss": 0.6652,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 0.040088996291160583,
+      "rewards/margins": 0.05597255378961563,
+      "rewards/margins_max": 0.08285551518201828,
+      "rewards/margins_min": 0.02908957563340664,
+      "rewards/margins_std": 0.03801826387643814,
+      "rewards/rejected": -0.01588355377316475,
+      "step": 2810
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 0.416015625,
+      "learning_rate": 1.8715661975758524e-08,
+      "logits/chosen": -1.2246617078781128,
+      "logits/rejected": -1.0061366558074951,
+      "logps/chosen": -167.17034912109375,
+      "logps/rejected": -239.23721313476562,
+      "loss": 0.6592,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03663500398397446,
+      "rewards/margins": 0.065810427069664,
+      "rewards/margins_max": 0.09848222881555557,
+      "rewards/margins_min": 0.03313861042261124,
+      "rewards/margins_std": 0.04620492085814476,
+      "rewards/rejected": -0.029175419360399246,
+      "step": 2820
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 0.427734375,
+      "learning_rate": 1.768568842959037e-08,
+      "logits/chosen": -1.4292596578598022,
+      "logits/rejected": -1.0080540180206299,
+      "logps/chosen": -259.69537353515625,
+      "logps/rejected": -236.2705078125,
+      "loss": 0.6597,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03333950787782669,
+      "rewards/margins": 0.06502407789230347,
+      "rewards/margins_max": 0.08750364929437637,
+      "rewards/margins_min": 0.04254449903964996,
+      "rewards/margins_std": 0.03179091960191727,
+      "rewards/rejected": -0.031684570014476776,
+      "step": 2830
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 0.41015625,
+      "learning_rate": 1.668382450021666e-08,
+      "logits/chosen": -1.3095591068267822,
+      "logits/rejected": -1.0401207208633423,
+      "logps/chosen": -206.1196746826172,
+      "logps/rejected": -171.01002502441406,
+      "loss": 0.6647,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.03997686505317688,
+      "rewards/margins": 0.05088004469871521,
+      "rewards/margins_max": 0.07651884853839874,
+      "rewards/margins_min": 0.025241252034902573,
+      "rewards/margins_std": 0.03625873476266861,
+      "rewards/rejected": -0.010903185233473778,
+      "step": 2840
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 0.458984375,
+      "learning_rate": 1.571019141138366e-08,
+      "logits/chosen": -1.3637133836746216,
+      "logits/rejected": -1.0843619108200073,
+      "logps/chosen": -171.24868774414062,
+      "logps/rejected": -179.87950134277344,
+      "loss": 0.6668,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.0334320105612278,
+      "rewards/margins": 0.048344530165195465,
+      "rewards/margins_max": 0.06994569301605225,
+      "rewards/margins_min": 0.026743358001112938,
+      "rewards/margins_std": 0.030548665672540665,
+      "rewards/rejected": -0.014912518672645092,
+      "step": 2850
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 0.515625,
+      "learning_rate": 1.4764906970956142e-08,
+      "logits/chosen": -1.356999397277832,
+      "logits/rejected": -1.0233064889907837,
+      "logps/chosen": -193.38766479492188,
+      "logps/rejected": -196.44386291503906,
+      "loss": 0.6634,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03667105361819267,
+      "rewards/margins": 0.05664552003145218,
+      "rewards/margins_max": 0.07828361541032791,
+      "rewards/margins_min": 0.03500741347670555,
+      "rewards/margins_std": 0.03060089983046055,
+      "rewards/rejected": -0.01997446082532406,
+      "step": 2860
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 0.455078125,
+      "learning_rate": 1.3848085556663197e-08,
+      "logits/chosen": -1.2966177463531494,
+      "logits/rejected": -0.9208385348320007,
+      "logps/chosen": -267.82086181640625,
+      "logps/rejected": -202.51319885253906,
+      "loss": 0.6643,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.034102655947208405,
+      "rewards/margins": 0.05611242726445198,
+      "rewards/margins_max": 0.08146383613348007,
+      "rewards/margins_min": 0.030761009082198143,
+      "rewards/margins_std": 0.03585231304168701,
+      "rewards/rejected": -0.022009767591953278,
+      "step": 2870
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 0.396484375,
+      "learning_rate": 1.2959838102258535e-08,
+      "logits/chosen": -1.3745180368423462,
+      "logits/rejected": -1.0097087621688843,
+      "logps/chosen": -287.45062255859375,
+      "logps/rejected": -254.785400390625,
+      "loss": 0.6658,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03240882605314255,
+      "rewards/margins": 0.05045477673411369,
+      "rewards/margins_max": 0.07354002445936203,
+      "rewards/margins_min": 0.027369529008865356,
+      "rewards/margins_std": 0.032647471874952316,
+      "rewards/rejected": -0.018045950680971146,
+      "step": 2880
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 0.322265625,
+      "learning_rate": 1.2100272084097779e-08,
+      "logits/chosen": -1.323025107383728,
+      "logits/rejected": -1.0186015367507935,
+      "logps/chosen": -183.8828582763672,
+      "logps/rejected": -250.3448486328125,
+      "loss": 0.6619,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.0408027246594429,
+      "rewards/margins": 0.07389940321445465,
+      "rewards/margins_max": 0.10190100967884064,
+      "rewards/margins_min": 0.04589778929948807,
+      "rewards/margins_std": 0.03960026055574417,
+      "rewards/rejected": -0.03309667855501175,
+      "step": 2890
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 0.373046875,
+      "learning_rate": 1.1269491508133944e-08,
+      "logits/chosen": -1.5226811170578003,
+      "logits/rejected": -0.9228025674819946,
+      "logps/chosen": -312.5696105957031,
+      "logps/rejected": -221.99136352539062,
+      "loss": 0.6626,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.0407402329146862,
+      "rewards/margins": 0.06274916976690292,
+      "rewards/margins_max": 0.08748480677604675,
+      "rewards/margins_min": 0.038013529032468796,
+      "rewards/margins_std": 0.03498147428035736,
+      "rewards/rejected": -0.02200893685221672,
+      "step": 2900
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.447265625,
+      "learning_rate": 1.0467596897333008e-08,
+      "logits/chosen": -1.3627498149871826,
+      "logits/rejected": -0.8954145312309265,
+      "logps/chosen": -231.42977905273438,
+      "logps/rejected": -222.2968292236328,
+      "loss": 0.6601,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.04414510354399681,
+      "rewards/margins": 0.06752908229827881,
+      "rewards/margins_max": 0.09981563687324524,
+      "rewards/margins_min": 0.03524252399802208,
+      "rewards/margins_std": 0.04566008597612381,
+      "rewards/rejected": -0.02338396944105625,
+      "step": 2910
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.341796875,
+      "learning_rate": 9.694685279510672e-09,
+      "logits/chosen": -1.3423680067062378,
+      "logits/rejected": -1.2014684677124023,
+      "logps/chosen": -185.5139617919922,
+      "logps/rejected": -232.6142120361328,
+      "loss": 0.6689,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.022014331072568893,
+      "rewards/margins": 0.049973584711551666,
+      "rewards/margins_max": 0.0689433366060257,
+      "rewards/margins_min": 0.031003836542367935,
+      "rewards/margins_std": 0.026827272027730942,
+      "rewards/rejected": -0.027959251776337624,
+      "step": 2920
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.375,
+      "learning_rate": 8.950850175592328e-09,
+      "logits/chosen": -1.4081456661224365,
+      "logits/rejected": -1.0961415767669678,
+      "logps/chosen": -232.86813354492188,
+      "logps/rejected": -269.9138488769531,
+      "loss": 0.6679,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.0401880256831646,
+      "rewards/margins": 0.05734118074178696,
+      "rewards/margins_max": 0.08120250701904297,
+      "rewards/margins_min": 0.03347986191511154,
+      "rewards/margins_std": 0.03374500200152397,
+      "rewards/rejected": -0.01715315505862236,
+      "step": 2930
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 0.38671875,
+      "learning_rate": 8.236181588297115e-09,
+      "logits/chosen": -1.3293626308441162,
+      "logits/rejected": -0.9906571507453918,
+      "logps/chosen": -256.72100830078125,
+      "logps/rejected": -313.48504638671875,
+      "loss": 0.6643,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03118916228413582,
+      "rewards/margins": 0.06911532580852509,
+      "rewards/margins_max": 0.10093537718057632,
+      "rewards/margins_min": 0.03729528561234474,
+      "rewards/margins_std": 0.045000337064266205,
+      "rewards/rejected": -0.037926167249679565,
+      "step": 2940
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 0.375,
+      "learning_rate": 7.550765991247654e-09,
+      "logits/chosen": -1.3571122884750366,
+      "logits/rejected": -0.9799866676330566,
+      "logps/chosen": -237.0681610107422,
+      "logps/rejected": -217.8629913330078,
+      "loss": 0.6643,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.039660923182964325,
+      "rewards/margins": 0.058103930205106735,
+      "rewards/margins_max": 0.08864767849445343,
+      "rewards/margins_min": 0.02756018377840519,
+      "rewards/margins_std": 0.04319537803530693,
+      "rewards/rejected": -0.01844300702214241,
+      "step": 2950
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 0.27734375,
+      "learning_rate": 6.894686318507064e-09,
+      "logits/chosen": -1.3770530223846436,
+      "logits/rejected": -1.0678465366363525,
+      "logps/chosen": -207.478759765625,
+      "logps/rejected": -254.6818389892578,
+      "loss": 0.6665,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03722939267754555,
+      "rewards/margins": 0.057834554463624954,
+      "rewards/margins_max": 0.07993746548891068,
+      "rewards/margins_min": 0.035731635987758636,
+      "rewards/margins_std": 0.0312582366168499,
+      "rewards/rejected": -0.020605161786079407,
+      "step": 2960
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 0.41015625,
+      "learning_rate": 6.268021954544095e-09,
+      "logits/chosen": -1.1451586484909058,
+      "logits/rejected": -0.9856246709823608,
+      "logps/chosen": -198.33804321289062,
+      "logps/rejected": -290.0233459472656,
+      "loss": 0.6659,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03236705809831619,
+      "rewards/margins": 0.06491495668888092,
+      "rewards/margins_max": 0.09603826701641083,
+      "rewards/margins_min": 0.033791638910770416,
+      "rewards/margins_std": 0.044015005230903625,
+      "rewards/rejected": -0.03254788741469383,
+      "step": 2970
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 0.5078125,
+      "learning_rate": 5.670848724627531e-09,
+      "logits/chosen": -1.4588849544525146,
+      "logits/rejected": -1.0730645656585693,
+      "logps/chosen": -301.3870849609375,
+      "logps/rejected": -199.2222442626953,
+      "loss": 0.6658,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.026702869683504105,
+      "rewards/margins": 0.04165857285261154,
+      "rewards/margins_max": 0.06404221057891846,
+      "rewards/margins_min": 0.01927492953836918,
+      "rewards/margins_std": 0.03165525197982788,
+      "rewards/rejected": -0.014955705031752586,
+      "step": 2980
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 0.412109375,
+      "learning_rate": 5.103238885651617e-09,
+      "logits/chosen": -1.4286754131317139,
+      "logits/rejected": -0.9818390011787415,
+      "logps/chosen": -238.0774688720703,
+      "logps/rejected": -222.6654815673828,
+      "loss": 0.6611,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.03790941461920738,
+      "rewards/margins": 0.06597913056612015,
+      "rewards/margins_max": 0.09669280052185059,
+      "rewards/margins_min": 0.03526546061038971,
+      "rewards/margins_std": 0.04343568533658981,
+      "rewards/rejected": -0.028069715946912766,
+      "step": 2990
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 0.484375,
+      "learning_rate": 4.565261117393249e-09,
+      "logits/chosen": -1.527706503868103,
+      "logits/rejected": -1.1605089902877808,
+      "logps/chosen": -238.7028045654297,
+      "logps/rejected": -198.54071044921875,
+      "loss": 0.6641,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.038233425468206406,
+      "rewards/margins": 0.05112460255622864,
+      "rewards/margins_max": 0.072813980281353,
+      "rewards/margins_min": 0.029435228556394577,
+      "rewards/margins_std": 0.03067341446876526,
+      "rewards/rejected": -0.01289118267595768,
+      "step": 3000
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 0.392578125,
+      "learning_rate": 4.056980514201447e-09,
+      "logits/chosen": -1.3091288805007935,
+      "logits/rejected": -0.9673709869384766,
+      "logps/chosen": -203.36215209960938,
+      "logps/rejected": -215.65908813476562,
+      "loss": 0.662,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.038450248539447784,
+      "rewards/margins": 0.06377027928829193,
+      "rewards/margins_max": 0.09830651432275772,
+      "rewards/margins_min": 0.0292340274900198,
+      "rewards/margins_std": 0.048841629177331924,
+      "rewards/rejected": -0.02532001957297325,
+      "step": 3010
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 0.357421875,
+      "learning_rate": 3.5784585771215235e-09,
+      "logits/chosen": -1.3335479497909546,
+      "logits/rejected": -0.9828931093215942,
+      "logps/chosen": -176.47000122070312,
+      "logps/rejected": -178.46786499023438,
+      "loss": 0.6696,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.031307101249694824,
+      "rewards/margins": 0.04759521037340164,
+      "rewards/margins_max": 0.0687338337302208,
+      "rewards/margins_min": 0.02645658515393734,
+      "rewards/margins_std": 0.02989453449845314,
+      "rewards/rejected": -0.016288110986351967,
+      "step": 3020
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 0.390625,
+      "learning_rate": 3.129753206453201e-09,
+      "logits/chosen": -1.4696094989776611,
+      "logits/rejected": -1.032707929611206,
+      "logps/chosen": -234.9283447265625,
+      "logps/rejected": -236.0854949951172,
+      "loss": 0.6626,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.0398876890540123,
+      "rewards/margins": 0.0536864697933197,
+      "rewards/margins_max": 0.08105526119470596,
+      "rewards/margins_min": 0.026317689567804337,
+      "rewards/margins_std": 0.03870530426502228,
+      "rewards/rejected": -0.013798783533275127,
+      "step": 3030
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.33203125,
+      "learning_rate": 2.7109186947449348e-09,
+      "logits/chosen": -1.4651210308074951,
+      "logits/rejected": -1.179198980331421,
+      "logps/chosen": -185.0526123046875,
+      "logps/rejected": -206.34677124023438,
+      "loss": 0.6674,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.037171076983213425,
+      "rewards/margins": 0.04990251734852791,
+      "rewards/margins_max": 0.07099257409572601,
+      "rewards/margins_min": 0.0288124717772007,
+      "rewards/margins_std": 0.029825836420059204,
+      "rewards/rejected": -0.012731445021927357,
+      "step": 3040
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.330078125,
+      "learning_rate": 2.322005720224618e-09,
+      "logits/chosen": -1.2301725149154663,
+      "logits/rejected": -0.8613675236701965,
+      "logps/chosen": -176.6241912841797,
+      "logps/rejected": -234.5286407470703,
+      "loss": 0.6633,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.040943752974271774,
+      "rewards/margins": 0.06620831787586212,
+      "rewards/margins_max": 0.09054501354694366,
+      "rewards/margins_min": 0.04187161475419998,
+      "rewards/margins_std": 0.0344172939658165,
+      "rewards/rejected": -0.02526455745100975,
+      "step": 3050
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.349609375,
+      "learning_rate": 1.9630613406676764e-09,
+      "logits/chosen": -1.3148514032363892,
+      "logits/rejected": -1.1194158792495728,
+      "logps/chosen": -204.06472778320312,
+      "logps/rejected": -175.95155334472656,
+      "loss": 0.6675,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.030322005972266197,
+      "rewards/margins": 0.04166535660624504,
+      "rewards/margins_max": 0.06148039177060127,
+      "rewards/margins_min": 0.021850308403372765,
+      "rewards/margins_std": 0.028022700920701027,
+      "rewards/rejected": -0.011343345046043396,
+      "step": 3060
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 0.494140625,
+      "learning_rate": 1.6341289877028486e-09,
+      "logits/chosen": -1.2309526205062866,
+      "logits/rejected": -0.9648950695991516,
+      "logps/chosen": -221.1148223876953,
+      "logps/rejected": -218.8831024169922,
+      "loss": 0.6665,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03704274445772171,
+      "rewards/margins": 0.06422804296016693,
+      "rewards/margins_max": 0.09260173887014389,
+      "rewards/margins_min": 0.03585432469844818,
+      "rewards/margins_std": 0.040126487612724304,
+      "rewards/rejected": -0.027185291051864624,
+      "step": 3070
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 0.41015625,
+      "learning_rate": 1.33524846155747e-09,
+      "logits/chosen": -1.5479004383087158,
+      "logits/rejected": -1.124626874923706,
+      "logps/chosen": -272.0228271484375,
+      "logps/rejected": -232.5234832763672,
+      "loss": 0.6602,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03827238082885742,
+      "rewards/margins": 0.06339852511882782,
+      "rewards/margins_max": 0.08984600752592087,
+      "rewards/margins_min": 0.03695103898644447,
+      "rewards/margins_std": 0.03740239515900612,
+      "rewards/rejected": -0.0251261405646801,
+      "step": 3080
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 0.4296875,
+      "learning_rate": 1.066455926241383e-09,
+      "logits/chosen": -1.3203740119934082,
+      "logits/rejected": -1.0223264694213867,
+      "logps/chosen": -217.78921508789062,
+      "logps/rejected": -185.77662658691406,
+      "loss": 0.6662,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.03560353443026543,
+      "rewards/margins": 0.05814961716532707,
+      "rewards/margins_max": 0.08662423491477966,
+      "rewards/margins_min": 0.029674995690584183,
+      "rewards/margins_std": 0.04026919603347778,
+      "rewards/rejected": -0.022546080872416496,
+      "step": 3090
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 0.625,
+      "learning_rate": 8.277839051712698e-10,
+      "logits/chosen": -1.2869453430175781,
+      "logits/rejected": -0.9400846362113953,
+      "logps/chosen": -253.38711547851562,
+      "logps/rejected": -252.90274047851562,
+      "loss": 0.6638,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.04124082997441292,
+      "rewards/margins": 0.05371633172035217,
+      "rewards/margins_max": 0.08102357387542725,
+      "rewards/margins_min": 0.0264090858399868,
+      "rewards/margins_std": 0.03861827403306961,
+      "rewards/rejected": -0.012475499883294106,
+      "step": 3100
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 0.55078125,
+      "learning_rate": 6.192612772354944e-10,
+      "logits/chosen": -1.323472499847412,
+      "logits/rejected": -0.9910783767700195,
+      "logps/chosen": -250.5233917236328,
+      "logps/rejected": -254.0393524169922,
+      "loss": 0.6645,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.043138034641742706,
+      "rewards/margins": 0.062495727092027664,
+      "rewards/margins_max": 0.09117720276117325,
+      "rewards/margins_min": 0.03381425514817238,
+      "rewards/margins_std": 0.0405617319047451,
+      "rewards/rejected": -0.019357692450284958,
+      "step": 3110
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 0.30859375,
+      "learning_rate": 4.4091327329956465e-10,
+      "logits/chosen": -1.3970682621002197,
+      "logits/rejected": -1.0630197525024414,
+      "logps/chosen": -187.95303344726562,
+      "logps/rejected": -180.37051391601562,
+      "loss": 0.6629,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.04492129012942314,
+      "rewards/margins": 0.0595441572368145,
+      "rewards/margins_max": 0.08808682858943939,
+      "rewards/margins_min": 0.03100150264799595,
+      "rewards/margins_std": 0.04036542400717735,
+      "rewards/rejected": -0.014622872695326805,
+      "step": 3120
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 0.44140625,
+      "learning_rate": 2.927614731534356e-10,
+      "logits/chosen": -1.3621008396148682,
+      "logits/rejected": -1.0651832818984985,
+      "logps/chosen": -214.0552520751953,
+      "logps/rejected": -293.3019104003906,
+      "loss": 0.6652,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03748806565999985,
+      "rewards/margins": 0.06025733798742294,
+      "rewards/margins_max": 0.08895647525787354,
+      "rewards/margins_min": 0.031558211892843246,
+      "rewards/margins_std": 0.04058670252561569,
+      "rewards/rejected": -0.022769279778003693,
+      "step": 3130
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 0.33984375,
+      "learning_rate": 1.7482380290034792e-10,
+      "logits/chosen": -1.4978671073913574,
+      "logits/rejected": -1.0491201877593994,
+      "logps/chosen": -187.7884063720703,
+      "logps/rejected": -193.33639526367188,
+      "loss": 0.6632,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.03827610984444618,
+      "rewards/margins": 0.06368110328912735,
+      "rewards/margins_max": 0.08939781039953232,
+      "rewards/margins_min": 0.03796439617872238,
+      "rewards/margins_std": 0.036368921399116516,
+      "rewards/rejected": -0.025404995307326317,
+      "step": 3140
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 0.490234375,
+      "learning_rate": 8.711453278778535e-11,
+      "logits/chosen": -1.3394626379013062,
+      "logits/rejected": -0.8948138356208801,
+      "logps/chosen": -242.09231567382812,
+      "logps/rejected": -217.08139038085938,
+      "loss": 0.6631,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.035616446286439896,
+      "rewards/margins": 0.06384526938199997,
+      "rewards/margins_max": 0.09082364290952682,
+      "rewards/margins_min": 0.03686688840389252,
+      "rewards/margins_std": 0.03815319389104843,
+      "rewards/rejected": -0.028228823095560074,
+      "step": 3150
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.376953125,
+      "learning_rate": 2.9644275480772416e-11,
+      "logits/chosen": -1.425526738166809,
+      "logits/rejected": -1.098435640335083,
+      "logps/chosen": -208.4182586669922,
+      "logps/rejected": -194.59750366210938,
+      "loss": 0.6706,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 0.03818322345614433,
+      "rewards/margins": 0.04908495396375656,
+      "rewards/margins_max": 0.07002463191747665,
+      "rewards/margins_min": 0.02814526855945587,
+      "rewards/margins_std": 0.029613185673952103,
+      "rewards/rejected": -0.010901734232902527,
+      "step": 3160
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.51171875,
+      "learning_rate": 2.419984777790596e-12,
+      "logits/chosen": -1.3360934257507324,
+      "logits/rejected": -0.8945194482803345,
+      "logps/chosen": -228.0156707763672,
+      "logps/rejected": -237.915283203125,
+      "loss": 0.6624,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.045156557112932205,
+      "rewards/margins": 0.06454546749591827,
+      "rewards/margins_max": 0.10190453380346298,
+      "rewards/margins_min": 0.02718639373779297,
+      "rewards/margins_std": 0.05283369496464729,
+      "rewards/rejected": -0.01938890479505062,
+      "step": 3170
+    },
+    {
+      "epoch": 1.0,
+      "eval_logits/chosen": -1.0169051885604858,
+      "eval_logits/rejected": -0.8946173191070557,
+      "eval_logps/chosen": -322.6468811035156,
+      "eval_logps/rejected": -313.6658020019531,
+      "eval_loss": 0.6918271780014038,
+      "eval_rewards/accuracies": 0.5540000200271606,
+      "eval_rewards/chosen": 0.02316886931657791,
+      "eval_rewards/margins": 0.0031846188940107822,
+      "eval_rewards/margins_max": 0.06275644898414612,
+      "eval_rewards/margins_min": -0.059831298887729645,
+      "eval_rewards/margins_std": 0.040721021592617035,
+      "eval_rewards/rejected": 0.019984247162938118,
+      "eval_runtime": 1444.6396,
+      "eval_samples_per_second": 2.769,
+      "eval_steps_per_second": 0.173,
+      "step": 3174
+    },
+    {
+      "epoch": 1.0,
+      "step": 3174,
+      "total_flos": 0.0,
+      "train_loss": 0.6703614967006065,
+      "train_runtime": 26793.455,
+      "train_samples_per_second": 0.948,
+      "train_steps_per_second": 0.118
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 3174,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}