diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,3462 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.999080761654629,
+  "eval_steps": 500,
+  "global_step": 951,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.005252790544977019,
+      "grad_norm": 33.25,
+      "learning_rate": 1.0416666666666667e-07,
+      "log_odds_chosen": -0.12333051860332489,
+      "log_odds_ratio": -0.8621311187744141,
+      "logits/chosen": -2.540858030319214,
+      "logits/rejected": -2.1144332885742188,
+      "logps/chosen": -1.1002752780914307,
+      "logps/rejected": -1.0134268999099731,
+      "loss": 2.3046,
+      "nll_loss": 1.4424240589141846,
+      "rewards/accuracies": 0.45625001192092896,
+      "rewards/chosen": -1.1002752780914307,
+      "rewards/margins": -0.08684836328029633,
+      "rewards/rejected": -1.0134268999099731,
+      "step": 5
+    },
+    {
+      "epoch": 0.010505581089954037,
+      "grad_norm": 30.125,
+      "learning_rate": 2.0833333333333333e-07,
+      "log_odds_chosen": -0.1254591941833496,
+      "log_odds_ratio": -0.8488509058952332,
+      "logits/chosen": -2.521646022796631,
+      "logits/rejected": -2.12934947013855,
+      "logps/chosen": -1.0548789501190186,
+      "logps/rejected": -0.9548781514167786,
+      "loss": 2.2337,
+      "nll_loss": 1.3848837614059448,
+      "rewards/accuracies": 0.453125,
+      "rewards/chosen": -1.0548789501190186,
+      "rewards/margins": -0.10000075399875641,
+      "rewards/rejected": -0.9548781514167786,
+      "step": 10
+    },
+    {
+      "epoch": 0.015758371634931056,
+      "grad_norm": 28.25,
+      "learning_rate": 3.1249999999999997e-07,
+      "log_odds_chosen": -0.092379130423069,
+      "log_odds_ratio": -0.839794933795929,
+      "logits/chosen": -2.496335744857788,
+      "logits/rejected": -2.134352445602417,
+      "logps/chosen": -1.0547659397125244,
+      "logps/rejected": -0.9888293147087097,
+      "loss": 2.2323,
+      "nll_loss": 1.3924893140792847,
+      "rewards/accuracies": 0.4625000059604645,
+      "rewards/chosen": -1.0547659397125244,
+      "rewards/margins": -0.06593648344278336,
+      "rewards/rejected": -0.9888293147087097,
+      "step": 15
+    },
+    {
+      "epoch": 0.021011162179908074,
+      "grad_norm": 27.75,
+      "learning_rate": 4.1666666666666667e-07,
+      "log_odds_chosen": -0.08341892063617706,
+      "log_odds_ratio": -0.845537006855011,
+      "logits/chosen": -2.502532720565796,
+      "logits/rejected": -2.0534327030181885,
+      "logps/chosen": -1.0713450908660889,
+      "logps/rejected": -1.0228570699691772,
+      "loss": 2.2615,
+      "nll_loss": 1.415948748588562,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": -1.0713450908660889,
+      "rewards/margins": -0.04848797246813774,
+      "rewards/rejected": -1.0228570699691772,
+      "step": 20
+    },
+    {
+      "epoch": 0.026263952724885097,
+      "grad_norm": 31.625,
+      "learning_rate": 5.208333333333334e-07,
+      "log_odds_chosen": -0.05041329935193062,
+      "log_odds_ratio": -0.8150845766067505,
+      "logits/chosen": -2.3506855964660645,
+      "logits/rejected": -2.041471481323242,
+      "logps/chosen": -1.0723893642425537,
+      "logps/rejected": -1.0427805185317993,
+      "loss": 2.2269,
+      "nll_loss": 1.411767601966858,
+      "rewards/accuracies": 0.49687498807907104,
+      "rewards/chosen": -1.0723893642425537,
+      "rewards/margins": -0.029608914628624916,
+      "rewards/rejected": -1.0427805185317993,
+      "step": 25
+    },
+    {
+      "epoch": 0.03151674326986211,
+      "grad_norm": 34.75,
+      "learning_rate": 6.249999999999999e-07,
+      "log_odds_chosen": -0.16907325387001038,
+      "log_odds_ratio": -0.8892423510551453,
+      "logits/chosen": -2.4877123832702637,
+      "logits/rejected": -2.091643810272217,
+      "logps/chosen": -1.0780900716781616,
+      "logps/rejected": -0.960413932800293,
+      "loss": 2.2862,
+      "nll_loss": 1.3969789743423462,
+      "rewards/accuracies": 0.45625001192092896,
+      "rewards/chosen": -1.0780900716781616,
+      "rewards/margins": -0.1176760345697403,
+      "rewards/rejected": -0.960413932800293,
+      "step": 30
+    },
+    {
+      "epoch": 0.036769533814839134,
+      "grad_norm": 24.625,
+      "learning_rate": 7.291666666666666e-07,
+      "log_odds_chosen": -0.12296156585216522,
+      "log_odds_ratio": -0.8445537686347961,
+      "logits/chosen": -2.460153579711914,
+      "logits/rejected": -2.100581169128418,
+      "logps/chosen": -0.9918639063835144,
+      "logps/rejected": -0.8978347778320312,
+      "loss": 2.1014,
+      "nll_loss": 1.256840467453003,
+      "rewards/accuracies": 0.43437498807907104,
+      "rewards/chosen": -0.9918639063835144,
+      "rewards/margins": -0.09402903914451599,
+      "rewards/rejected": -0.8978347778320312,
+      "step": 35
+    },
+    {
+      "epoch": 0.04202232435981615,
+      "grad_norm": 20.375,
+      "learning_rate": 8.333333333333333e-07,
+      "log_odds_chosen": -0.10392768681049347,
+      "log_odds_ratio": -0.8281729817390442,
+      "logits/chosen": -2.4672484397888184,
+      "logits/rejected": -2.1189260482788086,
+      "logps/chosen": -0.9796692132949829,
+      "logps/rejected": -0.8947553634643555,
+      "loss": 2.0709,
+      "nll_loss": 1.2427122592926025,
+      "rewards/accuracies": 0.4781250059604645,
+      "rewards/chosen": -0.9796692132949829,
+      "rewards/margins": -0.08491390943527222,
+      "rewards/rejected": -0.8947553634643555,
+      "step": 40
+    },
+    {
+      "epoch": 0.04727511490479317,
+      "grad_norm": 25.75,
+      "learning_rate": 9.374999999999999e-07,
+      "log_odds_chosen": -0.07403279840946198,
+      "log_odds_ratio": -0.8119841814041138,
+      "logits/chosen": -2.5748581886291504,
+      "logits/rejected": -2.2311367988586426,
+      "logps/chosen": -0.9425970911979675,
+      "logps/rejected": -0.8925843238830566,
+      "loss": 1.966,
+      "nll_loss": 1.1540277004241943,
+      "rewards/accuracies": 0.4781250059604645,
+      "rewards/chosen": -0.9425970911979675,
+      "rewards/margins": -0.05001285672187805,
+      "rewards/rejected": -0.8925843238830566,
+      "step": 45
+    },
+    {
+      "epoch": 0.05252790544977019,
+      "grad_norm": 15.5625,
+      "learning_rate": 1.0416666666666667e-06,
+      "log_odds_chosen": -0.015203160233795643,
+      "log_odds_ratio": -0.7965196371078491,
+      "logits/chosen": -2.517662763595581,
+      "logits/rejected": -2.291977882385254,
+      "logps/chosen": -1.0069010257720947,
+      "logps/rejected": -0.9928563833236694,
+      "loss": 2.001,
+      "nll_loss": 1.2044353485107422,
+      "rewards/accuracies": 0.49687498807907104,
+      "rewards/chosen": -1.0069010257720947,
+      "rewards/margins": -0.014044714160263538,
+      "rewards/rejected": -0.9928563833236694,
+      "step": 50
+    },
+    {
+      "epoch": 0.05778069599474721,
+      "grad_norm": 19.125,
+      "learning_rate": 1.1458333333333333e-06,
+      "log_odds_chosen": -0.06918958574533463,
+      "log_odds_ratio": -0.8064200282096863,
+      "logits/chosen": -2.7286930084228516,
+      "logits/rejected": -2.3158278465270996,
+      "logps/chosen": -0.9621369242668152,
+      "logps/rejected": -0.9042080044746399,
+      "loss": 1.9673,
+      "nll_loss": 1.1608707904815674,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.9621369242668152,
+      "rewards/margins": -0.05792900174856186,
+      "rewards/rejected": -0.9042080044746399,
+      "step": 55
+    },
+    {
+      "epoch": 0.06303348653972422,
+      "grad_norm": 20.375,
+      "learning_rate": 1.2499999999999999e-06,
+      "log_odds_chosen": -0.055296190083026886,
+      "log_odds_ratio": -0.795842170715332,
+      "logits/chosen": -2.733304500579834,
+      "logits/rejected": -2.257201671600342,
+      "logps/chosen": -0.9258626699447632,
+      "logps/rejected": -0.8971433639526367,
+      "loss": 1.9557,
+      "nll_loss": 1.159847378730774,
+      "rewards/accuracies": 0.45625001192092896,
+      "rewards/chosen": -0.9258626699447632,
+      "rewards/margins": -0.028719374909996986,
+      "rewards/rejected": -0.8971433639526367,
+      "step": 60
+    },
+    {
+      "epoch": 0.06828627708470125,
+      "grad_norm": 18.25,
+      "learning_rate": 1.3541666666666667e-06,
+      "log_odds_chosen": -0.05717029422521591,
+      "log_odds_ratio": -0.7737418413162231,
+      "logits/chosen": -2.6654744148254395,
+      "logits/rejected": -2.187049627304077,
+      "logps/chosen": -0.8003360033035278,
+      "logps/rejected": -0.7723677754402161,
+      "loss": 1.8696,
+      "nll_loss": 1.0958433151245117,
+      "rewards/accuracies": 0.4437499940395355,
+      "rewards/chosen": -0.8003360033035278,
+      "rewards/margins": -0.02796824648976326,
+      "rewards/rejected": -0.7723677754402161,
+      "step": 65
+    },
+    {
+      "epoch": 0.07353906762967827,
+      "grad_norm": 19.375,
+      "learning_rate": 1.4583333333333333e-06,
+      "log_odds_chosen": 0.002531373407691717,
+      "log_odds_ratio": -0.7339381575584412,
+      "logits/chosen": -2.5733718872070312,
+      "logits/rejected": -2.1028685569763184,
+      "logps/chosen": -0.7143228054046631,
+      "logps/rejected": -0.718761146068573,
+      "loss": 1.7947,
+      "nll_loss": 1.0607960224151611,
+      "rewards/accuracies": 0.5218750238418579,
+      "rewards/chosen": -0.7143228054046631,
+      "rewards/margins": 0.004438319243490696,
+      "rewards/rejected": -0.718761146068573,
+      "step": 70
+    },
+    {
+      "epoch": 0.07879185817465528,
+      "grad_norm": 15.9375,
+      "learning_rate": 1.5624999999999999e-06,
+      "log_odds_chosen": 0.06011660769581795,
+      "log_odds_ratio": -0.7009418606758118,
+      "logits/chosen": -2.5496840476989746,
+      "logits/rejected": -2.0580315589904785,
+      "logps/chosen": -0.6317678689956665,
+      "logps/rejected": -0.6753242611885071,
+      "loss": 1.6452,
+      "nll_loss": 0.9442570805549622,
+      "rewards/accuracies": 0.528124988079071,
+      "rewards/chosen": -0.6317678689956665,
+      "rewards/margins": 0.04355642572045326,
+      "rewards/rejected": -0.6753242611885071,
+      "step": 75
+    },
+    {
+      "epoch": 0.0840446487196323,
+      "grad_norm": 14.875,
+      "learning_rate": 1.6666666666666667e-06,
+      "log_odds_chosen": 0.10804717242717743,
+      "log_odds_ratio": -0.6780250072479248,
+      "logits/chosen": -2.371317148208618,
+      "logits/rejected": -1.9558740854263306,
+      "logps/chosen": -0.5971282124519348,
+      "logps/rejected": -0.6553691029548645,
+      "loss": 1.6518,
+      "nll_loss": 0.9737834930419922,
+      "rewards/accuracies": 0.6031249761581421,
+      "rewards/chosen": -0.5971282124519348,
+      "rewards/margins": 0.05824087932705879,
+      "rewards/rejected": -0.6553691029548645,
+      "step": 80
+    },
+    {
+      "epoch": 0.08929743926460933,
+      "grad_norm": 15.375,
+      "learning_rate": 1.7708333333333332e-06,
+      "log_odds_chosen": 0.13051114976406097,
+      "log_odds_ratio": -0.6608899235725403,
+      "logits/chosen": -2.441239833831787,
+      "logits/rejected": -2.080503225326538,
+      "logps/chosen": -0.5396751165390015,
+      "logps/rejected": -0.6057919263839722,
+      "loss": 1.6033,
+      "nll_loss": 0.9424022436141968,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.5396751165390015,
+      "rewards/margins": 0.06611678004264832,
+      "rewards/rejected": -0.6057919263839722,
+      "step": 85
+    },
+    {
+      "epoch": 0.09455022980958634,
+      "grad_norm": 15.5625,
+      "learning_rate": 1.8749999999999998e-06,
+      "log_odds_chosen": 0.19523096084594727,
+      "log_odds_ratio": -0.6398605108261108,
+      "logits/chosen": -2.388965606689453,
+      "logits/rejected": -2.051954507827759,
+      "logps/chosen": -0.514168381690979,
+      "logps/rejected": -0.6006937623023987,
+      "loss": 1.5701,
+      "nll_loss": 0.9302393794059753,
+      "rewards/accuracies": 0.6468750238418579,
+      "rewards/chosen": -0.514168381690979,
+      "rewards/margins": 0.08652535825967789,
+      "rewards/rejected": -0.6006937623023987,
+      "step": 90
+    },
+    {
+      "epoch": 0.09980302035456336,
+      "grad_norm": 10.625,
+      "learning_rate": 1.9791666666666666e-06,
+      "log_odds_chosen": 0.12450599670410156,
+      "log_odds_ratio": -0.6654147505760193,
+      "logits/chosen": -2.3805699348449707,
+      "logits/rejected": -2.010688304901123,
+      "logps/chosen": -0.49114733934402466,
+      "logps/rejected": -0.5494757890701294,
+      "loss": 1.5446,
+      "nll_loss": 0.8791642189025879,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.49114733934402466,
+      "rewards/margins": 0.05832843855023384,
+      "rewards/rejected": -0.5494757890701294,
+      "step": 95
+    },
+    {
+      "epoch": 0.10505581089954039,
+      "grad_norm": 7.8125,
+      "learning_rate": 1.9998919935516766e-06,
+      "log_odds_chosen": 0.17239874601364136,
+      "log_odds_ratio": -0.6507178544998169,
+      "logits/chosen": -2.2754485607147217,
+      "logits/rejected": -2.040553569793701,
+      "logps/chosen": -0.485573947429657,
+      "logps/rejected": -0.5674648284912109,
+      "loss": 1.4726,
+      "nll_loss": 0.8218661546707153,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.485573947429657,
+      "rewards/margins": 0.08189092576503754,
+      "rewards/rejected": -0.5674648284912109,
+      "step": 100
+    },
+    {
+      "epoch": 0.1103086014445174,
+      "grad_norm": 8.3125,
+      "learning_rate": 1.999453257340926e-06,
+      "log_odds_chosen": 0.2180129736661911,
+      "log_odds_ratio": -0.6303091049194336,
+      "logits/chosen": -2.4427425861358643,
+      "logits/rejected": -2.181597948074341,
+      "logps/chosen": -0.4835621416568756,
+      "logps/rejected": -0.5780085325241089,
+      "loss": 1.4945,
+      "nll_loss": 0.8642352223396301,
+      "rewards/accuracies": 0.6343749761581421,
+      "rewards/chosen": -0.4835621416568756,
+      "rewards/margins": 0.09444637596607208,
+      "rewards/rejected": -0.5780085325241089,
+      "step": 105
+    },
+    {
+      "epoch": 0.11556139198949442,
+      "grad_norm": 8.0,
+      "learning_rate": 1.998677188931617e-06,
+      "log_odds_chosen": 0.27974802255630493,
+      "log_odds_ratio": -0.6000305414199829,
+      "logits/chosen": -2.4073500633239746,
+      "logits/rejected": -2.158104419708252,
+      "logps/chosen": -0.4692881107330322,
+      "logps/rejected": -0.5915614366531372,
+      "loss": 1.5236,
+      "nll_loss": 0.9235590100288391,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.4692881107330322,
+      "rewards/margins": 0.12227334082126617,
+      "rewards/rejected": -0.5915614366531372,
+      "step": 110
+    },
+    {
+      "epoch": 0.12081418253447143,
+      "grad_norm": 7.9375,
+      "learning_rate": 1.997564050259824e-06,
+      "log_odds_chosen": 0.28100112080574036,
+      "log_odds_ratio": -0.601650595664978,
+      "logits/chosen": -2.3918166160583496,
+      "logits/rejected": -2.029897689819336,
+      "logps/chosen": -0.4723443388938904,
+      "logps/rejected": -0.5918693542480469,
+      "loss": 1.5166,
+      "nll_loss": 0.9149250984191895,
+      "rewards/accuracies": 0.671875,
+      "rewards/chosen": -0.4723443388938904,
+      "rewards/margins": 0.11952495574951172,
+      "rewards/rejected": -0.5918693542480469,
+      "step": 115
+    },
+    {
+      "epoch": 0.12606697307944845,
+      "grad_norm": 8.8125,
+      "learning_rate": 1.996114217028476e-06,
+      "log_odds_chosen": 0.25655943155288696,
+      "log_odds_ratio": -0.6146520376205444,
+      "logits/chosen": -2.470524311065674,
+      "logits/rejected": -2.134540557861328,
+      "logps/chosen": -0.477255642414093,
+      "logps/rejected": -0.5925866961479187,
+      "loss": 1.5111,
+      "nll_loss": 0.8964211344718933,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.477255642414093,
+      "rewards/margins": 0.11533106863498688,
+      "rewards/rejected": -0.5925866961479187,
+      "step": 120
+    },
+    {
+      "epoch": 0.1313197636244255,
+      "grad_norm": 8.75,
+      "learning_rate": 1.994328178580548e-06,
+      "log_odds_chosen": 0.2803216576576233,
+      "log_odds_ratio": -0.601326584815979,
+      "logits/chosen": -2.367903232574463,
+      "logits/rejected": -2.018990993499756,
+      "logps/chosen": -0.46639877557754517,
+      "logps/rejected": -0.5851758718490601,
+      "loss": 1.481,
+      "nll_loss": 0.8796539306640625,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.46639877557754517,
+      "rewards/margins": 0.11877720057964325,
+      "rewards/rejected": -0.5851758718490601,
+      "step": 125
+    },
+    {
+      "epoch": 0.1365725541694025,
+      "grad_norm": 8.3125,
+      "learning_rate": 1.9922065377339033e-06,
+      "log_odds_chosen": 0.2894327640533447,
+      "log_odds_ratio": -0.6087297201156616,
+      "logits/chosen": -2.5040173530578613,
+      "logits/rejected": -2.2061374187469482,
+      "logps/chosen": -0.4694454073905945,
+      "logps/rejected": -0.5906943678855896,
+      "loss": 1.4968,
+      "nll_loss": 0.888100266456604,
+      "rewards/accuracies": 0.6656249761581421,
+      "rewards/chosen": -0.4694454073905945,
+      "rewards/margins": 0.12124893814325333,
+      "rewards/rejected": -0.5906943678855896,
+      "step": 130
+    },
+    {
+      "epoch": 0.14182534471437952,
+      "grad_norm": 7.375,
+      "learning_rate": 1.98975001057783e-06,
+      "log_odds_chosen": 0.30140143632888794,
+      "log_odds_ratio": -0.5964145660400391,
+      "logits/chosen": -2.4213032722473145,
+      "logits/rejected": -2.004279375076294,
+      "logps/chosen": -0.44823235273361206,
+      "logps/rejected": -0.583377480506897,
+      "loss": 1.4442,
+      "nll_loss": 0.8478012084960938,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.44823235273361206,
+      "rewards/margins": 0.13514509797096252,
+      "rewards/rejected": -0.583377480506897,
+      "step": 135
+    },
+    {
+      "epoch": 0.14707813525935653,
+      "grad_norm": 9.4375,
+      "learning_rate": 1.986959426231349e-06,
+      "log_odds_chosen": 0.33596453070640564,
+      "log_odds_ratio": -0.5885840654373169,
+      "logits/chosen": -2.471541166305542,
+      "logits/rejected": -2.1307930946350098,
+      "logps/chosen": -0.47856172919273376,
+      "logps/rejected": -0.6193875074386597,
+      "loss": 1.4974,
+      "nll_loss": 0.9087700843811035,
+      "rewards/accuracies": 0.684374988079071,
+      "rewards/chosen": -0.47856172919273376,
+      "rewards/margins": 0.14082582294940948,
+      "rewards/rejected": -0.6193875074386597,
+      "step": 140
+    },
+    {
+      "epoch": 0.15233092580433355,
+      "grad_norm": 8.0625,
+      "learning_rate": 1.9838357265633724e-06,
+      "log_odds_chosen": 0.35230931639671326,
+      "log_odds_ratio": -0.5799855589866638,
+      "logits/chosen": -2.4745469093322754,
+      "logits/rejected": -2.0399346351623535,
+      "logps/chosen": -0.45584583282470703,
+      "logps/rejected": -0.6081861257553101,
+      "loss": 1.4708,
+      "nll_loss": 0.8907746076583862,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.45584583282470703,
+      "rewards/margins": 0.15234029293060303,
+      "rewards/rejected": -0.6081861257553101,
+      "step": 145
+    },
+    {
+      "epoch": 0.15758371634931057,
+      "grad_norm": 7.59375,
+      "learning_rate": 1.9803799658748095e-06,
+      "log_odds_chosen": 0.32377585768699646,
+      "log_odds_ratio": -0.5951502919197083,
+      "logits/chosen": -2.3601431846618652,
+      "logits/rejected": -2.0099222660064697,
+      "logps/chosen": -0.46314555406570435,
+      "logps/rejected": -0.6009119153022766,
+      "loss": 1.4988,
+      "nll_loss": 0.9036917686462402,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.46314555406570435,
+      "rewards/margins": 0.13776634633541107,
+      "rewards/rejected": -0.6009119153022766,
+      "step": 150
+    },
+    {
+      "epoch": 0.16283650689428758,
+      "grad_norm": 9.75,
+      "learning_rate": 1.9765933105427177e-06,
+      "log_odds_chosen": 0.29054537415504456,
+      "log_odds_ratio": -0.6080166101455688,
+      "logits/chosen": -2.429213762283325,
+      "logits/rejected": -2.1127424240112305,
+      "logps/chosen": -0.48361191153526306,
+      "logps/rejected": -0.6187745928764343,
+      "loss": 1.5015,
+      "nll_loss": 0.8934603929519653,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.48361191153526306,
+      "rewards/margins": 0.13516271114349365,
+      "rewards/rejected": -0.6187745928764343,
+      "step": 155
+    },
+    {
+      "epoch": 0.1680892974392646,
+      "grad_norm": 14.0625,
+      "learning_rate": 1.972477038626636e-06,
+      "log_odds_chosen": 0.27817827463150024,
+      "log_odds_ratio": -0.6112152338027954,
+      "logits/chosen": -2.4246554374694824,
+      "logits/rejected": -2.0224289894104004,
+      "logps/chosen": -0.49589210748672485,
+      "logps/rejected": -0.6248718500137329,
+      "loss": 1.4978,
+      "nll_loss": 0.886622428894043,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.49589210748672485,
+      "rewards/margins": 0.12897971272468567,
+      "rewards/rejected": -0.6248718500137329,
+      "step": 160
+    },
+    {
+      "epoch": 0.17334208798424164,
+      "grad_norm": 10.875,
+      "learning_rate": 1.9680325394372147e-06,
+      "log_odds_chosen": 0.35008612275123596,
+      "log_odds_ratio": -0.5786347389221191,
+      "logits/chosen": -2.506772756576538,
+      "logits/rejected": -2.057096004486084,
+      "logps/chosen": -0.46079978346824646,
+      "logps/rejected": -0.6112517714500427,
+      "loss": 1.4896,
+      "nll_loss": 0.9109176397323608,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.46079978346824646,
+      "rewards/margins": 0.15045206248760223,
+      "rewards/rejected": -0.6112517714500427,
+      "step": 165
+    },
+    {
+      "epoch": 0.17859487852921865,
+      "grad_norm": 15.1875,
+      "learning_rate": 1.9632613130673015e-06,
+      "log_odds_chosen": 0.33634597063064575,
+      "log_odds_ratio": -0.589142918586731,
+      "logits/chosen": -2.467883348464966,
+      "logits/rejected": -1.9834989309310913,
+      "logps/chosen": -0.4864015579223633,
+      "logps/rejected": -0.6304683089256287,
+      "loss": 1.4988,
+      "nll_loss": 0.9096533060073853,
+      "rewards/accuracies": 0.690625011920929,
+      "rewards/chosen": -0.4864015579223633,
+      "rewards/margins": 0.144066721200943,
+      "rewards/rejected": -0.6304683089256287,
+      "step": 170
+    },
+    {
+      "epoch": 0.18384766907419567,
+      "grad_norm": 26.75,
+      "learning_rate": 1.9581649698856357e-06,
+      "log_odds_chosen": 0.351374089717865,
+      "log_odds_ratio": -0.5786073207855225,
+      "logits/chosen": -2.3902525901794434,
+      "logits/rejected": -2.0138325691223145,
+      "logps/chosen": -0.45923271775245667,
+      "logps/rejected": -0.6129686236381531,
+      "loss": 1.477,
+      "nll_loss": 0.8983781933784485,
+      "rewards/accuracies": 0.715624988079071,
+      "rewards/chosen": -0.45923271775245667,
+      "rewards/margins": 0.1537359207868576,
+      "rewards/rejected": -0.6129686236381531,
+      "step": 175
+    },
+    {
+      "epoch": 0.18910045961917268,
+      "grad_norm": 8.5625,
+      "learning_rate": 1.952745229993319e-06,
+      "log_odds_chosen": 0.3817608952522278,
+      "log_odds_ratio": -0.5729137659072876,
+      "logits/chosen": -2.52931547164917,
+      "logits/rejected": -2.1916394233703613,
+      "logps/chosen": -0.48729705810546875,
+      "logps/rejected": -0.6591955423355103,
+      "loss": 1.4891,
+      "nll_loss": 0.9161707758903503,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.48729705810546875,
+      "rewards/margins": 0.1718985140323639,
+      "rewards/rejected": -0.6591955423355103,
+      "step": 180
+    },
+    {
+      "epoch": 0.1943532501641497,
+      "grad_norm": 8.5,
+      "learning_rate": 1.947003922643256e-06,
+      "log_odds_chosen": 0.379459023475647,
+      "log_odds_ratio": -0.5737109184265137,
+      "logits/chosen": -2.282898426055908,
+      "logits/rejected": -1.9805419445037842,
+      "logps/chosen": -0.47503146529197693,
+      "logps/rejected": -0.6488234400749207,
+      "loss": 1.4454,
+      "nll_loss": 0.8717378377914429,
+      "rewards/accuracies": 0.721875011920929,
+      "rewards/chosen": -0.47503146529197693,
+      "rewards/margins": 0.1737920045852661,
+      "rewards/rejected": -0.6488234400749207,
+      "step": 185
+    },
+    {
+      "epoch": 0.19960604070912671,
+      "grad_norm": 10.125,
+      "learning_rate": 1.9409429856227482e-06,
+      "log_odds_chosen": 0.4121369421482086,
+      "log_odds_ratio": -0.5561366081237793,
+      "logits/chosen": -2.488356113433838,
+      "logits/rejected": -2.0776686668395996,
+      "logps/chosen": -0.4683772921562195,
+      "logps/rejected": -0.647982656955719,
+      "loss": 1.4436,
+      "nll_loss": 0.8874515295028687,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.4683772921562195,
+      "rewards/margins": 0.17960533499717712,
+      "rewards/rejected": -0.647982656955719,
+      "step": 190
+    },
+    {
+      "epoch": 0.20485883125410373,
+      "grad_norm": 11.5,
+      "learning_rate": 1.934564464599461e-06,
+      "log_odds_chosen": 0.32919231057167053,
+      "log_odds_ratio": -0.5908551812171936,
+      "logits/chosen": -2.501392364501953,
+      "logits/rejected": -2.0592591762542725,
+      "logps/chosen": -0.49434512853622437,
+      "logps/rejected": -0.6509113311767578,
+      "loss": 1.4187,
+      "nll_loss": 0.8278582692146301,
+      "rewards/accuracies": 0.6968749761581421,
+      "rewards/chosen": -0.49434512853622437,
+      "rewards/margins": 0.15656621754169464,
+      "rewards/rejected": -0.6509113311767578,
+      "step": 195
+    },
+    {
+      "epoch": 0.21011162179908077,
+      "grad_norm": 12.8125,
+      "learning_rate": 1.927870512430972e-06,
+      "log_odds_chosen": 0.42371082305908203,
+      "log_odds_ratio": -0.5525480508804321,
+      "logits/chosen": -2.4069533348083496,
+      "logits/rejected": -2.019406795501709,
+      "logps/chosen": -0.4768436551094055,
+      "logps/rejected": -0.6629732251167297,
+      "loss": 1.4572,
+      "nll_loss": 0.9046151041984558,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.4768436551094055,
+      "rewards/margins": 0.18612954020500183,
+      "rewards/rejected": -0.6629732251167297,
+      "step": 200
+    },
+    {
+      "epoch": 0.2153644123440578,
+      "grad_norm": 9.0,
+      "learning_rate": 1.9208633884381526e-06,
+      "log_odds_chosen": 0.42966872453689575,
+      "log_odds_ratio": -0.5522044897079468,
+      "logits/chosen": -2.430342197418213,
+      "logits/rejected": -2.0743634700775146,
+      "logps/chosen": -0.4722970426082611,
+      "logps/rejected": -0.6621736884117126,
+      "loss": 1.4295,
+      "nll_loss": 0.8772872090339661,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.4722970426082611,
+      "rewards/margins": 0.18987664580345154,
+      "rewards/rejected": -0.6621736884117126,
+      "step": 205
+    },
+    {
+      "epoch": 0.2206172028890348,
+      "grad_norm": 9.1875,
+      "learning_rate": 1.9135454576426007e-06,
+      "log_odds_chosen": 0.40302562713623047,
+      "log_odds_ratio": -0.5604028105735779,
+      "logits/chosen": -2.412562847137451,
+      "logits/rejected": -2.0246427059173584,
+      "logps/chosen": -0.4761424660682678,
+      "logps/rejected": -0.661251425743103,
+      "loss": 1.3993,
+      "nll_loss": 0.8388580083847046,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.4761424660682678,
+      "rewards/margins": 0.18510892987251282,
+      "rewards/rejected": -0.661251425743103,
+      "step": 210
+    },
+    {
+      "epoch": 0.22586999343401182,
+      "grad_norm": 7.875,
+      "learning_rate": 1.905919189968415e-06,
+      "log_odds_chosen": 0.4606761932373047,
+      "log_odds_ratio": -0.5445691347122192,
+      "logits/chosen": -2.4419312477111816,
+      "logits/rejected": -2.030771493911743,
+      "logps/chosen": -0.4771277904510498,
+      "logps/rejected": -0.6932464838027954,
+      "loss": 1.4377,
+      "nll_loss": 0.8931263089179993,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": -0.4771277904510498,
+      "rewards/margins": 0.21611860394477844,
+      "rewards/rejected": -0.6932464838027954,
+      "step": 215
+    },
+    {
+      "epoch": 0.23112278397898883,
+      "grad_norm": 7.78125,
+      "learning_rate": 1.897987159408548e-06,
+      "log_odds_chosen": 0.4278109073638916,
+      "log_odds_ratio": -0.5563892722129822,
+      "logits/chosen": -2.4070868492126465,
+      "logits/rejected": -2.033133029937744,
+      "logps/chosen": -0.4777792990207672,
+      "logps/rejected": -0.6746242642402649,
+      "loss": 1.3836,
+      "nll_loss": 0.827177882194519,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.4777792990207672,
+      "rewards/margins": 0.19684496521949768,
+      "rewards/rejected": -0.6746242642402649,
+      "step": 220
+    },
+    {
+      "epoch": 0.23637557452396585,
+      "grad_norm": 9.4375,
+      "learning_rate": 1.8897520431560433e-06,
+      "log_odds_chosen": 0.39412638545036316,
+      "log_odds_ratio": -0.5616167187690735,
+      "logits/chosen": -2.437281608581543,
+      "logits/rejected": -2.0233240127563477,
+      "logps/chosen": -0.49209141731262207,
+      "logps/rejected": -0.670540988445282,
+      "loss": 1.3984,
+      "nll_loss": 0.8367835879325867,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.49209141731262207,
+      "rewards/margins": 0.17844951152801514,
+      "rewards/rejected": -0.670540988445282,
+      "step": 225
+    },
+    {
+      "epoch": 0.24162836506894286,
+      "grad_norm": 9.4375,
+      "learning_rate": 1.8812166207004366e-06,
+      "log_odds_chosen": 0.45934948325157166,
+      "log_odds_ratio": -0.5536540746688843,
+      "logits/chosen": -2.4575705528259277,
+      "logits/rejected": -2.0787205696105957,
+      "logps/chosen": -0.4777277112007141,
+      "logps/rejected": -0.6928449869155884,
+      "loss": 1.3871,
+      "nll_loss": 0.8334070444107056,
+      "rewards/accuracies": 0.7593749761581421,
+      "rewards/chosen": -0.4777277112007141,
+      "rewards/margins": 0.21511724591255188,
+      "rewards/rejected": -0.6928449869155884,
+      "step": 230
+    },
+    {
+      "epoch": 0.2468811556139199,
+      "grad_norm": 7.71875,
+      "learning_rate": 1.8723837728896337e-06,
+      "log_odds_chosen": 0.45329445600509644,
+      "log_odds_ratio": -0.5616171360015869,
+      "logits/chosen": -2.522167682647705,
+      "logits/rejected": -2.1475300788879395,
+      "logps/chosen": -0.4945332407951355,
+      "logps/rejected": -0.7140644788742065,
+      "loss": 1.4402,
+      "nll_loss": 0.878614068031311,
+      "rewards/accuracies": 0.7093750238418579,
+      "rewards/chosen": -0.4945332407951355,
+      "rewards/margins": 0.21953122317790985,
+      "rewards/rejected": -0.7140644788742065,
+      "step": 235
+    },
+    {
+      "epoch": 0.2521339461588969,
+      "grad_norm": 7.75,
+      "learning_rate": 1.8632564809575738e-06,
+      "log_odds_chosen": 0.4688095152378082,
+      "log_odds_ratio": -0.5438790917396545,
+      "logits/chosen": -2.512554168701172,
+      "logits/rejected": -2.105734348297119,
+      "logps/chosen": -0.48634210228919983,
+      "logps/rejected": -0.7048304677009583,
+      "loss": 1.4387,
+      "nll_loss": 0.8948429226875305,
+      "rewards/accuracies": 0.753125011920929,
+      "rewards/chosen": -0.48634210228919983,
+      "rewards/margins": 0.21848826110363007,
+      "rewards/rejected": -0.7048304677009583,
+      "step": 240
+    },
+    {
+      "epoch": 0.2573867367038739,
+      "grad_norm": 9.9375,
+      "learning_rate": 1.8538378255180138e-06,
+      "log_odds_chosen": 0.488097608089447,
+      "log_odds_ratio": -0.5403500199317932,
+      "logits/chosen": -2.3577160835266113,
+      "logits/rejected": -2.0601189136505127,
+      "logps/chosen": -0.5090717077255249,
+      "logps/rejected": -0.7453780174255371,
+      "loss": 1.4193,
+      "nll_loss": 0.878923773765564,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.5090717077255249,
+      "rewards/margins": 0.23630623519420624,
+      "rewards/rejected": -0.7453780174255371,
+      "step": 245
+    },
+    {
+      "epoch": 0.262639527248851,
+      "grad_norm": 8.4375,
+      "learning_rate": 1.8441309855247707e-06,
+      "log_odds_chosen": 0.6032781004905701,
+      "log_odds_ratio": -0.5000559091567993,
+      "logits/chosen": -2.403979539871216,
+      "logits/rejected": -2.1050338745117188,
+      "logps/chosen": -0.5098007917404175,
+      "logps/rejected": -0.8097056150436401,
+      "loss": 1.4018,
+      "nll_loss": 0.9017453193664551,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": -0.5098007917404175,
+      "rewards/margins": 0.29990485310554504,
+      "rewards/rejected": -0.8097056150436401,
+      "step": 250
+    },
+    {
+      "epoch": 0.267892317793828,
+      "grad_norm": 7.90625,
+      "learning_rate": 1.83413923719877e-06,
+      "log_odds_chosen": 0.5410558581352234,
+      "log_odds_ratio": -0.5238425135612488,
+      "logits/chosen": -2.42203688621521,
+      "logits/rejected": -2.095054864883423,
+      "logps/chosen": -0.49079209566116333,
+      "logps/rejected": -0.763100266456604,
+      "loss": 1.3797,
+      "nll_loss": 0.8558791875839233,
+      "rewards/accuracies": 0.778124988079071,
+      "rewards/chosen": -0.49079209566116333,
+      "rewards/margins": 0.2723081707954407,
+      "rewards/rejected": -0.763100266456604,
+      "step": 255
+    },
+    {
+      "epoch": 0.273145108338805,
+      "grad_norm": 10.1875,
+      "learning_rate": 1.8238659529222668e-06,
+      "log_odds_chosen": 0.5387502908706665,
+      "log_odds_ratio": -0.5273549556732178,
+      "logits/chosen": -2.458590269088745,
+      "logits/rejected": -2.1467177867889404,
+      "logps/chosen": -0.5123028755187988,
+      "logps/rejected": -0.781539797782898,
+      "loss": 1.4312,
+      "nll_loss": 0.9038845300674438,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": -0.5123028755187988,
+      "rewards/margins": 0.2692369818687439,
+      "rewards/rejected": -0.781539797782898,
+      "step": 260
+    },
+    {
+      "epoch": 0.278397898883782,
+      "grad_norm": 12.3125,
+      "learning_rate": 1.8133146001006117e-06,
+      "log_odds_chosen": 0.585041880607605,
+      "log_odds_ratio": -0.5241442322731018,
+      "logits/chosen": -2.434957504272461,
+      "logits/rejected": -2.08172345161438,
+      "logps/chosen": -0.5419186353683472,
+      "logps/rejected": -0.8563257455825806,
+      "loss": 1.4995,
+      "nll_loss": 0.9753583669662476,
+      "rewards/accuracies": 0.7593749761581421,
+      "rewards/chosen": -0.5419186353683472,
+      "rewards/margins": 0.314407080411911,
+      "rewards/rejected": -0.8563257455825806,
+      "step": 265
+    },
+    {
+      "epoch": 0.28365068942875904,
+      "grad_norm": 12.8125,
+      "learning_rate": 1.8024887399919408e-06,
+      "log_odds_chosen": 0.686429500579834,
+      "log_odds_ratio": -0.49835652112960815,
+      "logits/chosen": -2.493675947189331,
+      "logits/rejected": -2.192899465560913,
+      "logps/chosen": -0.533765435218811,
+      "logps/rejected": -0.9061405062675476,
+      "loss": 1.4053,
+      "nll_loss": 0.9069935083389282,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": -0.533765435218811,
+      "rewards/margins": 0.3723750710487366,
+      "rewards/rejected": -0.9061405062675476,
+      "step": 270
+    },
+    {
+      "epoch": 0.28890347997373605,
+      "grad_norm": 11.5,
+      "learning_rate": 1.7913920265051946e-06,
+      "log_odds_chosen": 0.7045778036117554,
+      "log_odds_ratio": -0.49370041489601135,
+      "logits/chosen": -2.4899590015411377,
+      "logits/rejected": -2.1618402004241943,
+      "logps/chosen": -0.5214771032333374,
+      "logps/rejected": -0.9220815896987915,
+      "loss": 1.4176,
+      "nll_loss": 0.92388916015625,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.5214771032333374,
+      "rewards/margins": 0.4006044268608093,
+      "rewards/rejected": -0.9220815896987915,
+      "step": 275
+    },
+    {
+      "epoch": 0.29415627051871307,
+      "grad_norm": 9.5625,
+      "learning_rate": 1.780028204966859e-06,
+      "log_odds_chosen": 0.6810405254364014,
+      "log_odds_ratio": -0.4989449381828308,
+      "logits/chosen": -2.3327696323394775,
+      "logits/rejected": -2.0119078159332275,
+      "logps/chosen": -0.5228633880615234,
+      "logps/rejected": -0.8827990293502808,
+      "loss": 1.405,
+      "nll_loss": 0.9060786962509155,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.5228633880615234,
+      "rewards/margins": 0.3599356710910797,
+      "rewards/rejected": -0.8827990293502808,
+      "step": 280
+    },
+    {
+      "epoch": 0.2994090610636901,
+      "grad_norm": 10.8125,
+      "learning_rate": 1.768401110856859e-06,
+      "log_odds_chosen": 0.7910138964653015,
+      "log_odds_ratio": -0.47219276428222656,
+      "logits/chosen": -2.465003252029419,
+      "logits/rejected": -2.085939407348633,
+      "logps/chosen": -0.5146728754043579,
+      "logps/rejected": -0.9470351934432983,
+      "loss": 1.3015,
+      "nll_loss": 0.8292847871780396,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.5146728754043579,
+      "rewards/margins": 0.43236231803894043,
+      "rewards/rejected": -0.9470351934432983,
+      "step": 285
+    },
+    {
+      "epoch": 0.3046618516086671,
+      "grad_norm": 13.6875,
+      "learning_rate": 1.7565146685140167e-06,
+      "log_odds_chosen": 0.771044135093689,
+      "log_odds_ratio": -0.4853692948818207,
+      "logits/chosen": -2.4471678733825684,
+      "logits/rejected": -2.1012349128723145,
+      "logps/chosen": -0.5462040901184082,
+      "logps/rejected": -0.9886453747749329,
+      "loss": 1.3976,
+      "nll_loss": 0.9122269749641418,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.5462040901184082,
+      "rewards/margins": 0.4424411654472351,
+      "rewards/rejected": -0.9886453747749329,
+      "step": 290
+    },
+    {
+      "epoch": 0.3099146421536441,
+      "grad_norm": 12.0,
+      "learning_rate": 1.7443728898115224e-06,
+      "log_odds_chosen": 0.6316434144973755,
+      "log_odds_ratio": -0.5107887983322144,
+      "logits/chosen": -2.432225465774536,
+      "logits/rejected": -2.0828986167907715,
+      "logps/chosen": -0.5212147235870361,
+      "logps/rejected": -0.8626314997673035,
+      "loss": 1.3532,
+      "nll_loss": 0.8424150347709656,
+      "rewards/accuracies": 0.7406250238418579,
+      "rewards/chosen": -0.5212147235870361,
+      "rewards/margins": 0.34141671657562256,
+      "rewards/rejected": -0.8626314997673035,
+      "step": 295
+    },
+    {
+      "epoch": 0.31516743269862113,
+      "grad_norm": 19.875,
+      "learning_rate": 1.7319798728028616e-06,
+      "log_odds_chosen": 0.8003711700439453,
+      "log_odds_ratio": -0.4749313294887543,
+      "logits/chosen": -2.4634110927581787,
+      "logits/rejected": -2.111607313156128,
+      "logps/chosen": -0.5615866780281067,
+      "logps/rejected": -1.0098183155059814,
+      "loss": 1.4088,
+      "nll_loss": 0.9338866472244263,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.5615866780281067,
+      "rewards/margins": 0.44823163747787476,
+      "rewards/rejected": -1.0098183155059814,
+      "step": 300
+    },
+    {
+      "epoch": 0.32042022324359815,
+      "grad_norm": 17.25,
+      "learning_rate": 1.719339800338651e-06,
+      "log_odds_chosen": 0.8279815912246704,
+      "log_odds_ratio": -0.4675443172454834,
+      "logits/chosen": -2.5601465702056885,
+      "logits/rejected": -2.2116811275482178,
+      "logps/chosen": -0.5433454513549805,
+      "logps/rejected": -1.0226011276245117,
+      "loss": 1.3768,
+      "nll_loss": 0.9092954397201538,
+      "rewards/accuracies": 0.8031250238418579,
+      "rewards/chosen": -0.5433454513549805,
+      "rewards/margins": 0.479255735874176,
+      "rewards/rejected": -1.0226011276245117,
+      "step": 305
+    },
+    {
+      "epoch": 0.32567301378857516,
+      "grad_norm": 15.3125,
+      "learning_rate": 1.7064569386548585e-06,
+      "log_odds_chosen": 0.859075665473938,
+      "log_odds_ratio": -0.4543831944465637,
+      "logits/chosen": -2.531367301940918,
+      "logits/rejected": -2.2318122386932373,
+      "logps/chosen": -0.5256025195121765,
+      "logps/rejected": -1.0284937620162964,
+      "loss": 1.3533,
+      "nll_loss": 0.8989534378051758,
+      "rewards/accuracies": 0.8031250238418579,
+      "rewards/chosen": -0.5256025195121765,
+      "rewards/margins": 0.5028911828994751,
+      "rewards/rejected": -1.0284937620162964,
+      "step": 310
+    },
+    {
+      "epoch": 0.3309258043335522,
+      "grad_norm": 16.625,
+      "learning_rate": 1.6933356359328754e-06,
+      "log_odds_chosen": 0.7117995619773865,
+      "log_odds_ratio": -0.4905334413051605,
+      "logits/chosen": -2.5292108058929443,
+      "logits/rejected": -2.1856768131256104,
+      "logps/chosen": -0.5284509658813477,
+      "logps/rejected": -0.915407657623291,
+      "loss": 1.371,
+      "nll_loss": 0.8804505467414856,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.5284509658813477,
+      "rewards/margins": 0.3869567811489105,
+      "rewards/rejected": -0.915407657623291,
+      "step": 315
+    },
+    {
+      "epoch": 0.3361785948785292,
+      "grad_norm": 17.875,
+      "learning_rate": 1.679980320831934e-06,
+      "log_odds_chosen": 0.7291110754013062,
+      "log_odds_ratio": -0.4787971079349518,
+      "logits/chosen": -2.4682400226593018,
+      "logits/rejected": -2.2220332622528076,
+      "logps/chosen": -0.5479062795639038,
+      "logps/rejected": -0.9491809606552124,
+      "loss": 1.3781,
+      "nll_loss": 0.8992602229118347,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.5479062795639038,
+      "rewards/margins": 0.40127477049827576,
+      "rewards/rejected": -0.9491809606552124,
+      "step": 320
+    },
+    {
+      "epoch": 0.34143138542350626,
+      "grad_norm": 32.0,
+      "learning_rate": 1.6663955009943602e-06,
+      "log_odds_chosen": 0.9077841639518738,
+      "log_odds_ratio": -0.4515516757965088,
+      "logits/chosen": -2.4324584007263184,
+      "logits/rejected": -2.178394317626953,
+      "logps/chosen": -0.5766757726669312,
+      "logps/rejected": -1.1069071292877197,
+      "loss": 1.374,
+      "nll_loss": 0.9224408268928528,
+      "rewards/accuracies": 0.828125,
+      "rewards/chosen": -0.5766757726669312,
+      "rewards/margins": 0.530231237411499,
+      "rewards/rejected": -1.1069071292877197,
+      "step": 325
+    },
+    {
+      "epoch": 0.3466841759684833,
+      "grad_norm": 23.0,
+      "learning_rate": 1.6525857615241685e-06,
+      "log_odds_chosen": 0.733812689781189,
+      "log_odds_ratio": -0.4906436800956726,
+      "logits/chosen": -2.523135185241699,
+      "logits/rejected": -2.1835999488830566,
+      "logps/chosen": -0.5466452836990356,
+      "logps/rejected": -0.9662971496582031,
+      "loss": 1.4195,
+      "nll_loss": 0.9288629293441772,
+      "rewards/accuracies": 0.8031250238418579,
+      "rewards/chosen": -0.5466452836990356,
+      "rewards/margins": 0.4196518361568451,
+      "rewards/rejected": -0.9662971496582031,
+      "step": 330
+    },
+    {
+      "epoch": 0.3519369665134603,
+      "grad_norm": 21.875,
+      "learning_rate": 1.6385557634395136e-06,
+      "log_odds_chosen": 0.7822979688644409,
+      "log_odds_ratio": -0.47422999143600464,
+      "logits/chosen": -2.4535679817199707,
+      "logits/rejected": -2.2028393745422363,
+      "logps/chosen": -0.5340802669525146,
+      "logps/rejected": -0.9806568026542664,
+      "loss": 1.3555,
+      "nll_loss": 0.881304144859314,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.5340802669525146,
+      "rewards/margins": 0.44657665491104126,
+      "rewards/rejected": -0.9806568026542664,
+      "step": 335
+    },
+    {
+      "epoch": 0.3571897570584373,
+      "grad_norm": 21.5,
+      "learning_rate": 1.624310242099518e-06,
+      "log_odds_chosen": 0.7664231061935425,
+      "log_odds_ratio": -0.48080235719680786,
+      "logits/chosen": -2.453505039215088,
+      "logits/rejected": -2.18292498588562,
+      "logps/chosen": -0.5327800512313843,
+      "logps/rejected": -0.9523041844367981,
+      "loss": 1.4089,
+      "nll_loss": 0.9281209111213684,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": -0.5327800512313843,
+      "rewards/margins": 0.4195241332054138,
+      "rewards/rejected": -0.9523041844367981,
+      "step": 340
+    },
+    {
+      "epoch": 0.3624425476034143,
+      "grad_norm": 24.5,
+      "learning_rate": 1.609854005606009e-06,
+      "log_odds_chosen": 0.9470375776290894,
+      "log_odds_ratio": -0.4272763729095459,
+      "logits/chosen": -2.5423166751861572,
+      "logits/rejected": -2.210846424102783,
+      "logps/chosen": -0.5365777015686035,
+      "logps/rejected": -1.076774001121521,
+      "loss": 1.3329,
+      "nll_loss": 0.9056490063667297,
+      "rewards/accuracies": 0.815625011920929,
+      "rewards/chosen": -0.5365777015686035,
+      "rewards/margins": 0.5401962995529175,
+      "rewards/rejected": -1.076774001121521,
+      "step": 345
+    },
+    {
+      "epoch": 0.36769533814839134,
+      "grad_norm": 15.125,
+      "learning_rate": 1.5951919331807048e-06,
+      "log_odds_chosen": 0.9901137351989746,
+      "log_odds_ratio": -0.43201208114624023,
+      "logits/chosen": -2.3910915851593018,
+      "logits/rejected": -2.085310935974121,
+      "logps/chosen": -0.5491678714752197,
+      "logps/rejected": -1.141390085220337,
+      "loss": 1.3711,
+      "nll_loss": 0.9390678405761719,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": -0.5491678714752197,
+      "rewards/margins": 0.5922220945358276,
+      "rewards/rejected": -1.141390085220337,
+      "step": 350
+    },
+    {
+      "epoch": 0.37294812869336835,
+      "grad_norm": 19.25,
+      "learning_rate": 1.5803289735183949e-06,
+      "log_odds_chosen": 0.9613128900527954,
+      "log_odds_ratio": -0.43703293800354004,
+      "logits/chosen": -2.404744863510132,
+      "logits/rejected": -2.0907814502716064,
+      "logps/chosen": -0.5635210871696472,
+      "logps/rejected": -1.1492810249328613,
+      "loss": 1.3534,
+      "nll_loss": 0.9164144396781921,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.5635210871696472,
+      "rewards/margins": 0.5857599377632141,
+      "rewards/rejected": -1.1492810249328613,
+      "step": 355
+    },
+    {
+      "epoch": 0.37820091923834537,
+      "grad_norm": 32.25,
+      "learning_rate": 1.5652701431166717e-06,
+      "log_odds_chosen": 0.9359542727470398,
+      "log_odds_ratio": -0.4396037459373474,
+      "logits/chosen": -2.4650635719299316,
+      "logits/rejected": -2.122915267944336,
+      "logps/chosen": -0.5267240405082703,
+      "logps/rejected": -1.0681325197219849,
+      "loss": 1.3381,
+      "nll_loss": 0.8984518051147461,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.5267240405082703,
+      "rewards/margins": 0.5414084792137146,
+      "rewards/rejected": -1.0681325197219849,
+      "step": 360
+    },
+    {
+      "epoch": 0.3834537097833224,
+      "grad_norm": 22.5,
+      "learning_rate": 1.550020524582781e-06,
+      "log_odds_chosen": 0.9607855677604675,
+      "log_odds_ratio": -0.4296341836452484,
+      "logits/chosen": -2.556321620941162,
+      "logits/rejected": -2.233931064605713,
+      "logps/chosen": -0.5581452250480652,
+      "logps/rejected": -1.131134033203125,
+      "loss": 1.2919,
+      "nll_loss": 0.8622277975082397,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.5581452250480652,
+      "rewards/margins": 0.5729888677597046,
+      "rewards/rejected": -1.131134033203125,
+      "step": 365
+    },
+    {
+      "epoch": 0.3887065003282994,
+      "grad_norm": 20.375,
+      "learning_rate": 1.5345852649181553e-06,
+      "log_odds_chosen": 0.9939554333686829,
+      "log_odds_ratio": -0.4331156313419342,
+      "logits/chosen": -2.4889018535614014,
+      "logits/rejected": -2.2245144844055176,
+      "logps/chosen": -0.5625091791152954,
+      "logps/rejected": -1.159073829650879,
+      "loss": 1.3688,
+      "nll_loss": 0.9356663823127747,
+      "rewards/accuracies": 0.840624988079071,
+      "rewards/chosen": -0.5625091791152954,
+      "rewards/margins": 0.5965645909309387,
+      "rewards/rejected": -1.159073829650879,
+      "step": 370
+    },
+    {
+      "epoch": 0.3939592908732764,
+      "grad_norm": 23.625,
+      "learning_rate": 1.5189695737812151e-06,
+      "log_odds_chosen": 1.057094931602478,
+      "log_odds_ratio": -0.4173505902290344,
+      "logits/chosen": -2.63775634765625,
+      "logits/rejected": -2.2736358642578125,
+      "logps/chosen": -0.5382205843925476,
+      "logps/rejected": -1.1550116539001465,
+      "loss": 1.3662,
+      "nll_loss": 0.9488565325737,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.5382205843925476,
+      "rewards/margins": 0.6167910099029541,
+      "rewards/rejected": -1.1550116539001465,
+      "step": 375
+    },
+    {
+      "epoch": 0.39921208141825343,
+      "grad_norm": 20.375,
+      "learning_rate": 1.5031787217290216e-06,
+      "log_odds_chosen": 1.2109272480010986,
+      "log_odds_ratio": -0.40476536750793457,
+      "logits/chosen": -2.441784143447876,
+      "logits/rejected": -2.141080856323242,
+      "logps/chosen": -0.5574549436569214,
+      "logps/rejected": -1.3256219625473022,
+      "loss": 1.3395,
+      "nll_loss": 0.9347711801528931,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.5574549436569214,
+      "rewards/margins": 0.7681670188903809,
+      "rewards/rejected": -1.3256219625473022,
+      "step": 380
+    },
+    {
+      "epoch": 0.40446487196323044,
+      "grad_norm": 22.125,
+      "learning_rate": 1.487218038438377e-06,
+      "log_odds_chosen": 1.0492345094680786,
+      "log_odds_ratio": -0.41920414566993713,
+      "logits/chosen": -2.4877960681915283,
+      "logits/rejected": -2.2220120429992676,
+      "logps/chosen": -0.5476792454719543,
+      "logps/rejected": -1.1791220903396606,
+      "loss": 1.3255,
+      "nll_loss": 0.9063073992729187,
+      "rewards/accuracies": 0.8218749761581421,
+      "rewards/chosen": -0.5476792454719543,
+      "rewards/margins": 0.6314427256584167,
+      "rewards/rejected": -1.1791220903396606,
+      "step": 385
+    },
+    {
+      "epoch": 0.40971766250820746,
+      "grad_norm": 52.5,
+      "learning_rate": 1.4710929109069672e-06,
+      "log_odds_chosen": 1.1698648929595947,
+      "log_odds_ratio": -0.4003461003303528,
+      "logits/chosen": -2.450030565261841,
+      "logits/rejected": -2.1449716091156006,
+      "logps/chosen": -0.5605112314224243,
+      "logps/rejected": -1.2878248691558838,
+      "loss": 1.3523,
+      "nll_loss": 0.9519191980361938,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.5605112314224243,
+      "rewards/margins": 0.7273136377334595,
+      "rewards/rejected": -1.2878248691558838,
+      "step": 390
+    },
+    {
+      "epoch": 0.41497045305318453,
+      "grad_norm": 23.75,
+      "learning_rate": 1.4548087816351614e-06,
+      "log_odds_chosen": 1.1297777891159058,
+      "log_odds_ratio": -0.41146859526634216,
+      "logits/chosen": -2.514195442199707,
+      "logits/rejected": -2.1877148151397705,
+      "logps/chosen": -0.5281041860580444,
+      "logps/rejected": -1.2085294723510742,
+      "loss": 1.2817,
+      "nll_loss": 0.8702155947685242,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -0.5281041860580444,
+      "rewards/margins": 0.6804252862930298,
+      "rewards/rejected": -1.2085294723510742,
+      "step": 395
+    },
+    {
+      "epoch": 0.42022324359816154,
+      "grad_norm": 68.0,
+      "learning_rate": 1.4383711467890773e-06,
+      "log_odds_chosen": 1.1593742370605469,
+      "log_odds_ratio": -0.4072793424129486,
+      "logits/chosen": -2.410384178161621,
+      "logits/rejected": -2.1880173683166504,
+      "logps/chosen": -0.5577239990234375,
+      "logps/rejected": -1.2925007343292236,
+      "loss": 1.2823,
+      "nll_loss": 0.8749955892562866,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -0.5577239990234375,
+      "rewards/margins": 0.7347767353057861,
+      "rewards/rejected": -1.2925007343292236,
+      "step": 400
+    },
+    {
+      "epoch": 0.42547603414313856,
+      "grad_norm": 26.75,
+      "learning_rate": 1.4217855543455323e-06,
+      "log_odds_chosen": 1.0840833187103271,
+      "log_odds_ratio": -0.4106718599796295,
+      "logits/chosen": -2.384483575820923,
+      "logits/rejected": -2.11120343208313,
+      "logps/chosen": -0.5574430227279663,
+      "logps/rejected": -1.2079960107803345,
+      "loss": 1.3143,
+      "nll_loss": 0.9036461710929871,
+      "rewards/accuracies": 0.8343750238418579,
+      "rewards/chosen": -0.5574430227279663,
+      "rewards/margins": 0.6505529880523682,
+      "rewards/rejected": -1.2079960107803345,
+      "step": 405
+    },
+    {
+      "epoch": 0.4307288246881156,
+      "grad_norm": 22.625,
+      "learning_rate": 1.4050576022195082e-06,
+      "log_odds_chosen": 0.8836471438407898,
+      "log_odds_ratio": -0.4627167582511902,
+      "logits/chosen": -2.4845831394195557,
+      "logits/rejected": -2.3066840171813965,
+      "logps/chosen": -0.5467715263366699,
+      "logps/rejected": -1.0581128597259521,
+      "loss": 1.3641,
+      "nll_loss": 0.9014018774032593,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": -0.5467715263366699,
+      "rewards/margins": 0.5113412141799927,
+      "rewards/rejected": -1.0581128597259521,
+      "step": 410
+    },
+    {
+      "epoch": 0.4359816152330926,
+      "grad_norm": 34.0,
+      "learning_rate": 1.3881929363747626e-06,
+      "log_odds_chosen": 1.0594258308410645,
+      "log_odds_ratio": -0.4148578643798828,
+      "logits/chosen": -2.3405816555023193,
+      "logits/rejected": -2.115149974822998,
+      "logps/chosen": -0.5290128588676453,
+      "logps/rejected": -1.1592894792556763,
+      "loss": 1.3394,
+      "nll_loss": 0.9245734214782715,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.5290128588676453,
+      "rewards/margins": 0.6302765607833862,
+      "rewards/rejected": -1.1592894792556763,
+      "step": 415
+    },
+    {
+      "epoch": 0.4412344057780696,
+      "grad_norm": 47.0,
+      "learning_rate": 1.3711972489182206e-06,
+      "log_odds_chosen": 1.4167802333831787,
+      "log_odds_ratio": -0.3603227734565735,
+      "logits/chosen": -2.4658875465393066,
+      "logits/rejected": -2.18940806388855,
+      "logps/chosen": -0.5862340331077576,
+      "logps/rejected": -1.5004864931106567,
+      "loss": 1.305,
+      "nll_loss": 0.9447038769721985,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.5862340331077576,
+      "rewards/margins": 0.9142524003982544,
+      "rewards/rejected": -1.5004864931106567,
+      "step": 420
+    },
+    {
+      "epoch": 0.4464871963230466,
+      "grad_norm": 19.75,
+      "learning_rate": 1.3540762761787936e-06,
+      "log_odds_chosen": 1.2667293548583984,
+      "log_odds_ratio": -0.3922019898891449,
+      "logits/chosen": -2.449897289276123,
+      "logits/rejected": -2.1496291160583496,
+      "logps/chosen": -0.5754435658454895,
+      "logps/rejected": -1.3866373300552368,
+      "loss": 1.2676,
+      "nll_loss": 0.8754428625106812,
+      "rewards/accuracies": 0.859375,
+      "rewards/chosen": -0.5754435658454895,
+      "rewards/margins": 0.8111938238143921,
+      "rewards/rejected": -1.3866373300552368,
+      "step": 425
+    },
+    {
+      "epoch": 0.45173998686802364,
+      "grad_norm": 39.0,
+      "learning_rate": 1.3368357967712725e-06,
+      "log_odds_chosen": 1.156019687652588,
+      "log_odds_ratio": -0.395340234041214,
+      "logits/chosen": -2.553677797317505,
+      "logits/rejected": -2.2673325538635254,
+      "logps/chosen": -0.5371165871620178,
+      "logps/rejected": -1.2541286945343018,
+      "loss": 1.3117,
+      "nll_loss": 0.9164005517959595,
+      "rewards/accuracies": 0.840624988079071,
+      "rewards/chosen": -0.5371165871620178,
+      "rewards/margins": 0.7170120477676392,
+      "rewards/rejected": -1.2541286945343018,
+      "step": 430
+    },
+    {
+      "epoch": 0.45699277741300065,
+      "grad_norm": 44.25,
+      "learning_rate": 1.3194816296459482e-06,
+      "log_odds_chosen": 1.1215965747833252,
+      "log_odds_ratio": -0.40178972482681274,
+      "logits/chosen": -2.4841268062591553,
+      "logits/rejected": -2.2464358806610107,
+      "logps/chosen": -0.6227961182594299,
+      "logps/rejected": -1.3194401264190674,
+      "loss": 1.3687,
+      "nll_loss": 0.9668703079223633,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -0.6227961182594299,
+      "rewards/margins": 0.6966440081596375,
+      "rewards/rejected": -1.3194401264190674,
+      "step": 435
+    },
+    {
+      "epoch": 0.46224556795797767,
+      "grad_norm": 30.625,
+      "learning_rate": 1.302019632124619e-06,
+      "log_odds_chosen": 1.4459072351455688,
+      "log_odds_ratio": -0.3312341868877411,
+      "logits/chosen": -2.497469902038574,
+      "logits/rejected": -2.215177297592163,
+      "logps/chosen": -0.5155361294746399,
+      "logps/rejected": -1.4294028282165527,
+      "loss": 1.227,
+      "nll_loss": 0.8957819938659668,
+      "rewards/accuracies": 0.8968750238418579,
+      "rewards/chosen": -0.5155361294746399,
+      "rewards/margins": 0.9138666391372681,
+      "rewards/rejected": -1.4294028282165527,
+      "step": 440
+    },
+    {
+      "epoch": 0.4674983585029547,
+      "grad_norm": 27.5,
+      "learning_rate": 1.284455697923646e-06,
+      "log_odds_chosen": 1.5342215299606323,
+      "log_odds_ratio": -0.3261391222476959,
+      "logits/chosen": -2.5461294651031494,
+      "logits/rejected": -2.2099266052246094,
+      "logps/chosen": -0.5843450427055359,
+      "logps/rejected": -1.5760066509246826,
+      "loss": 1.312,
+      "nll_loss": 0.9858700037002563,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -0.5843450427055359,
+      "rewards/margins": 0.991661548614502,
+      "rewards/rejected": -1.5760066509246826,
+      "step": 445
+    },
+    {
+      "epoch": 0.4727511490479317,
+      "grad_norm": 43.0,
+      "learning_rate": 1.2667957551647261e-06,
+      "log_odds_chosen": 1.2222964763641357,
+      "log_odds_ratio": -0.3712048828601837,
+      "logits/chosen": -2.5557785034179688,
+      "logits/rejected": -2.261915922164917,
+      "logps/chosen": -0.5360510945320129,
+      "logps/rejected": -1.2696157693862915,
+      "loss": 1.233,
+      "nll_loss": 0.8618295788764954,
+      "rewards/accuracies": 0.8656250238418579,
+      "rewards/chosen": -0.5360510945320129,
+      "rewards/margins": 0.7335647344589233,
+      "rewards/rejected": -1.2696157693862915,
+      "step": 450
+    },
+    {
+      "epoch": 0.4780039395929087,
+      "grad_norm": 50.5,
+      "learning_rate": 1.24904576437405e-06,
+      "log_odds_chosen": 1.1964861154556274,
+      "log_odds_ratio": -0.380424439907074,
+      "logits/chosen": -2.387500762939453,
+      "logits/rejected": -2.2171878814697266,
+      "logps/chosen": -0.5144879221916199,
+      "logps/rejected": -1.2391068935394287,
+      "loss": 1.182,
+      "nll_loss": 0.801527202129364,
+      "rewards/accuracies": 0.8843749761581421,
+      "rewards/chosen": -0.5144879221916199,
+      "rewards/margins": 0.7246190309524536,
+      "rewards/rejected": -1.2391068935394287,
+      "step": 455
+    },
+    {
+      "epoch": 0.4832567301378857,
+      "grad_norm": 34.5,
+      "learning_rate": 1.2312117164705265e-06,
+      "log_odds_chosen": 1.319461703300476,
+      "log_odds_ratio": -0.37714654207229614,
+      "logits/chosen": -2.5138354301452637,
+      "logits/rejected": -2.2482171058654785,
+      "logps/chosen": -0.5467159748077393,
+      "logps/rejected": -1.3964442014694214,
+      "loss": 1.2877,
+      "nll_loss": 0.9105404019355774,
+      "rewards/accuracies": 0.840624988079071,
+      "rewards/chosen": -0.5467159748077393,
+      "rewards/margins": 0.8497281074523926,
+      "rewards/rejected": -1.3964442014694214,
+      "step": 460
+    },
+    {
+      "epoch": 0.4885095206828628,
+      "grad_norm": 43.5,
+      "learning_rate": 1.2132996307437468e-06,
+      "log_odds_chosen": 1.3355519771575928,
+      "log_odds_ratio": -0.3902519941329956,
+      "logits/chosen": -2.482901096343994,
+      "logits/rejected": -2.2286696434020996,
+      "logps/chosen": -0.566125750541687,
+      "logps/rejected": -1.4363183975219727,
+      "loss": 1.3035,
+      "nll_loss": 0.9132728576660156,
+      "rewards/accuracies": 0.815625011920929,
+      "rewards/chosen": -0.566125750541687,
+      "rewards/margins": 0.8701925277709961,
+      "rewards/rejected": -1.4363183975219727,
+      "step": 465
+    },
+    {
+      "epoch": 0.4937623112278398,
+      "grad_norm": 83.0,
+      "learning_rate": 1.1953155528223725e-06,
+      "log_odds_chosen": 1.1865278482437134,
+      "log_odds_ratio": -0.392407089471817,
+      "logits/chosen": -2.425886869430542,
+      "logits/rejected": -2.155287265777588,
+      "logps/chosen": -0.5029312968254089,
+      "logps/rejected": -1.2368618249893188,
+      "loss": 1.2357,
+      "nll_loss": 0.8432880640029907,
+      "rewards/accuracies": 0.840624988079071,
+      "rewards/chosen": -0.5029312968254089,
+      "rewards/margins": 0.7339304089546204,
+      "rewards/rejected": -1.2368618249893188,
+      "step": 470
+    },
+    {
+      "epoch": 0.4990151017728168,
+      "grad_norm": 40.5,
+      "learning_rate": 1.1772655526336367e-06,
+      "log_odds_chosen": 1.4356929063796997,
+      "log_odds_ratio": -0.3839671313762665,
+      "logits/chosen": -2.398430585861206,
+      "logits/rejected": -2.104560136795044,
+      "logps/chosen": -0.5578696131706238,
+      "logps/rejected": -1.5088526010513306,
+      "loss": 1.2412,
+      "nll_loss": 0.8572656512260437,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.5578696131706238,
+      "rewards/margins": 0.9509830474853516,
+      "rewards/rejected": -1.5088526010513306,
+      "step": 475
+    },
+    {
+      "epoch": 0.5042678923177938,
+      "grad_norm": 28.25,
+      "learning_rate": 1.1591557223546393e-06,
+      "log_odds_chosen": 1.148279070854187,
+      "log_odds_ratio": -0.3996050953865051,
+      "logits/chosen": -2.365521192550659,
+      "logits/rejected": -2.152665615081787,
+      "logps/chosen": -0.566467821598053,
+      "logps/rejected": -1.2856696844100952,
+      "loss": 1.3237,
+      "nll_loss": 0.9241225123405457,
+      "rewards/accuracies": 0.8531249761581421,
+      "rewards/chosen": -0.566467821598053,
+      "rewards/margins": 0.719201922416687,
+      "rewards/rejected": -1.2856696844100952,
+      "step": 480
+    },
+    {
+      "epoch": 0.5095206828627709,
+      "grad_norm": 36.25,
+      "learning_rate": 1.1409921743561381e-06,
+      "log_odds_chosen": 1.1759016513824463,
+      "log_odds_ratio": -0.41472458839416504,
+      "logits/chosen": -2.404526472091675,
+      "logits/rejected": -2.2163596153259277,
+      "logps/chosen": -0.5324310064315796,
+      "logps/rejected": -1.2714060544967651,
+      "loss": 1.293,
+      "nll_loss": 0.8782441020011902,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.5324310064315796,
+      "rewards/margins": 0.7389749884605408,
+      "rewards/rejected": -1.2714060544967651,
+      "step": 485
+    },
+    {
+      "epoch": 0.5147734734077478,
+      "grad_norm": 223.0,
+      "learning_rate": 1.1227810391395199e-06,
+      "log_odds_chosen": 1.385846734046936,
+      "log_odds_ratio": -0.3814238905906677,
+      "logits/chosen": -2.4934306144714355,
+      "logits/rejected": -2.2085797786712646,
+      "logps/chosen": -0.5657092928886414,
+      "logps/rejected": -1.4650784730911255,
+      "loss": 1.2852,
+      "nll_loss": 0.9037421345710754,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -0.5657092928886414,
+      "rewards/margins": 0.8993691205978394,
+      "rewards/rejected": -1.4650784730911255,
+      "step": 490
+    },
+    {
+      "epoch": 0.5200262639527249,
+      "grad_norm": 27.625,
+      "learning_rate": 1.1045284632676535e-06,
+      "log_odds_chosen": 1.637117624282837,
+      "log_odds_ratio": -0.36074963212013245,
+      "logits/chosen": -2.505157947540283,
+      "logits/rejected": -2.18147611618042,
+      "logps/chosen": -0.5794259905815125,
+      "logps/rejected": -1.7134405374526978,
+      "loss": 1.2555,
+      "nll_loss": 0.8947887420654297,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.5794259905815125,
+      "rewards/margins": 1.1340144872665405,
+      "rewards/rejected": -1.7134405374526978,
+      "step": 495
+    },
+    {
+      "epoch": 0.525279054497702,
+      "grad_norm": 25.375,
+      "learning_rate": 1.0862406072903223e-06,
+      "log_odds_chosen": 1.4640438556671143,
+      "log_odds_ratio": -0.36846035718917847,
+      "logits/chosen": -2.5681748390197754,
+      "logits/rejected": -2.232964038848877,
+      "logps/chosen": -0.5701361298561096,
+      "logps/rejected": -1.5233440399169922,
+      "loss": 1.2435,
+      "nll_loss": 0.8750120997428894,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.5701361298561096,
+      "rewards/margins": 0.9532078504562378,
+      "rewards/rejected": -1.5233440399169922,
+      "step": 500
+    },
+    {
+      "epoch": 0.5305318450426789,
+      "grad_norm": 23.75,
+      "learning_rate": 1.067923643664936e-06,
+      "log_odds_chosen": 1.4654853343963623,
+      "log_odds_ratio": -0.35504215955734253,
+      "logits/chosen": -2.502295970916748,
+      "logits/rejected": -2.181178569793701,
+      "logps/chosen": -0.5419307947158813,
+      "logps/rejected": -1.5056110620498657,
+      "loss": 1.2431,
+      "nll_loss": 0.8880621790885925,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -0.5419307947158813,
+      "rewards/margins": 0.9636803865432739,
+      "rewards/rejected": -1.5056110620498657,
+      "step": 505
+    },
+    {
+      "epoch": 0.535784635587656,
+      "grad_norm": 35.0,
+      "learning_rate": 1.0495837546732222e-06,
+      "log_odds_chosen": 1.5194576978683472,
+      "log_odds_ratio": -0.37253108620643616,
+      "logits/chosen": -2.413229465484619,
+      "logits/rejected": -2.184525728225708,
+      "logps/chosen": -0.5820909738540649,
+      "logps/rejected": -1.6039245128631592,
+      "loss": 1.3383,
+      "nll_loss": 0.9657222032546997,
+      "rewards/accuracies": 0.8531249761581421,
+      "rewards/chosen": -0.5820909738540649,
+      "rewards/margins": 1.0218335390090942,
+      "rewards/rejected": -1.6039245128631592,
+      "step": 510
+    },
+    {
+      "epoch": 0.541037426132633,
+      "grad_norm": 32.25,
+      "learning_rate": 1.0312271303346038e-06,
+      "log_odds_chosen": 1.314542531967163,
+      "log_odds_ratio": -0.396615594625473,
+      "logits/chosen": -2.545009136199951,
+      "logits/rejected": -2.301347017288208,
+      "logps/chosen": -0.562983512878418,
+      "logps/rejected": -1.4147989749908447,
+      "loss": 1.3396,
+      "nll_loss": 0.9429594278335571,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.562983512878418,
+      "rewards/margins": 0.851815402507782,
+      "rewards/rejected": -1.4147989749908447,
+      "step": 515
+    },
+    {
+      "epoch": 0.54629021667761,
+      "grad_norm": 47.75,
+      "learning_rate": 1.0128599663169628e-06,
+      "log_odds_chosen": 1.084162950515747,
+      "log_odds_ratio": -0.4125159680843353,
+      "logits/chosen": -2.4878952503204346,
+      "logits/rejected": -2.245314359664917,
+      "logps/chosen": -0.5130459666252136,
+      "logps/rejected": -1.1407145261764526,
+      "loss": 1.3142,
+      "nll_loss": 0.901726245880127,
+      "rewards/accuracies": 0.8343750238418579,
+      "rewards/chosen": -0.5130459666252136,
+      "rewards/margins": 0.6276686191558838,
+      "rewards/rejected": -1.1407145261764526,
+      "step": 520
+    },
+    {
+      "epoch": 0.551543007222587,
+      "grad_norm": 74.0,
+      "learning_rate": 9.944884618454995e-07,
+      "log_odds_chosen": 1.5892114639282227,
+      "log_odds_ratio": -0.3318895697593689,
+      "logits/chosen": -2.5057709217071533,
+      "logits/rejected": -2.110414505004883,
+      "logps/chosen": -0.5387485027313232,
+      "logps/rejected": -1.5842351913452148,
+      "loss": 1.2507,
+      "nll_loss": 0.9187744855880737,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -0.5387485027313232,
+      "rewards/margins": 1.0454866886138916,
+      "rewards/rejected": -1.5842351913452148,
+      "step": 525
+    },
+    {
+      "epoch": 0.556795797767564,
+      "grad_norm": 73.0,
+      "learning_rate": 9.7611881761039e-07,
+      "log_odds_chosen": 1.6785354614257812,
+      "log_odds_ratio": -0.3325541019439697,
+      "logits/chosen": -2.462970733642578,
+      "logits/rejected": -2.220999240875244,
+      "logps/chosen": -0.6112784147262573,
+      "logps/rejected": -1.7486165761947632,
+      "loss": 1.3345,
+      "nll_loss": 1.0019125938415527,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -0.6112784147262573,
+      "rewards/margins": 1.1373381614685059,
+      "rewards/rejected": -1.7486165761947632,
+      "step": 530
+    },
+    {
+      "epoch": 0.562048588312541,
+      "grad_norm": 36.0,
+      "learning_rate": 9.57757233673949e-07,
+      "log_odds_chosen": 1.4563804864883423,
+      "log_odds_ratio": -0.36100301146507263,
+      "logits/chosen": -2.4625449180603027,
+      "logits/rejected": -2.1974194049835205,
+      "logps/chosen": -0.5516290664672852,
+      "logps/rejected": -1.515852928161621,
+      "loss": 1.2346,
+      "nll_loss": 0.8735913038253784,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.5516290664672852,
+      "rewards/margins": 0.9642238616943359,
+      "rewards/rejected": -1.515852928161621,
+      "step": 535
+    },
+    {
+      "epoch": 0.5673013788575181,
+      "grad_norm": 36.0,
+      "learning_rate": 9.394099073780066e-07,
+      "log_odds_chosen": 1.4258034229278564,
+      "log_odds_ratio": -0.36102384328842163,
+      "logits/chosen": -2.5518240928649902,
+      "logits/rejected": -2.2731943130493164,
+      "logps/chosen": -0.5590797662734985,
+      "logps/rejected": -1.4916408061981201,
+      "loss": 1.2649,
+      "nll_loss": 0.9038828015327454,
+      "rewards/accuracies": 0.8343750238418579,
+      "rewards/chosen": -0.5590797662734985,
+      "rewards/margins": 0.9325610399246216,
+      "rewards/rejected": -1.4916408061981201,
+      "step": 540
+    },
+    {
+      "epoch": 0.572554169402495,
+      "grad_norm": 64.0,
+      "learning_rate": 9.210830312521991e-07,
+      "log_odds_chosen": 1.605653166770935,
+      "log_odds_ratio": -0.338408887386322,
+      "logits/chosen": -2.5818705558776855,
+      "logits/rejected": -2.311086416244507,
+      "logps/chosen": -0.5466338992118835,
+      "logps/rejected": -1.6157076358795166,
+      "loss": 1.3041,
+      "nll_loss": 0.9657169580459595,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.5466338992118835,
+      "rewards/margins": 1.0690736770629883,
+      "rewards/rejected": -1.6157076358795166,
+      "step": 545
+    },
+    {
+      "epoch": 0.5778069599474721,
+      "grad_norm": 57.25,
+      "learning_rate": 9.027827909238901e-07,
+      "log_odds_chosen": 1.8266319036483765,
+      "log_odds_ratio": -0.3148033320903778,
+      "logits/chosen": -2.48435115814209,
+      "logits/rejected": -2.166586399078369,
+      "logps/chosen": -0.5606757402420044,
+      "logps/rejected": -1.8262403011322021,
+      "loss": 1.2896,
+      "nll_loss": 0.97479248046875,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -0.5606757402420044,
+      "rewards/margins": 1.2655649185180664,
+      "rewards/rejected": -1.8262403011322021,
+      "step": 550
+    },
+    {
+      "epoch": 0.5830597504924491,
+      "grad_norm": 47.5,
+      "learning_rate": 8.845153630304139e-07,
+      "log_odds_chosen": 1.663627028465271,
+      "log_odds_ratio": -0.3311775028705597,
+      "logits/chosen": -2.4467196464538574,
+      "logits/rejected": -2.2170791625976562,
+      "logps/chosen": -0.5954256057739258,
+      "logps/rejected": -1.7486213445663452,
+      "loss": 1.2756,
+      "nll_loss": 0.9444006085395813,
+      "rewards/accuracies": 0.878125011920929,
+      "rewards/chosen": -0.5954256057739258,
+      "rewards/margins": 1.1531956195831299,
+      "rewards/rejected": -1.7486213445663452,
+      "step": 555
+    },
+    {
+      "epoch": 0.5883125410374261,
+      "grad_norm": 45.5,
+      "learning_rate": 8.662869131343606e-07,
+      "log_odds_chosen": 1.4104127883911133,
+      "log_odds_ratio": -0.39170485734939575,
+      "logits/chosen": -2.5256340503692627,
+      "logits/rejected": -2.213099241256714,
+      "logps/chosen": -0.5794434547424316,
+      "logps/rejected": -1.5348830223083496,
+      "loss": 1.3375,
+      "nll_loss": 0.9457686543464661,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.5794434547424316,
+      "rewards/margins": 0.955439567565918,
+      "rewards/rejected": -1.5348830223083496,
+      "step": 560
+    },
+    {
+      "epoch": 0.5935653315824031,
+      "grad_norm": 72.0,
+      "learning_rate": 8.481035936425926e-07,
+      "log_odds_chosen": 1.1931443214416504,
+      "log_odds_ratio": -0.3968736529350281,
+      "logits/chosen": -2.56657338142395,
+      "logits/rejected": -2.191765785217285,
+      "logps/chosen": -0.5020140409469604,
+      "logps/rejected": -1.227325201034546,
+      "loss": 1.2792,
+      "nll_loss": 0.8822978138923645,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.5020140409469604,
+      "rewards/margins": 0.7253111600875854,
+      "rewards/rejected": -1.227325201034546,
+      "step": 565
+    },
+    {
+      "epoch": 0.5988181221273802,
+      "grad_norm": 37.25,
+      "learning_rate": 8.29971541729707e-07,
+      "log_odds_chosen": 1.549736738204956,
+      "log_odds_ratio": -0.3515177369117737,
+      "logits/chosen": -2.526639461517334,
+      "logits/rejected": -2.2129909992218018,
+      "logps/chosen": -0.5579209923744202,
+      "logps/rejected": -1.5522905588150024,
+      "loss": 1.2671,
+      "nll_loss": 0.9156067967414856,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -0.5579209923744202,
+      "rewards/margins": 0.9943695068359375,
+      "rewards/rejected": -1.5522905588150024,
+      "step": 570
+    },
+    {
+      "epoch": 0.6040709126723572,
+      "grad_norm": 78.5,
+      "learning_rate": 8.118968772666338e-07,
+      "log_odds_chosen": 1.9918029308319092,
+      "log_odds_ratio": -0.33105817437171936,
+      "logits/chosen": -2.5553669929504395,
+      "logits/rejected": -2.255253791809082,
+      "logps/chosen": -0.6138916015625,
+      "logps/rejected": -2.058006763458252,
+      "loss": 1.261,
+      "nll_loss": 0.9299631118774414,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -0.6138916015625,
+      "rewards/margins": 1.4441156387329102,
+      "rewards/rejected": -2.058006763458252,
+      "step": 575
+    },
+    {
+      "epoch": 0.6093237032173342,
+      "grad_norm": 32.25,
+      "learning_rate": 7.938857007550796e-07,
+      "log_odds_chosen": 1.5095994472503662,
+      "log_odds_ratio": -0.36659660935401917,
+      "logits/chosen": -2.4949142932891846,
+      "logits/rejected": -2.217616558074951,
+      "logps/chosen": -0.5693143606185913,
+      "logps/rejected": -1.5770564079284668,
+      "loss": 1.2795,
+      "nll_loss": 0.9128750562667847,
+      "rewards/accuracies": 0.8531249761581421,
+      "rewards/chosen": -0.5693143606185913,
+      "rewards/margins": 1.007741928100586,
+      "rewards/rejected": -1.5770564079284668,
+      "step": 580
+    },
+    {
+      "epoch": 0.6145764937623113,
+      "grad_norm": 44.5,
+      "learning_rate": 7.759440912685042e-07,
+      "log_odds_chosen": 1.313231348991394,
+      "log_odds_ratio": -0.39206627011299133,
+      "logits/chosen": -2.4366495609283447,
+      "logits/rejected": -2.1927928924560547,
+      "logps/chosen": -0.5398006439208984,
+      "logps/rejected": -1.4002869129180908,
+      "loss": 1.2987,
+      "nll_loss": 0.9065971374511719,
+      "rewards/accuracies": 0.8218749761581421,
+      "rewards/chosen": -0.5398006439208984,
+      "rewards/margins": 0.8604865074157715,
+      "rewards/rejected": -1.4002869129180908,
+      "step": 585
+    },
+    {
+      "epoch": 0.6198292843072882,
+      "grad_norm": 41.75,
+      "learning_rate": 7.580781044003324e-07,
+      "log_odds_chosen": 1.5099523067474365,
+      "log_odds_ratio": -0.37858808040618896,
+      "logits/chosen": -2.5282700061798096,
+      "logits/rejected": -2.1985023021698,
+      "logps/chosen": -0.554128110408783,
+      "logps/rejected": -1.5762214660644531,
+      "loss": 1.2642,
+      "nll_loss": 0.885593593120575,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.554128110408783,
+      "rewards/margins": 1.022093415260315,
+      "rewards/rejected": -1.5762214660644531,
+      "step": 590
+    },
+    {
+      "epoch": 0.6250820748522653,
+      "grad_norm": 94.0,
+      "learning_rate": 7.402937702200904e-07,
+      "log_odds_chosen": 1.7455905675888062,
+      "log_odds_ratio": -0.3350276052951813,
+      "logits/chosen": -2.5306236743927,
+      "logits/rejected": -2.249689817428589,
+      "logps/chosen": -0.5238341093063354,
+      "logps/rejected": -1.7180259227752686,
+      "loss": 1.2212,
+      "nll_loss": 0.8861449956893921,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.5238341093063354,
+      "rewards/margins": 1.1941916942596436,
+      "rewards/rejected": -1.7180259227752686,
+      "step": 595
+    },
+    {
+      "epoch": 0.6303348653972423,
+      "grad_norm": 57.0,
+      "learning_rate": 7.225970912381556e-07,
+      "log_odds_chosen": 1.5003291368484497,
+      "log_odds_ratio": -0.391081303358078,
+      "logits/chosen": -2.381641387939453,
+      "logits/rejected": -2.1322736740112305,
+      "logps/chosen": -0.5944348573684692,
+      "logps/rejected": -1.6424591541290283,
+      "loss": 1.3066,
+      "nll_loss": 0.9154736399650574,
+      "rewards/accuracies": 0.8218749761581421,
+      "rewards/chosen": -0.5944348573684692,
+      "rewards/margins": 1.048024296760559,
+      "rewards/rejected": -1.6424591541290283,
+      "step": 600
+    },
+    {
+      "epoch": 0.6355876559422193,
+      "grad_norm": 41.0,
+      "learning_rate": 7.049940403798089e-07,
+      "log_odds_chosen": 1.531709909439087,
+      "log_odds_ratio": -0.3830433487892151,
+      "logits/chosen": -2.4697697162628174,
+      "logits/rejected": -2.217533826828003,
+      "logps/chosen": -0.5523134469985962,
+      "logps/rejected": -1.5712653398513794,
+      "loss": 1.314,
+      "nll_loss": 0.9309525489807129,
+      "rewards/accuracies": 0.840624988079071,
+      "rewards/chosen": -0.5523134469985962,
+      "rewards/margins": 1.0189517736434937,
+      "rewards/rejected": -1.5712653398513794,
+      "step": 605
+    },
+    {
+      "epoch": 0.6408404464871963,
+      "grad_norm": 46.5,
+      "learning_rate": 6.874905589692733e-07,
+      "log_odds_chosen": 1.6414533853530884,
+      "log_odds_ratio": -0.34355098009109497,
+      "logits/chosen": -2.509610176086426,
+      "logits/rejected": -2.1736972332000732,
+      "logps/chosen": -0.5539788007736206,
+      "logps/rejected": -1.6842210292816162,
+      "loss": 1.2389,
+      "nll_loss": 0.8953197598457336,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -0.5539788007736206,
+      "rewards/margins": 1.1302422285079956,
+      "rewards/rejected": -1.6842210292816162,
+      "step": 610
+    },
+    {
+      "epoch": 0.6460932370321734,
+      "grad_norm": 32.25,
+      "learning_rate": 6.700925547244171e-07,
+      "log_odds_chosen": 1.9415044784545898,
+      "log_odds_ratio": -0.31946122646331787,
+      "logits/chosen": -2.4332690238952637,
+      "logits/rejected": -2.26471209526062,
+      "logps/chosen": -0.6300308704376221,
+      "logps/rejected": -2.049290180206299,
+      "loss": 1.2482,
+      "nll_loss": 0.9287741780281067,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -0.6300308704376221,
+      "rewards/margins": 1.4192593097686768,
+      "rewards/rejected": -2.049290180206299,
+      "step": 615
+    },
+    {
+      "epoch": 0.6513460275771503,
+      "grad_norm": 32.5,
+      "learning_rate": 6.528058997627995e-07,
+      "log_odds_chosen": 1.9388889074325562,
+      "log_odds_ratio": -0.3166273534297943,
+      "logits/chosen": -2.5412425994873047,
+      "logits/rejected": -2.1768264770507812,
+      "logps/chosen": -0.5474293828010559,
+      "logps/rejected": -1.9378162622451782,
+      "loss": 1.2866,
+      "nll_loss": 0.9699424505233765,
+      "rewards/accuracies": 0.878125011920929,
+      "rewards/chosen": -0.5474293828010559,
+      "rewards/margins": 1.3903871774673462,
+      "rewards/rejected": -1.9378162622451782,
+      "step": 620
+    },
+    {
+      "epoch": 0.6565988181221274,
+      "grad_norm": 40.0,
+      "learning_rate": 6.35636428619734e-07,
+      "log_odds_chosen": 1.7123737335205078,
+      "log_odds_ratio": -0.34193840622901917,
+      "logits/chosen": -2.5048129558563232,
+      "logits/rejected": -2.1842281818389893,
+      "logps/chosen": -0.5440694093704224,
+      "logps/rejected": -1.7357890605926514,
+      "loss": 1.2903,
+      "nll_loss": 0.9483565092086792,
+      "rewards/accuracies": 0.859375,
+      "rewards/chosen": -0.5440694093704224,
+      "rewards/margins": 1.1917197704315186,
+      "rewards/rejected": -1.7357890605926514,
+      "step": 625
+    },
+    {
+      "epoch": 0.6618516086671044,
+      "grad_norm": 46.25,
+      "learning_rate": 6.185899362790338e-07,
+      "log_odds_chosen": 1.6516172885894775,
+      "log_odds_ratio": -0.3549567461013794,
+      "logits/chosen": -2.4393770694732666,
+      "logits/rejected": -2.138049602508545,
+      "logps/chosen": -0.5555499196052551,
+      "logps/rejected": -1.7016226053237915,
+      "loss": 1.2573,
+      "nll_loss": 0.9023006558418274,
+      "rewards/accuracies": 0.840624988079071,
+      "rewards/chosen": -0.5555499196052551,
+      "rewards/margins": 1.1460726261138916,
+      "rewards/rejected": -1.7016226053237915,
+      "step": 630
+    },
+    {
+      "epoch": 0.6671043992120814,
+      "grad_norm": 101.5,
+      "learning_rate": 6.016721762171098e-07,
+      "log_odds_chosen": 1.636366605758667,
+      "log_odds_ratio": -0.3687242567539215,
+      "logits/chosen": -2.469954252243042,
+      "logits/rejected": -2.2552268505096436,
+      "logps/chosen": -0.6394462585449219,
+      "logps/rejected": -1.7851154804229736,
+      "loss": 1.3697,
+      "nll_loss": 1.000967025756836,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.6394462585449219,
+      "rewards/margins": 1.1456692218780518,
+      "rewards/rejected": -1.7851154804229736,
+      "step": 635
+    },
+    {
+      "epoch": 0.6723571897570584,
+      "grad_norm": 64.5,
+      "learning_rate": 5.848888584610726e-07,
+      "log_odds_chosen": 1.693683385848999,
+      "log_odds_ratio": -0.34921011328697205,
+      "logits/chosen": -2.486765146255493,
+      "logits/rejected": -2.2645862102508545,
+      "logps/chosen": -0.5731798410415649,
+      "logps/rejected": -1.7742217779159546,
+      "loss": 1.261,
+      "nll_loss": 0.9118081331253052,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.5731798410415649,
+      "rewards/margins": 1.2010419368743896,
+      "rewards/rejected": -1.7742217779159546,
+      "step": 640
+    },
+    {
+      "epoch": 0.6776099803020355,
+      "grad_norm": 58.5,
+      "learning_rate": 5.682456476615072e-07,
+      "log_odds_chosen": 1.4461402893066406,
+      "log_odds_ratio": -0.3787740170955658,
+      "logits/chosen": -2.355269432067871,
+      "logits/rejected": -2.16302490234375,
+      "logps/chosen": -0.5690776705741882,
+      "logps/rejected": -1.5551892518997192,
+      "loss": 1.2771,
+      "nll_loss": 0.8983281254768372,
+      "rewards/accuracies": 0.846875011920929,
+      "rewards/chosen": -0.5690776705741882,
+      "rewards/margins": 0.9861115217208862,
+      "rewards/rejected": -1.5551892518997192,
+      "step": 645
+    },
+    {
+      "epoch": 0.6828627708470125,
+      "grad_norm": 36.75,
+      "learning_rate": 5.517481611805539e-07,
+      "log_odds_chosen": 1.5578912496566772,
+      "log_odds_ratio": -0.35105592012405396,
+      "logits/chosen": -2.3847219944000244,
+      "logits/rejected": -2.130415439605713,
+      "logps/chosen": -0.537613570690155,
+      "logps/rejected": -1.5832931995391846,
+      "loss": 1.246,
+      "nll_loss": 0.8949264287948608,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.537613570690155,
+      "rewards/margins": 1.0456795692443848,
+      "rewards/rejected": -1.5832931995391846,
+      "step": 650
+    },
+    {
+      "epoch": 0.6881155613919895,
+      "grad_norm": 28.25,
+      "learning_rate": 5.354019671959599e-07,
+      "log_odds_chosen": 1.4725126028060913,
+      "log_odds_ratio": -0.38070547580718994,
+      "logits/chosen": -2.3801114559173584,
+      "logits/rejected": -2.134171724319458,
+      "logps/chosen": -0.5319515466690063,
+      "logps/rejected": -1.5217872858047485,
+      "loss": 1.3054,
+      "nll_loss": 0.9246999621391296,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.5319515466690063,
+      "rewards/margins": 0.9898357391357422,
+      "rewards/rejected": -1.5217872858047485,
+      "step": 655
+    },
+    {
+      "epoch": 0.6933683519369666,
+      "grad_norm": 35.5,
+      "learning_rate": 5.192125828217202e-07,
+      "log_odds_chosen": 1.628064513206482,
+      "log_odds_ratio": -0.370327889919281,
+      "logits/chosen": -2.5233168601989746,
+      "logits/rejected": -2.1562933921813965,
+      "logps/chosen": -0.5629066824913025,
+      "logps/rejected": -1.6909490823745728,
+      "loss": 1.2606,
+      "nll_loss": 0.8903215527534485,
+      "rewards/accuracies": 0.846875011920929,
+      "rewards/chosen": -0.5629066824913025,
+      "rewards/margins": 1.128042459487915,
+      "rewards/rejected": -1.6909490823745728,
+      "step": 660
+    },
+    {
+      "epoch": 0.6986211424819435,
+      "grad_norm": 51.5,
+      "learning_rate": 5.031854722459652e-07,
+      "log_odds_chosen": 1.8480112552642822,
+      "log_odds_ratio": -0.3127003610134125,
+      "logits/chosen": -2.4370510578155518,
+      "logits/rejected": -2.0890867710113525,
+      "logps/chosen": -0.5302228927612305,
+      "logps/rejected": -1.8121706247329712,
+      "loss": 1.2074,
+      "nll_loss": 0.8947356939315796,
+      "rewards/accuracies": 0.878125011920929,
+      "rewards/chosen": -0.5302228927612305,
+      "rewards/margins": 1.2819478511810303,
+      "rewards/rejected": -1.8121706247329712,
+      "step": 665
+    },
+    {
+      "epoch": 0.7038739330269206,
+      "grad_norm": 31.5,
+      "learning_rate": 4.873260448867004e-07,
+      "log_odds_chosen": 2.02109956741333,
+      "log_odds_ratio": -0.31728652119636536,
+      "logits/chosen": -2.470301628112793,
+      "logits/rejected": -2.2189319133758545,
+      "logps/chosen": -0.6230054497718811,
+      "logps/rejected": -2.0598232746124268,
+      "loss": 1.3239,
+      "nll_loss": 1.0066121816635132,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -0.6230054497718811,
+      "rewards/margins": 1.4368176460266113,
+      "rewards/rejected": -2.0598232746124268,
+      "step": 670
+    },
+    {
+      "epoch": 0.7091267235718975,
+      "grad_norm": 68.0,
+      "learning_rate": 4.7163965356604117e-07,
+      "log_odds_chosen": 1.897443413734436,
+      "log_odds_ratio": -0.3486331105232239,
+      "logits/chosen": -2.554206132888794,
+      "logits/rejected": -2.1669750213623047,
+      "logps/chosen": -0.64203941822052,
+      "logps/rejected": -2.0166876316070557,
+      "loss": 1.3553,
+      "nll_loss": 1.0066633224487305,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.64203941822052,
+      "rewards/margins": 1.3746483325958252,
+      "rewards/rejected": -2.0166876316070557,
+      "step": 675
+    },
+    {
+      "epoch": 0.7143795141168746,
+      "grad_norm": 34.5,
+      "learning_rate": 4.561315927035445e-07,
+      "log_odds_chosen": 1.707550048828125,
+      "log_odds_ratio": -0.34410637617111206,
+      "logits/chosen": -2.440441846847534,
+      "logits/rejected": -2.1145124435424805,
+      "logps/chosen": -0.5574239492416382,
+      "logps/rejected": -1.7339591979980469,
+      "loss": 1.2025,
+      "nll_loss": 0.8583625555038452,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.5574239492416382,
+      "rewards/margins": 1.1765353679656982,
+      "rewards/rejected": -1.7339591979980469,
+      "step": 680
+    },
+    {
+      "epoch": 0.7196323046618516,
+      "grad_norm": 64.5,
+      "learning_rate": 4.408070965292533e-07,
+      "log_odds_chosen": 1.7007535696029663,
+      "log_odds_ratio": -0.35346347093582153,
+      "logits/chosen": -2.456326961517334,
+      "logits/rejected": -2.1892619132995605,
+      "logps/chosen": -0.5550821423530579,
+      "logps/rejected": -1.7205698490142822,
+      "loss": 1.2778,
+      "nll_loss": 0.9243642091751099,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.5550821423530579,
+      "rewards/margins": 1.1654876470565796,
+      "rewards/rejected": -1.7205698490142822,
+      "step": 685
+    },
+    {
+      "epoch": 0.7248850952068286,
+      "grad_norm": 42.25,
+      "learning_rate": 4.256713373170564e-07,
+      "log_odds_chosen": 1.5547049045562744,
+      "log_odds_ratio": -0.36127448081970215,
+      "logits/chosen": -2.46553373336792,
+      "logits/rejected": -2.2510862350463867,
+      "logps/chosen": -0.603643536567688,
+      "logps/rejected": -1.6664206981658936,
+      "loss": 1.3272,
+      "nll_loss": 0.9659638404846191,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -0.603643536567688,
+      "rewards/margins": 1.0627771615982056,
+      "rewards/rejected": -1.6664206981658936,
+      "step": 690
+    },
+    {
+      "epoch": 0.7301378857518056,
+      "grad_norm": 38.5,
+      "learning_rate": 4.1072942363896025e-07,
+      "log_odds_chosen": 1.6411514282226562,
+      "log_odds_ratio": -0.3377731442451477,
+      "logits/chosen": -2.5552942752838135,
+      "logits/rejected": -2.229196071624756,
+      "logps/chosen": -0.5576506853103638,
+      "logps/rejected": -1.6714286804199219,
+      "loss": 1.2942,
+      "nll_loss": 0.9564154744148254,
+      "rewards/accuracies": 0.878125011920929,
+      "rewards/chosen": -0.5576506853103638,
+      "rewards/margins": 1.1137781143188477,
+      "rewards/rejected": -1.6714286804199219,
+      "step": 695
+    },
+    {
+      "epoch": 0.7353906762967827,
+      "grad_norm": 26.125,
+      "learning_rate": 3.9598639864085925e-07,
+      "log_odds_chosen": 1.2980868816375732,
+      "log_odds_ratio": -0.3892515301704407,
+      "logits/chosen": -2.417532444000244,
+      "logits/rejected": -2.2620291709899902,
+      "logps/chosen": -0.5406171083450317,
+      "logps/rejected": -1.3745439052581787,
+      "loss": 1.283,
+      "nll_loss": 0.893776535987854,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.5406171083450317,
+      "rewards/margins": 0.833926796913147,
+      "rewards/rejected": -1.3745439052581787,
+      "step": 700
+    },
+    {
+      "epoch": 0.7406434668417596,
+      "grad_norm": 57.75,
+      "learning_rate": 3.8144723834039073e-07,
+      "log_odds_chosen": 1.3730871677398682,
+      "log_odds_ratio": -0.38403210043907166,
+      "logits/chosen": -2.492102861404419,
+      "logits/rejected": -2.1305251121520996,
+      "logps/chosen": -0.5153442621231079,
+      "logps/rejected": -1.4106855392456055,
+      "loss": 1.2797,
+      "nll_loss": 0.8956896662712097,
+      "rewards/accuracies": 0.8343750238418579,
+      "rewards/chosen": -0.5153442621231079,
+      "rewards/margins": 0.8953412175178528,
+      "rewards/rejected": -1.4106855392456055,
+      "step": 705
+    },
+    {
+      "epoch": 0.7458962573867367,
+      "grad_norm": 28.25,
+      "learning_rate": 3.6711684994744486e-07,
+      "log_odds_chosen": 1.7186520099639893,
+      "log_odds_ratio": -0.33004146814346313,
+      "logits/chosen": -2.537470817565918,
+      "logits/rejected": -2.23635196685791,
+      "logps/chosen": -0.4957657754421234,
+      "logps/rejected": -1.6590726375579834,
+      "loss": 1.2277,
+      "nll_loss": 0.8976136445999146,
+      "rewards/accuracies": 0.859375,
+      "rewards/chosen": -0.4957657754421234,
+      "rewards/margins": 1.1633068323135376,
+      "rewards/rejected": -1.6590726375579834,
+      "step": 710
+    },
+    {
+      "epoch": 0.7511490479317138,
+      "grad_norm": 50.25,
+      "learning_rate": 3.530000702078999e-07,
+      "log_odds_chosen": 1.9104875326156616,
+      "log_odds_ratio": -0.30225199460983276,
+      "logits/chosen": -2.41103196144104,
+      "logits/rejected": -2.163609743118286,
+      "logps/chosen": -0.535643458366394,
+      "logps/rejected": -1.8592544794082642,
+      "loss": 1.2363,
+      "nll_loss": 0.9340142011642456,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.535643458366394,
+      "rewards/margins": 1.3236110210418701,
+      "rewards/rejected": -1.8592544794082642,
+      "step": 715
+    },
+    {
+      "epoch": 0.7564018384766907,
+      "grad_norm": 215.0,
+      "learning_rate": 3.391016637711389e-07,
+      "log_odds_chosen": 1.9387279748916626,
+      "log_odds_ratio": -0.32732483744621277,
+      "logits/chosen": -2.503373861312866,
+      "logits/rejected": -2.184051990509033,
+      "logps/chosen": -0.6013236045837402,
+      "logps/rejected": -1.979087233543396,
+      "loss": 1.2995,
+      "nll_loss": 0.9722166061401367,
+      "rewards/accuracies": 0.8656250238418579,
+      "rewards/chosen": -0.6013236045837402,
+      "rewards/margins": 1.3777637481689453,
+      "rewards/rejected": -1.979087233543396,
+      "step": 720
+    },
+    {
+      "epoch": 0.7616546290216678,
+      "grad_norm": 64.5,
+      "learning_rate": 3.2542632158190133e-07,
+      "log_odds_chosen": 1.8217693567276,
+      "log_odds_ratio": -0.3460733890533447,
+      "logits/chosen": -2.4695355892181396,
+      "logits/rejected": -2.266535758972168,
+      "logps/chosen": -0.5930324792861938,
+      "logps/rejected": -1.8648335933685303,
+      "loss": 1.2692,
+      "nll_loss": 0.9231220483779907,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.5930324792861938,
+      "rewards/margins": 1.271801233291626,
+      "rewards/rejected": -1.8648335933685303,
+      "step": 725
+    },
+    {
+      "epoch": 0.7669074195666448,
+      "grad_norm": 60.0,
+      "learning_rate": 3.1197865929701017e-07,
+      "log_odds_chosen": 1.9611870050430298,
+      "log_odds_ratio": -0.3502156138420105,
+      "logits/chosen": -2.595439910888672,
+      "logits/rejected": -2.2361018657684326,
+      "logps/chosen": -0.5836862921714783,
+      "logps/rejected": -2.0304791927337646,
+      "loss": 1.3186,
+      "nll_loss": 0.9683855175971985,
+      "rewards/accuracies": 0.840624988079071,
+      "rewards/chosen": -0.5836862921714783,
+      "rewards/margins": 1.4467928409576416,
+      "rewards/rejected": -2.0304791927337646,
+      "step": 730
+    },
+    {
+      "epoch": 0.7721602101116218,
+      "grad_norm": 63.75,
+      "learning_rate": 2.987632157275114e-07,
+      "log_odds_chosen": 1.6977773904800415,
+      "log_odds_ratio": -0.3493327796459198,
+      "logits/chosen": -2.5089340209960938,
+      "logits/rejected": -2.2651724815368652,
+      "logps/chosen": -0.5790574550628662,
+      "logps/rejected": -1.748196005821228,
+      "loss": 1.2328,
+      "nll_loss": 0.883512020111084,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -0.5790574550628662,
+      "rewards/margins": 1.1691386699676514,
+      "rewards/rejected": -1.748196005821228,
+      "step": 735
+    },
+    {
+      "epoch": 0.7774130006565988,
+      "grad_norm": 47.0,
+      "learning_rate": 2.8578445130674833e-07,
+      "log_odds_chosen": 1.5758211612701416,
+      "log_odds_ratio": -0.3468172550201416,
+      "logits/chosen": -2.4574217796325684,
+      "logits/rejected": -2.2445011138916016,
+      "logps/chosen": -0.5336965322494507,
+      "logps/rejected": -1.6166375875473022,
+      "loss": 1.2211,
+      "nll_loss": 0.8742717504501343,
+      "rewards/accuracies": 0.8531249761581421,
+      "rewards/chosen": -0.5336965322494507,
+      "rewards/margins": 1.082940936088562,
+      "rewards/rejected": -1.6166375875473022,
+      "step": 740
+    },
+    {
+      "epoch": 0.7826657912015759,
+      "grad_norm": 33.25,
+      "learning_rate": 2.73046746584891e-07,
+      "log_odds_chosen": 1.6906464099884033,
+      "log_odds_ratio": -0.3406273126602173,
+      "logits/chosen": -2.5112786293029785,
+      "logits/rejected": -2.2304630279541016,
+      "logps/chosen": -0.5315414667129517,
+      "logps/rejected": -1.6976295709609985,
+      "loss": 1.2098,
+      "nll_loss": 0.8692021369934082,
+      "rewards/accuracies": 0.859375,
+      "rewards/chosen": -0.5315414667129517,
+      "rewards/margins": 1.1660881042480469,
+      "rewards/rejected": -1.6976295709609985,
+      "step": 745
+    },
+    {
+      "epoch": 0.7879185817465528,
+      "grad_norm": 40.25,
+      "learning_rate": 2.605544007504279e-07,
+      "log_odds_chosen": 1.7450376749038696,
+      "log_odds_ratio": -0.32459336519241333,
+      "logits/chosen": -2.553576946258545,
+      "logits/rejected": -2.259354591369629,
+      "logps/chosen": -0.5844911336898804,
+      "logps/rejected": -1.801825761795044,
+      "loss": 1.2855,
+      "nll_loss": 0.9608856439590454,
+      "rewards/accuracies": 0.8656250238418579,
+      "rewards/chosen": -0.5844911336898804,
+      "rewards/margins": 1.217334508895874,
+      "rewards/rejected": -1.801825761795044,
+      "step": 750
+    },
+    {
+      "epoch": 0.7931713722915299,
+      "grad_norm": 36.5,
+      "learning_rate": 2.4831163017911683e-07,
+      "log_odds_chosen": 1.651958703994751,
+      "log_odds_ratio": -0.34634822607040405,
+      "logits/chosen": -2.405233144760132,
+      "logits/rejected": -2.138745069503784,
+      "logps/chosen": -0.5561404228210449,
+      "logps/rejected": -1.6944749355316162,
+      "loss": 1.2428,
+      "nll_loss": 0.8964967727661133,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -0.5561404228210449,
+      "rewards/margins": 1.1383345127105713,
+      "rewards/rejected": -1.6944749355316162,
+      "step": 755
+    },
+    {
+      "epoch": 0.7984241628365069,
+      "grad_norm": 46.75,
+      "learning_rate": 2.3632256701088814e-07,
+      "log_odds_chosen": 1.698676347732544,
+      "log_odds_ratio": -0.3407271206378937,
+      "logits/chosen": -2.5164520740509033,
+      "logits/rejected": -2.169098377227783,
+      "logps/chosen": -0.546515166759491,
+      "logps/rejected": -1.726548433303833,
+      "loss": 1.2007,
+      "nll_loss": 0.8599587678909302,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.546515166759491,
+      "rewards/margins": 1.1800330877304077,
+      "rewards/rejected": -1.726548433303833,
+      "step": 760
+    },
+    {
+      "epoch": 0.8036769533814839,
+      "grad_norm": 31.625,
+      "learning_rate": 2.245912577551785e-07,
+      "log_odds_chosen": 1.7021366357803345,
+      "log_odds_ratio": -0.36240798234939575,
+      "logits/chosen": -2.583963632583618,
+      "logits/rejected": -2.3067448139190674,
+      "logps/chosen": -0.610865592956543,
+      "logps/rejected": -1.795292854309082,
+      "loss": 1.3449,
+      "nll_loss": 0.9824475049972534,
+      "rewards/accuracies": 0.840624988079071,
+      "rewards/chosen": -0.610865592956543,
+      "rewards/margins": 1.184427261352539,
+      "rewards/rejected": -1.795292854309082,
+      "step": 765
+    },
+    {
+      "epoch": 0.8089297439264609,
+      "grad_norm": 97.5,
+      "learning_rate": 2.131216619251659e-07,
+      "log_odds_chosen": 1.825273871421814,
+      "log_odds_ratio": -0.3238641917705536,
+      "logits/chosen": -2.533202648162842,
+      "logits/rejected": -2.3293657302856445,
+      "logps/chosen": -0.6178978681564331,
+      "logps/rejected": -1.9215917587280273,
+      "loss": 1.3183,
+      "nll_loss": 0.9943979978561401,
+      "rewards/accuracies": 0.8656250238418579,
+      "rewards/chosen": -0.6178978681564331,
+      "rewards/margins": 1.3036938905715942,
+      "rewards/rejected": -1.9215917587280273,
+      "step": 770
+    },
+    {
+      "epoch": 0.814182534471438,
+      "grad_norm": 63.0,
+      "learning_rate": 2.0191765070136768e-07,
+      "log_odds_chosen": 1.8990042209625244,
+      "log_odds_ratio": -0.3358913064002991,
+      "logits/chosen": -2.4345898628234863,
+      "logits/rejected": -2.134831190109253,
+      "logps/chosen": -0.5476903915405273,
+      "logps/rejected": -1.865012526512146,
+      "loss": 1.2756,
+      "nll_loss": 0.9396783709526062,
+      "rewards/accuracies": 0.878125011920929,
+      "rewards/chosen": -0.5476903915405273,
+      "rewards/margins": 1.317322015762329,
+      "rewards/rejected": -1.865012526512146,
+      "step": 775
+    },
+    {
+      "epoch": 0.8194353250164149,
+      "grad_norm": 102.5,
+      "learning_rate": 1.9098300562505264e-07,
+      "log_odds_chosen": 1.6969549655914307,
+      "log_odds_ratio": -0.3712518811225891,
+      "logits/chosen": -2.4698281288146973,
+      "logits/rejected": -2.181797981262207,
+      "logps/chosen": -0.5788697004318237,
+      "logps/rejected": -1.7834043502807617,
+      "loss": 1.2457,
+      "nll_loss": 0.8744741678237915,
+      "rewards/accuracies": 0.815625011920929,
+      "rewards/chosen": -0.5788697004318237,
+      "rewards/margins": 1.2045344114303589,
+      "rewards/rejected": -1.7834043502807617,
+      "step": 780
+    },
+    {
+      "epoch": 0.824688115561392,
+      "grad_norm": 28.625,
+      "learning_rate": 1.803214173219072e-07,
+      "log_odds_chosen": 1.9696476459503174,
+      "log_odds_ratio": -0.30190950632095337,
+      "logits/chosen": -2.483811616897583,
+      "logits/rejected": -2.173767328262329,
+      "logps/chosen": -0.535027265548706,
+      "logps/rejected": -1.9312782287597656,
+      "loss": 1.2045,
+      "nll_loss": 0.902554988861084,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.535027265548706,
+      "rewards/margins": 1.3962510824203491,
+      "rewards/rejected": -1.9312782287597656,
+      "step": 785
+    },
+    {
+      "epoch": 0.8299409061063691,
+      "grad_norm": 31.125,
+      "learning_rate": 1.6993648425638796e-07,
+      "log_odds_chosen": 1.6274923086166382,
+      "log_odds_ratio": -0.3982171416282654,
+      "logits/chosen": -2.5815181732177734,
+      "logits/rejected": -2.206310987472534,
+      "logps/chosen": -0.5905428528785706,
+      "logps/rejected": -1.7506492137908936,
+      "loss": 1.3427,
+      "nll_loss": 0.9444986581802368,
+      "rewards/accuracies": 0.8343750238418579,
+      "rewards/chosen": -0.5905428528785706,
+      "rewards/margins": 1.1601064205169678,
+      "rewards/rejected": -1.7506492137908936,
+      "step": 790
+    },
+    {
+      "epoch": 0.835193696651346,
+      "grad_norm": 61.0,
+      "learning_rate": 1.5983171151717921e-07,
+      "log_odds_chosen": 1.5922825336456299,
+      "log_odds_ratio": -0.3533628284931183,
+      "logits/chosen": -2.4570369720458984,
+      "logits/rejected": -2.210930824279785,
+      "logps/chosen": -0.581910252571106,
+      "logps/rejected": -1.6624376773834229,
+      "loss": 1.2185,
+      "nll_loss": 0.8651579022407532,
+      "rewards/accuracies": 0.8656250238418579,
+      "rewards/chosen": -0.581910252571106,
+      "rewards/margins": 1.080527424812317,
+      "rewards/rejected": -1.6624376773834229,
+      "step": 795
+    },
+    {
+      "epoch": 0.8404464871963231,
+      "grad_norm": 56.25,
+      "learning_rate": 1.5001050963416716e-07,
+      "log_odds_chosen": 1.7499481439590454,
+      "log_odds_ratio": -0.3268365263938904,
+      "logits/chosen": -2.4593491554260254,
+      "logits/rejected": -2.1416468620300293,
+      "logps/chosen": -0.5591254234313965,
+      "logps/rejected": -1.7770287990570068,
+      "loss": 1.1877,
+      "nll_loss": 0.8609007596969604,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -0.5591254234313965,
+      "rewards/margins": 1.2179033756256104,
+      "rewards/rejected": -1.7770287990570068,
+      "step": 800
+    },
+    {
+      "epoch": 0.8456992777413,
+      "grad_norm": 59.25,
+      "learning_rate": 1.4047619342732908e-07,
+      "log_odds_chosen": 1.5950630903244019,
+      "log_odds_ratio": -0.3615456819534302,
+      "logits/chosen": -2.5065274238586426,
+      "logits/rejected": -2.24869441986084,
+      "logps/chosen": -0.6077946424484253,
+      "logps/rejected": -1.7057603597640991,
+      "loss": 1.273,
+      "nll_loss": 0.911415696144104,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.6077946424484253,
+      "rewards/margins": 1.0979657173156738,
+      "rewards/rejected": -1.7057603597640991,
+      "step": 805
+    },
+    {
+      "epoch": 0.8509520682862771,
+      "grad_norm": 30.0,
+      "learning_rate": 1.3123198088792577e-07,
+      "log_odds_chosen": 1.6475883722305298,
+      "log_odds_ratio": -0.37195760011672974,
+      "logits/chosen": -2.4656014442443848,
+      "logits/rejected": -2.1296868324279785,
+      "logps/chosen": -0.5928062200546265,
+      "logps/rejected": -1.764866828918457,
+      "loss": 1.2998,
+      "nll_loss": 0.9278379678726196,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.5928062200546265,
+      "rewards/margins": 1.172060489654541,
+      "rewards/rejected": -1.764866828918457,
+      "step": 810
+    },
+    {
+      "epoch": 0.8562048588312541,
+      "grad_norm": 48.25,
+      "learning_rate": 1.2228099209237607e-07,
+      "log_odds_chosen": 1.6707931756973267,
+      "log_odds_ratio": -0.35219767689704895,
+      "logits/chosen": -2.416558027267456,
+      "logits/rejected": -2.1250758171081543,
+      "logps/chosen": -0.577375054359436,
+      "logps/rejected": -1.7357622385025024,
+      "loss": 1.3212,
+      "nll_loss": 0.969050407409668,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.577375054359436,
+      "rewards/margins": 1.1583871841430664,
+      "rewards/rejected": -1.7357622385025024,
+      "step": 815
+    },
+    {
+      "epoch": 0.8614576493762311,
+      "grad_norm": 48.5,
+      "learning_rate": 1.1362624814917842e-07,
+      "log_odds_chosen": 1.469254732131958,
+      "log_odds_ratio": -0.3808806836605072,
+      "logits/chosen": -2.428011178970337,
+      "logits/rejected": -2.1460485458374023,
+      "logps/chosen": -0.549521803855896,
+      "logps/rejected": -1.5279179811477661,
+      "loss": 1.2772,
+      "nll_loss": 0.8962807655334473,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.549521803855896,
+      "rewards/margins": 0.9783961176872253,
+      "rewards/rejected": -1.5279179811477661,
+      "step": 820
+    },
+    {
+      "epoch": 0.8667104399212081,
+      "grad_norm": 34.5,
+      "learning_rate": 1.0527067017923652e-07,
+      "log_odds_chosen": 1.5520200729370117,
+      "log_odds_ratio": -0.3591814637184143,
+      "logits/chosen": -2.5619750022888184,
+      "logits/rejected": -2.3039004802703857,
+      "logps/chosen": -0.5574966073036194,
+      "logps/rejected": -1.6048591136932373,
+      "loss": 1.2779,
+      "nll_loss": 0.918703556060791,
+      "rewards/accuracies": 0.840624988079071,
+      "rewards/chosen": -0.5574966073036194,
+      "rewards/margins": 1.0473625659942627,
+      "rewards/rejected": -1.6048591136932373,
+      "step": 825
+    },
+    {
+      "epoch": 0.8719632304661852,
+      "grad_norm": 39.0,
+      "learning_rate": 9.721707832993231e-08,
+      "log_odds_chosen": 1.7053543329238892,
+      "log_odds_ratio": -0.33547329902648926,
+      "logits/chosen": -2.483564615249634,
+      "logits/rejected": -2.2165513038635254,
+      "logps/chosen": -0.5104734301567078,
+      "logps/rejected": -1.664214849472046,
+      "loss": 1.1955,
+      "nll_loss": 0.8600661158561707,
+      "rewards/accuracies": 0.8531249761581421,
+      "rewards/chosen": -0.5104734301567078,
+      "rewards/margins": 1.1537415981292725,
+      "rewards/rejected": -1.664214849472046,
+      "step": 830
+    },
+    {
+      "epoch": 0.8772160210111621,
+      "grad_norm": 34.25,
+      "learning_rate": 8.946819082327828e-08,
+      "log_odds_chosen": 1.5886516571044922,
+      "log_odds_ratio": -0.3529045283794403,
+      "logits/chosen": -2.3829362392425537,
+      "logits/rejected": -2.1005430221557617,
+      "logps/chosen": -0.5660222172737122,
+      "logps/rejected": -1.645013451576233,
+      "loss": 1.2596,
+      "nll_loss": 0.9066807627677917,
+      "rewards/accuracies": 0.8531249761581421,
+      "rewards/chosen": -0.5660222172737122,
+      "rewards/margins": 1.078991174697876,
+      "rewards/rejected": -1.645013451576233,
+      "step": 835
+    },
+    {
+      "epoch": 0.8824688115561392,
+      "grad_norm": 36.75,
+      "learning_rate": 8.202662303847297e-08,
+      "log_odds_chosen": 1.7980045080184937,
+      "log_odds_ratio": -0.3362274765968323,
+      "logits/chosen": -2.490861654281616,
+      "logits/rejected": -2.1576590538024902,
+      "logps/chosen": -0.5558806657791138,
+      "logps/rejected": -1.7892097234725952,
+      "loss": 1.2791,
+      "nll_loss": 0.9428805112838745,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -0.5558806657791138,
+      "rewards/margins": 1.2333290576934814,
+      "rewards/rejected": -1.7892097234725952,
+      "step": 840
+    },
+    {
+      "epoch": 0.8877216021011162,
+      "grad_norm": 55.5,
+      "learning_rate": 7.48948866291661e-08,
+      "log_odds_chosen": 1.7913442850112915,
+      "log_odds_ratio": -0.32501915097236633,
+      "logits/chosen": -2.5119128227233887,
+      "logits/rejected": -2.193650960922241,
+      "logps/chosen": -0.5597657561302185,
+      "logps/rejected": -1.8090870380401611,
+      "loss": 1.234,
+      "nll_loss": 0.9089807271957397,
+      "rewards/accuracies": 0.890625,
+      "rewards/chosen": -0.5597657561302185,
+      "rewards/margins": 1.2493212223052979,
+      "rewards/rejected": -1.8090870380401611,
+      "step": 845
+    },
+    {
+      "epoch": 0.8929743926460932,
+      "grad_norm": 39.5,
+      "learning_rate": 6.80753886757336e-08,
+      "log_odds_chosen": 1.5741755962371826,
+      "log_odds_ratio": -0.34667596220970154,
+      "logits/chosen": -2.4587669372558594,
+      "logits/rejected": -2.187401056289673,
+      "logps/chosen": -0.5418094396591187,
+      "logps/rejected": -1.594808578491211,
+      "loss": 1.2259,
+      "nll_loss": 0.8791839480400085,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -0.5418094396591187,
+      "rewards/margins": 1.0529991388320923,
+      "rewards/rejected": -1.594808578491211,
+      "step": 850
+    },
+    {
+      "epoch": 0.8982271831910703,
+      "grad_norm": 25.625,
+      "learning_rate": 6.157043087284797e-08,
+      "log_odds_chosen": 1.708722710609436,
+      "log_odds_ratio": -0.34805282950401306,
+      "logits/chosen": -2.472571849822998,
+      "logits/rejected": -2.1671009063720703,
+      "logps/chosen": -0.5452659130096436,
+      "logps/rejected": -1.7160043716430664,
+      "loss": 1.2583,
+      "nll_loss": 0.9102743268013,
+      "rewards/accuracies": 0.8343750238418579,
+      "rewards/chosen": -0.5452659130096436,
+      "rewards/margins": 1.1707384586334229,
+      "rewards/rejected": -1.7160043716430664,
+      "step": 855
+    },
+    {
+      "epoch": 0.9034799737360473,
+      "grad_norm": 30.75,
+      "learning_rate": 5.538220875261734e-08,
+      "log_odds_chosen": 1.7142833471298218,
+      "log_odds_ratio": -0.31549376249313354,
+      "logits/chosen": -2.5251572132110596,
+      "logits/rejected": -2.228562593460083,
+      "logps/chosen": -0.5315389633178711,
+      "logps/rejected": -1.699853539466858,
+      "loss": 1.2153,
+      "nll_loss": 0.8998427391052246,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -0.5315389633178711,
+      "rewards/margins": 1.1683146953582764,
+      "rewards/rejected": -1.699853539466858,
+      "step": 860
+    },
+    {
+      "epoch": 0.9087327642810243,
+      "grad_norm": 50.75,
+      "learning_rate": 4.9512810943557083e-08,
+      "log_odds_chosen": 1.7466316223144531,
+      "log_odds_ratio": -0.3088250756263733,
+      "logits/chosen": -2.492593288421631,
+      "logits/rejected": -2.1745035648345947,
+      "logps/chosen": -0.5664678812026978,
+      "logps/rejected": -1.7472212314605713,
+      "loss": 1.2514,
+      "nll_loss": 0.9425439834594727,
+      "rewards/accuracies": 0.8968750238418579,
+      "rewards/chosen": -0.5664678812026978,
+      "rewards/margins": 1.1807533502578735,
+      "rewards/rejected": -1.7472212314605713,
+      "step": 865
+    },
+    {
+      "epoch": 0.9139855548260013,
+      "grad_norm": 42.25,
+      "learning_rate": 4.396421846564235e-08,
+      "log_odds_chosen": 1.420175313949585,
+      "log_odds_ratio": -0.39961543679237366,
+      "logits/chosen": -2.5364463329315186,
+      "logits/rejected": -2.272904634475708,
+      "logps/chosen": -0.5728206038475037,
+      "logps/rejected": -1.547858715057373,
+      "loss": 1.3665,
+      "nll_loss": 0.9668663144111633,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.5728206038475037,
+      "rewards/margins": 0.9750380516052246,
+      "rewards/rejected": -1.547858715057373,
+      "step": 870
+    },
+    {
+      "epoch": 0.9192383453709784,
+      "grad_norm": 88.0,
+      "learning_rate": 3.87383040616811e-08,
+      "log_odds_chosen": 1.8361127376556396,
+      "log_odds_ratio": -0.3314815163612366,
+      "logits/chosen": -2.5305237770080566,
+      "logits/rejected": -2.205706834793091,
+      "logps/chosen": -0.5290949940681458,
+      "logps/rejected": -1.7841472625732422,
+      "loss": 1.2038,
+      "nll_loss": 0.8723037838935852,
+      "rewards/accuracies": 0.871874988079071,
+      "rewards/chosen": -0.5290949940681458,
+      "rewards/margins": 1.2550525665283203,
+      "rewards/rejected": -1.7841472625732422,
+      "step": 875
+    },
+    {
+      "epoch": 0.9244911359159553,
+      "grad_norm": 59.25,
+      "learning_rate": 3.383683156523187e-08,
+      "log_odds_chosen": 1.5235865116119385,
+      "log_odds_ratio": -0.3648485541343689,
+      "logits/chosen": -2.4326975345611572,
+      "logits/rejected": -2.0849132537841797,
+      "logps/chosen": -0.5309010744094849,
+      "logps/rejected": -1.563246726989746,
+      "loss": 1.2608,
+      "nll_loss": 0.8959411382675171,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.5309010744094849,
+      "rewards/margins": 1.0323456525802612,
+      "rewards/rejected": -1.563246726989746,
+      "step": 880
+    },
+    {
+      "epoch": 0.9297439264609324,
+      "grad_norm": 33.25,
+      "learning_rate": 2.9261455305280014e-08,
+      "log_odds_chosen": 1.715073585510254,
+      "log_odds_ratio": -0.3189467787742615,
+      "logits/chosen": -2.4626471996307373,
+      "logits/rejected": -2.1226587295532227,
+      "logps/chosen": -0.5422563552856445,
+      "logps/rejected": -1.709451675415039,
+      "loss": 1.2541,
+      "nll_loss": 0.9351384043693542,
+      "rewards/accuracies": 0.8843749761581421,
+      "rewards/chosen": -0.5422563552856445,
+      "rewards/margins": 1.1671955585479736,
+      "rewards/rejected": -1.709451675415039,
+      "step": 885
+    },
+    {
+      "epoch": 0.9349967170059094,
+      "grad_norm": 60.0,
+      "learning_rate": 2.5013719547874788e-08,
+      "log_odds_chosen": 1.6406991481781006,
+      "log_odds_ratio": -0.37183278799057007,
+      "logits/chosen": -2.503505229949951,
+      "logits/rejected": -2.177072525024414,
+      "logps/chosen": -0.5782598257064819,
+      "logps/rejected": -1.7351022958755493,
+      "loss": 1.2879,
+      "nll_loss": 0.9161151051521301,
+      "rewards/accuracies": 0.8531249761581421,
+      "rewards/chosen": -0.5782598257064819,
+      "rewards/margins": 1.1568424701690674,
+      "rewards/rejected": -1.7351022958755493,
+      "step": 890
+    },
+    {
+      "epoch": 0.9402495075508864,
+      "grad_norm": 30.5,
+      "learning_rate": 2.1095057974913177e-08,
+      "log_odds_chosen": 1.5425198078155518,
+      "log_odds_ratio": -0.3476109504699707,
+      "logits/chosen": -2.463806390762329,
+      "logits/rejected": -2.2360615730285645,
+      "logps/chosen": -0.5494548082351685,
+      "logps/rejected": -1.5607731342315674,
+      "loss": 1.2287,
+      "nll_loss": 0.8811271786689758,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -0.5494548082351685,
+      "rewards/margins": 1.011318325996399,
+      "rewards/rejected": -1.5607731342315674,
+      "step": 895
+    },
+    {
+      "epoch": 0.9455022980958634,
+      "grad_norm": 40.25,
+      "learning_rate": 1.7506793200248504e-08,
+      "log_odds_chosen": 1.79372239112854,
+      "log_odds_ratio": -0.34891271591186523,
+      "logits/chosen": -2.4137704372406006,
+      "logits/rejected": -2.1525025367736816,
+      "logps/chosen": -0.5806652307510376,
+      "logps/rejected": -1.8389291763305664,
+      "loss": 1.2788,
+      "nll_loss": 0.9298731684684753,
+      "rewards/accuracies": 0.8531249761581421,
+      "rewards/chosen": -0.5806652307510376,
+      "rewards/margins": 1.2582640647888184,
+      "rewards/rejected": -1.8389291763305664,
+      "step": 900
+    },
+    {
+      "epoch": 0.9507550886408405,
+      "grad_norm": 33.75,
+      "learning_rate": 1.4250136323285866e-08,
+      "log_odds_chosen": 1.7694854736328125,
+      "log_odds_ratio": -0.339056134223938,
+      "logits/chosen": -2.458627223968506,
+      "logits/rejected": -2.133309841156006,
+      "logps/chosen": -0.5246182680130005,
+      "logps/rejected": -1.748004674911499,
+      "loss": 1.2399,
+      "nll_loss": 0.9008275866508484,
+      "rewards/accuracies": 0.840624988079071,
+      "rewards/chosen": -0.5246182680130005,
+      "rewards/margins": 1.2233861684799194,
+      "rewards/rejected": -1.748004674911499,
+      "step": 905
+    },
+    {
+      "epoch": 0.9560078791858174,
+      "grad_norm": 42.25,
+      "learning_rate": 1.1326186520215885e-08,
+      "log_odds_chosen": 1.4994810819625854,
+      "log_odds_ratio": -0.3889666199684143,
+      "logits/chosen": -2.42987322807312,
+      "logits/rejected": -2.2474777698516846,
+      "logps/chosen": -0.5686417818069458,
+      "logps/rejected": -1.6017091274261475,
+      "loss": 1.3525,
+      "nll_loss": 0.9635759592056274,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.5686417818069458,
+      "rewards/margins": 1.0330675840377808,
+      "rewards/rejected": -1.6017091274261475,
+      "step": 910
+    },
+    {
+      "epoch": 0.9612606697307945,
+      "grad_norm": 77.0,
+      "learning_rate": 8.735930673024805e-09,
+      "log_odds_chosen": 1.6517369747161865,
+      "log_odds_ratio": -0.34624212980270386,
+      "logits/chosen": -2.3800384998321533,
+      "logits/rejected": -2.0897443294525146,
+      "logps/chosen": -0.5255088806152344,
+      "logps/rejected": -1.6485977172851562,
+      "loss": 1.3009,
+      "nll_loss": 0.9546435475349426,
+      "rewards/accuracies": 0.8656250238418579,
+      "rewards/chosen": -0.5255088806152344,
+      "rewards/margins": 1.1230888366699219,
+      "rewards/rejected": -1.6485977172851562,
+      "step": 915
+    },
+    {
+      "epoch": 0.9665134602757715,
+      "grad_norm": 30.875,
+      "learning_rate": 6.480243036404598e-09,
+      "log_odds_chosen": 1.8001991510391235,
+      "log_odds_ratio": -0.3332251012325287,
+      "logits/chosen": -2.499809980392456,
+      "logits/rejected": -2.291926860809326,
+      "logps/chosen": -0.5624955892562866,
+      "logps/rejected": -1.824375867843628,
+      "loss": 1.2743,
+      "nll_loss": 0.941113293170929,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.5624955892562866,
+      "rewards/margins": 1.2618802785873413,
+      "rewards/rejected": -1.824375867843628,
+      "step": 920
+    },
+    {
+      "epoch": 0.9717662508207485,
+      "grad_norm": 44.75,
+      "learning_rate": 4.559884942677783e-09,
+      "log_odds_chosen": 1.4665955305099487,
+      "log_odds_ratio": -0.38308554887771606,
+      "logits/chosen": -2.397916078567505,
+      "logits/rejected": -2.142017126083374,
+      "logps/chosen": -0.5283843874931335,
+      "logps/rejected": -1.4880872964859009,
+      "loss": 1.2288,
+      "nll_loss": 0.8457143902778625,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.5283843874931335,
+      "rewards/margins": 0.9597029685974121,
+      "rewards/rejected": -1.4880872964859009,
+      "step": 925
+    },
+    {
+      "epoch": 0.9770190413657256,
+      "grad_norm": 47.75,
+      "learning_rate": 2.9755045448351944e-09,
+      "log_odds_chosen": 1.4579670429229736,
+      "log_odds_ratio": -0.3762872815132141,
+      "logits/chosen": -2.4584195613861084,
+      "logits/rejected": -2.198525905609131,
+      "logps/chosen": -0.5691961050033569,
+      "logps/rejected": -1.5534415245056152,
+      "loss": 1.2789,
+      "nll_loss": 0.9026187062263489,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -0.5691961050033569,
+      "rewards/margins": 0.9842453002929688,
+      "rewards/rejected": -1.5534415245056152,
+      "step": 930
+    },
+    {
+      "epoch": 0.9822718319107026,
+      "grad_norm": 49.0,
+      "learning_rate": 1.7276365977730856e-09,
+      "log_odds_chosen": 1.5441417694091797,
+      "log_odds_ratio": -0.3624028265476227,
+      "logits/chosen": -2.535742998123169,
+      "logits/rejected": -2.1748859882354736,
+      "logps/chosen": -0.5510035753250122,
+      "logps/rejected": -1.6074680089950562,
+      "loss": 1.2792,
+      "nll_loss": 0.9167704582214355,
+      "rewards/accuracies": 0.8531249761581421,
+      "rewards/chosen": -0.5510035753250122,
+      "rewards/margins": 1.056464433670044,
+      "rewards/rejected": -1.6074680089950562,
+      "step": 935
+    },
+    {
+      "epoch": 0.9875246224556796,
+      "grad_norm": 50.0,
+      "learning_rate": 8.16702277804504e-10,
+      "log_odds_chosen": 1.6150617599487305,
+      "log_odds_ratio": -0.3433099687099457,
+      "logits/chosen": -2.4907350540161133,
+      "logits/rejected": -2.166508674621582,
+      "logps/chosen": -0.5353943109512329,
+      "logps/rejected": -1.6448442935943604,
+      "loss": 1.2318,
+      "nll_loss": 0.888446033000946,
+      "rewards/accuracies": 0.8656250238418579,
+      "rewards/chosen": -0.5353943109512329,
+      "rewards/margins": 1.1094499826431274,
+      "rewards/rejected": -1.6448442935943604,
+      "step": 940
+    },
+    {
+      "epoch": 0.9927774130006566,
+      "grad_norm": 44.75,
+      "learning_rate": 2.430090405054486e-10,
+      "log_odds_chosen": 1.457880973815918,
+      "log_odds_ratio": -0.36118173599243164,
+      "logits/chosen": -2.4720263481140137,
+      "logits/rejected": -2.178345203399658,
+      "logps/chosen": -0.5418224334716797,
+      "logps/rejected": -1.4925849437713623,
+      "loss": 1.309,
+      "nll_loss": 0.9478532671928406,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.5418224334716797,
+      "rewards/margins": 0.9507624506950378,
+      "rewards/rejected": -1.4925849437713623,
+      "step": 945
+    },
+    {
+      "epoch": 0.9980302035456337,
+      "grad_norm": 33.0,
+      "learning_rate": 6.750516943321294e-12,
+      "log_odds_chosen": 1.7491207122802734,
+      "log_odds_ratio": -0.319837361574173,
+      "logits/chosen": -2.4439542293548584,
+      "logits/rejected": -2.1569535732269287,
+      "logps/chosen": -0.5160128474235535,
+      "logps/rejected": -1.7111313343048096,
+      "loss": 1.2106,
+      "nll_loss": 0.8908060193061829,
+      "rewards/accuracies": 0.871874988079071,
+      "rewards/chosen": -0.5160128474235535,
+      "rewards/margins": 1.1951183080673218,
+      "rewards/rejected": -1.7111313343048096,
+      "step": 950
+    },
+    {
+      "epoch": 0.999080761654629,
+      "step": 951,
+      "total_flos": 0.0,
+      "train_loss": 1.3879666121600178,
+      "train_runtime": 22584.718,
+      "train_samples_per_second": 2.697,
+      "train_steps_per_second": 0.042
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 951,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}