Model save

Browse files

Files changed (9) hide show

README.md +18 -18
all_results.json +4 -4
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +964 -964
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -15,15 +15,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0216
-- Rewards/chosen: -2.0018
-- Rewards/rejected: -3.2655
-- Rewards/accuracies: 0.7344
-- Rewards/margins: 1.2637
-- Logps/rejected: -638.1763
-- Logps/chosen: -503.7670
-- Logits/rejected: 0.7139
-- Logits/chosen: 0.6104
 ## Model description
@@ -60,15 +60,15 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.1135        | 0.21  | 100  | 0.1060          | -0.4112        | -0.7633          | 0.7070             | 0.3521          | -387.9543      | -344.7048    | 0.5669          | 0.5124        |
-| 0.0648        | 0.42  | 200  | 0.0664          | -0.6849        | -1.3101          | 0.7188             | 0.6252          | -442.6332      | -372.0718    | 0.3867          | 0.3105        |
-| 0.0565        | 0.63  | 300  | 0.0585          | -0.7598        | -1.4962          | 0.7305             | 0.7364          | -461.2486      | -379.5646    | 0.3625          | 0.2834        |
-| 0.0643        | 0.84  | 400  | 0.0623          | -0.6660        | -1.4002          | 0.7305             | 0.7341          | -451.6428      | -370.1878    | 0.2607          | 0.1862        |
-| 0.0214        | 1.05  | 500  | 0.0310          | -1.5688        | -2.7542          | 0.7422             | 1.1854          | -587.0469      | -460.4668    | 0.5000          | 0.4214        |
-| 0.0145        | 1.26  | 600  | 0.0245          | -1.7918        | -3.0398          | 0.7344             | 1.2481          | -615.6083      | -482.7609    | 0.6354          | 0.5416        |
-| 0.0098        | 1.47  | 700  | 0.0210          | -2.0363        | -3.3488          | 0.7305             | 1.3125          | -646.5033      | -507.2101    | 0.6871          | 0.5851        |
-| 0.0101        | 1.67  | 800  | 0.0218          | -1.9924        | -3.2641          | 0.7344             | 1.2718          | -638.0398      | -502.8234    | 0.6981          | 0.5937        |
-| 0.0103        | 1.88  | 900  | 0.0216          | -2.0018        | -3.2655          | 0.7344             | 1.2637          | -638.1763      | -503.7670    | 0.7139          | 0.6104        |
 ### Framework versions

 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5261
+- Rewards/chosen: -2.4591
+- Rewards/rejected: -3.9221
+- Rewards/accuracies: 0.7773
+- Rewards/margins: 1.4631
+- Logps/rejected: -703.8400
+- Logps/chosen: -549.4910
+- Logits/rejected: 0.0289
+- Logits/chosen: 0.0663
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.6201        | 0.21  | 100  | 0.6253          | -0.2753        | -0.6662          | 0.7031             | 0.3909          | -378.2405      | -331.1124    | 0.4172          | 0.3706        |
+| 0.5547        | 0.42  | 200  | 0.5549          | -0.6988        | -1.4726          | 0.7656             | 0.7738          | -458.8863      | -373.4661    | 0.4261          | 0.3909        |
+| 0.5343        | 0.63  | 300  | 0.5316          | -0.8044        | -1.6474          | 0.7656             | 0.8430          | -476.3628      | -384.0199    | 0.2851          | 0.2449        |
+| 0.5323        | 0.84  | 400  | 0.5211          | -0.9068        | -1.8283          | 0.7812             | 0.9216          | -494.4600      | -394.2621    | 0.2834          | 0.2514        |
+| 0.352         | 1.05  | 500  | 0.5258          | -1.9533        | -3.4166          | 0.7969             | 1.4634          | -653.2899      | -498.9117    | -0.0846         | -0.0654       |
+| 0.3342        | 1.26  | 600  | 0.5268          | -2.3123        | -3.7246          | 0.7930             | 1.4124          | -684.0857      | -534.8101    | 0.1128          | 0.1344        |
+| 0.337         | 1.47  | 700  | 0.5290          | -2.3753        | -3.8837          | 0.7773             | 1.5084          | -699.9910      | -541.1116    | 0.0099          | 0.0414        |
+| 0.3398        | 1.67  | 800  | 0.5297          | -2.5097        | -4.0133          | 0.7734             | 1.5036          | -712.9506      | -554.5546    | 0.0381          | 0.0750        |
+| 0.307         | 1.88  | 900  | 0.5261          | -2.4591        | -3.9221          | 0.7773             | 1.4631          | -703.8400      | -549.4910    | 0.0289          | 0.0663        |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.0,
-    "train_loss": 0.048426837674039463,
-    "train_runtime": 8860.0868,
     "train_samples": 61134,
-    "train_samples_per_second": 13.8,
-    "train_steps_per_second": 0.108
 }

 {
     "epoch": 2.0,
+    "train_loss": 0.44779854000739333,
+    "train_runtime": 8782.9823,
     "train_samples": 61134,
+    "train_samples_per_second": 13.921,
+    "train_steps_per_second": 0.109
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1bbf762dfc95b30382f7d12aa322403420f2fedeb1f40de707e07a41b4b65a74
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac6928598b87aa9e7ace3c1f94d7df4eaa7164f92df0fda9603ca217542e9949
 size 4976698672

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b360ad3bfe2c13ef13d8ec3499feb010e9e772efbcd73344a4fa33c853c08df
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:1832fd3b8ecfcb01bbcfbb4425fba1dbd3c57767b6fe8fe806acc6e01654a97b
 size 4999802720

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:611e09fdf80d346d40d4790f93b01096529390ec9de8882089baa707b39f1a31
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:a888c6fcef84f2cb517c57068441aa0a6ba00c8bfc4bd4c7155e79556f8133b9
 size 4915916176

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c34cb68b36e33fe3b029cc36b78c1729aa55f897d89fb8a7def6c059f706b100
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2d194b9549d875e2494134696a27103429d2e21501246a202a7415a40b5de72
 size 1168138808

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.0,
-    "train_loss": 0.048426837674039463,
-    "train_runtime": 8860.0868,
     "train_samples": 61134,
-    "train_samples_per_second": 13.8,
-    "train_steps_per_second": 0.108
 }

 {
     "epoch": 2.0,
+    "train_loss": 0.44779854000739333,
+    "train_runtime": 8782.9823,
     "train_samples": 61134,
+    "train_samples_per_second": 13.921,
+    "train_steps_per_second": 0.109
 }

trainer_state.json CHANGED Viewed

@@ -11,1485 +11,1485 @@
     {
       "epoch": 0.02,
       "learning_rate": 1.0416666666666667e-07,
-      "logits/chosen": 0.294111967086792,
-      "logits/rejected": 0.3186231553554535,
-      "logps/chosen": -295.23431396484375,
-      "logps/rejected": -290.9120178222656,
-      "loss": 0.1859,
-      "rewards/accuracies": 0.44999998807907104,
-      "rewards/chosen": 6.947966903680936e-05,
-      "rewards/margins": 0.0006955973221920431,
-      "rewards/rejected": -0.0006261176313273609,
       "step": 10
     },
     {
       "epoch": 0.04,
       "learning_rate": 2.0833333333333333e-07,
-      "logits/chosen": 0.2527770400047302,
-      "logits/rejected": 0.3252316415309906,
-      "logps/chosen": -318.26434326171875,
-      "logps/rejected": -289.712158203125,
-      "loss": 0.1867,
       "rewards/accuracies": 0.53125,
-      "rewards/chosen": -0.0002512992941774428,
-      "rewards/margins": 0.0006638198392465711,
-      "rewards/rejected": -0.0009151192498393357,
       "step": 20
     },
     {
       "epoch": 0.06,
       "learning_rate": 3.1249999999999997e-07,
-      "logits/chosen": 0.33200520277023315,
-      "logits/rejected": 0.386562705039978,
-      "logps/chosen": -296.428466796875,
-      "logps/rejected": -283.0581970214844,
-      "loss": 0.1751,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": -0.0013968495186418295,
-      "rewards/margins": 0.002019281964749098,
-      "rewards/rejected": -0.003416131716221571,
       "step": 30
     },
     {
       "epoch": 0.08,
       "learning_rate": 4.1666666666666667e-07,
-      "logits/chosen": 0.22856274247169495,
-      "logits/rejected": 0.32988241314888,
-      "logps/chosen": -305.99603271484375,
-      "logps/rejected": -293.2794189453125,
-      "loss": 0.1853,
-      "rewards/accuracies": 0.59375,
-      "rewards/chosen": -0.0037044710479676723,
-      "rewards/margins": 0.006597139872610569,
-      "rewards/rejected": -0.010301610454916954,
       "step": 40
     },
     {
       "epoch": 0.1,
       "learning_rate": 5.208333333333334e-07,
-      "logits/chosen": 0.2711636424064636,
-      "logits/rejected": 0.3201292157173157,
-      "logps/chosen": -314.5457458496094,
-      "logps/rejected": -306.9486083984375,
-      "loss": 0.1804,
-      "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": -0.008643127046525478,
-      "rewards/margins": 0.0160285122692585,
-      "rewards/rejected": -0.024671640247106552,
       "step": 50
     },
     {
       "epoch": 0.13,
       "learning_rate": 6.249999999999999e-07,
-      "logits/chosen": 0.318474680185318,
-      "logits/rejected": 0.4364282488822937,
-      "logps/chosen": -294.63751220703125,
-      "logps/rejected": -272.2162780761719,
-      "loss": 0.1829,
       "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": -0.02497897669672966,
-      "rewards/margins": 0.03536849468946457,
-      "rewards/rejected": -0.06034746766090393,
       "step": 60
     },
     {
       "epoch": 0.15,
       "learning_rate": 7.291666666666666e-07,
-      "logits/chosen": 0.3239240050315857,
-      "logits/rejected": 0.3422989249229431,
-      "logps/chosen": -304.72418212890625,
-      "logps/rejected": -310.6500549316406,
-      "loss": 0.1733,
-      "rewards/accuracies": 0.6187499761581421,
-      "rewards/chosen": -0.05714759975671768,
-      "rewards/margins": 0.04348129406571388,
-      "rewards/rejected": -0.10062889009714127,
       "step": 70
     },
     {
       "epoch": 0.17,
       "learning_rate": 8.333333333333333e-07,
-      "logits/chosen": 0.35590413212776184,
-      "logits/rejected": 0.4268670678138733,
-      "logps/chosen": -306.149169921875,
-      "logps/rejected": -279.54949951171875,
-      "loss": 0.1565,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.10662279278039932,
-      "rewards/margins": 0.10379795730113983,
-      "rewards/rejected": -0.21042077243328094,
       "step": 80
     },
     {
       "epoch": 0.19,
       "learning_rate": 9.374999999999999e-07,
-      "logits/chosen": 0.35440078377723694,
-      "logits/rejected": 0.46889105439186096,
-      "logps/chosen": -340.5415954589844,
-      "logps/rejected": -296.3750915527344,
-      "loss": 0.1275,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": -0.2491822987794876,
-      "rewards/margins": 0.09365006536245346,
-      "rewards/rejected": -0.34283238649368286,
       "step": 90
     },
     {
       "epoch": 0.21,
       "learning_rate": 9.999463737538052e-07,
-      "logits/chosen": 0.4465979039669037,
-      "logits/rejected": 0.4796988070011139,
-      "logps/chosen": -326.7769470214844,
-      "logps/rejected": -353.57916259765625,
-      "loss": 0.1135,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": -0.39248064160346985,
-      "rewards/margins": 0.1683400571346283,
-      "rewards/rejected": -0.5608206987380981,
       "step": 100
     },
     {
       "epoch": 0.21,
-      "eval_logits/chosen": 0.5124487280845642,
-      "eval_logits/rejected": 0.5669243931770325,
-      "eval_logps/chosen": -344.704833984375,
-      "eval_logps/rejected": -387.95428466796875,
-      "eval_loss": 0.10603953152894974,
-      "eval_rewards/accuracies": 0.70703125,
-      "eval_rewards/chosen": -0.4112018942832947,
-      "eval_rewards/margins": 0.35208994150161743,
-      "eval_rewards/rejected": -0.7632918357849121,
-      "eval_runtime": 72.7637,
-      "eval_samples_per_second": 27.486,
-      "eval_steps_per_second": 0.44,
       "step": 100
     },
     {
       "epoch": 0.23,
       "learning_rate": 9.993432105822034e-07,
-      "logits/chosen": 0.46603718400001526,
-      "logits/rejected": 0.5153345465660095,
-      "logps/chosen": -368.1249694824219,
-      "logps/rejected": -372.76104736328125,
-      "loss": 0.0948,
-      "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": -0.546645998954773,
-      "rewards/margins": 0.3340264856815338,
-      "rewards/rejected": -0.8806723356246948,
       "step": 110
     },
     {
       "epoch": 0.25,
       "learning_rate": 9.980706626858607e-07,
-      "logits/chosen": 0.3831257224082947,
-      "logits/rejected": 0.4766886830329895,
-      "logps/chosen": -413.6620178222656,
-      "logps/rejected": -443.69097900390625,
-      "loss": 0.0872,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.6011692881584167,
-      "rewards/margins": 0.3687607944011688,
-      "rewards/rejected": -0.9699299931526184,
       "step": 120
     },
     {
       "epoch": 0.27,
       "learning_rate": 9.961304359538434e-07,
-      "logits/chosen": 0.2602660059928894,
-      "logits/rejected": 0.38597235083580017,
-      "logps/chosen": -382.05316162109375,
-      "logps/rejected": -372.43804931640625,
-      "loss": 0.088,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -0.5223852396011353,
-      "rewards/margins": 0.23098063468933105,
-      "rewards/rejected": -0.7533659338951111,
       "step": 130
     },
     {
       "epoch": 0.29,
       "learning_rate": 9.935251313189563e-07,
-      "logits/chosen": 0.30170053243637085,
-      "logits/rejected": 0.34471625089645386,
-      "logps/chosen": -358.23101806640625,
-      "logps/rejected": -367.53643798828125,
-      "loss": 0.0912,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.44500336050987244,
-      "rewards/margins": 0.29020196199417114,
-      "rewards/rejected": -0.7352052927017212,
       "step": 140
     },
     {
       "epoch": 0.31,
       "learning_rate": 9.902582412711118e-07,
-      "logits/chosen": 0.2502862811088562,
-      "logits/rejected": 0.41286569833755493,
-      "logps/chosen": -331.702392578125,
-      "logps/rejected": -343.1724548339844,
-      "loss": 0.0805,
-      "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": -0.5062417984008789,
-      "rewards/margins": 0.3571576774120331,
-      "rewards/rejected": -0.8633993864059448,
       "step": 150
     },
     {
       "epoch": 0.33,
       "learning_rate": 9.86334145175542e-07,
-      "logits/chosen": 0.2876195013523102,
-      "logits/rejected": 0.40448102355003357,
-      "logps/chosen": -360.23065185546875,
-      "logps/rejected": -405.818603515625,
-      "loss": 0.0739,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.6673613786697388,
-      "rewards/margins": 0.4857359826564789,
-      "rewards/rejected": -1.15309739112854,
       "step": 160
     },
     {
       "epoch": 0.36,
       "learning_rate": 9.817581034021272e-07,
-      "logits/chosen": 0.2106766402721405,
-      "logits/rejected": 0.3229225277900696,
-      "logps/chosen": -428.03643798828125,
-      "logps/rejected": -429.11322021484375,
-      "loss": 0.0617,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -0.6919075846672058,
-      "rewards/margins": 0.339050829410553,
-      "rewards/rejected": -1.0309584140777588,
       "step": 170
     },
     {
       "epoch": 0.38,
       "learning_rate": 9.765362502737097e-07,
-      "logits/chosen": 0.2592887878417969,
-      "logits/rejected": 0.32125118374824524,
-      "logps/chosen": -373.13519287109375,
-      "logps/rejected": -411.79132080078125,
-      "loss": 0.0567,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.795512855052948,
-      "rewards/margins": 0.5069063901901245,
-      "rewards/rejected": -1.3024193048477173,
       "step": 180
     },
     {
       "epoch": 0.4,
       "learning_rate": 9.706755858428485e-07,
-      "logits/chosen": 0.3405285179615021,
-      "logits/rejected": 0.4521329998970032,
-      "logps/chosen": -348.65020751953125,
-      "logps/rejected": -362.8314208984375,
-      "loss": 0.0642,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.8077024221420288,
-      "rewards/margins": 0.4007204473018646,
-      "rewards/rejected": -1.2084228992462158,
       "step": 190
     },
     {
       "epoch": 0.42,
       "learning_rate": 9.641839665080363e-07,
-      "logits/chosen": 0.2780831456184387,
-      "logits/rejected": 0.38184481859207153,
-      "logps/chosen": -348.57135009765625,
-      "logps/rejected": -405.402099609375,
-      "loss": 0.0648,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -0.730074405670166,
-      "rewards/margins": 0.5448073148727417,
-      "rewards/rejected": -1.2748818397521973,
       "step": 200
     },
     {
       "epoch": 0.42,
-      "eval_logits/chosen": 0.31048065423965454,
-      "eval_logits/rejected": 0.3866545557975769,
-      "eval_logps/chosen": -372.07177734375,
-      "eval_logps/rejected": -442.6331787109375,
-      "eval_loss": 0.06636561453342438,
-      "eval_rewards/accuracies": 0.71875,
-      "eval_rewards/chosen": -0.6848713755607605,
-      "eval_rewards/margins": 0.6252094507217407,
-      "eval_rewards/rejected": -1.3100807666778564,
-      "eval_runtime": 74.8918,
-      "eval_samples_per_second": 26.705,
-      "eval_steps_per_second": 0.427,
       "step": 200
     },
     {
       "epoch": 0.44,
       "learning_rate": 9.570700944819582e-07,
-      "logits/chosen": 0.23630718886852264,
-      "logits/rejected": 0.31974127888679504,
-      "logps/chosen": -394.2319641113281,
-      "logps/rejected": -433.3797912597656,
-      "loss": 0.0565,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -0.7185484170913696,
-      "rewards/margins": 0.5530284643173218,
-      "rewards/rejected": -1.271577000617981,
       "step": 210
     },
     {
       "epoch": 0.46,
       "learning_rate": 9.493435061259129e-07,
-      "logits/chosen": 0.13368266820907593,
-      "logits/rejected": 0.32444554567337036,
-      "logps/chosen": -409.3749084472656,
-      "logps/rejected": -413.44097900390625,
-      "loss": 0.0558,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.8843868374824524,
-      "rewards/margins": 0.42033252120018005,
-      "rewards/rejected": -1.3047194480895996,
       "step": 220
     },
     {
       "epoch": 0.48,
       "learning_rate": 9.4101455916603e-07,
-      "logits/chosen": 0.23291189968585968,
-      "logits/rejected": 0.3359973430633545,
-      "logps/chosen": -385.23681640625,
-      "logps/rejected": -439.33294677734375,
-      "loss": 0.0557,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -1.0321977138519287,
-      "rewards/margins": 0.5443316102027893,
-      "rewards/rejected": -1.5765292644500732,
       "step": 230
     },
     {
       "epoch": 0.5,
       "learning_rate": 9.320944188084241e-07,
-      "logits/chosen": 0.1577446311712265,
-      "logits/rejected": 0.2382678985595703,
-      "logps/chosen": -437.01275634765625,
-      "logps/rejected": -492.4737243652344,
-      "loss": 0.0618,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.8377536535263062,
-      "rewards/margins": 0.61639404296875,
-      "rewards/rejected": -1.4541476964950562,
       "step": 240
     },
     {
       "epoch": 0.52,
       "learning_rate": 9.225950427718974e-07,
-      "logits/chosen": 0.19211766123771667,
-      "logits/rejected": 0.27316194772720337,
-      "logps/chosen": -396.7606201171875,
-      "logps/rejected": -429.4735412597656,
-      "loss": 0.0599,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.8097313046455383,
-      "rewards/margins": 0.5714440941810608,
-      "rewards/rejected": -1.3811752796173096,
       "step": 250
     },
     {
       "epoch": 0.54,
       "learning_rate": 9.125291652582547e-07,
-      "logits/chosen": 0.2013740837574005,
-      "logits/rejected": 0.3595736622810364,
-      "logps/chosen": -440.74432373046875,
-      "logps/rejected": -463.736572265625,
-      "loss": 0.0633,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -0.9895216822624207,
-      "rewards/margins": 0.7094276547431946,
-      "rewards/rejected": -1.6989490985870361,
       "step": 260
     },
     {
       "epoch": 0.57,
       "learning_rate": 9.019102798817195e-07,
-      "logits/chosen": 0.2775947153568268,
-      "logits/rejected": 0.3985646963119507,
-      "logps/chosen": -395.5704345703125,
-      "logps/rejected": -408.7200622558594,
-      "loss": 0.0775,
       "rewards/accuracies": 0.71875,
-      "rewards/chosen": -0.6699169874191284,
-      "rewards/margins": 0.4529454708099365,
-      "rewards/rejected": -1.122862458229065,
       "step": 270
     },
     {
       "epoch": 0.59,
       "learning_rate": 8.90752621580335e-07,
-      "logits/chosen": 0.25832900404930115,
-      "logits/rejected": 0.3815799355506897,
-      "logps/chosen": -392.74462890625,
-      "logps/rejected": -462.65399169921875,
-      "loss": 0.0621,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.8548792004585266,
-      "rewards/margins": 0.5883964896202087,
-      "rewards/rejected": -1.4432756900787354,
       "step": 280
     },
     {
       "epoch": 0.61,
       "learning_rate": 8.79071147533597e-07,
-      "logits/chosen": 0.27000856399536133,
-      "logits/rejected": 0.3684462904930115,
-      "logps/chosen": -373.5545654296875,
-      "logps/rejected": -402.52203369140625,
-      "loss": 0.0565,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.7661363482475281,
-      "rewards/margins": 0.4899563789367676,
-      "rewards/rejected": -1.2560927867889404,
       "step": 290
     },
     {
       "epoch": 0.63,
       "learning_rate": 8.668815171119019e-07,
-      "logits/chosen": 0.20499548316001892,
-      "logits/rejected": 0.4121769070625305,
-      "logps/chosen": -405.9000549316406,
-      "logps/rejected": -392.7608337402344,
-      "loss": 0.0565,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.9424744844436646,
-      "rewards/margins": 0.392583429813385,
-      "rewards/rejected": -1.3350577354431152,
       "step": 300
     },
     {
       "epoch": 0.63,
-      "eval_logits/chosen": 0.28342685103416443,
-      "eval_logits/rejected": 0.3624545931816101,
-      "eval_logps/chosen": -379.5645751953125,
-      "eval_logps/rejected": -461.2485656738281,
-      "eval_loss": 0.05852030962705612,
-      "eval_rewards/accuracies": 0.73046875,
-      "eval_rewards/chosen": -0.7597990036010742,
-      "eval_rewards/margins": 0.7364358305931091,
-      "eval_rewards/rejected": -1.4962347745895386,
-      "eval_runtime": 74.348,
-      "eval_samples_per_second": 26.901,
-      "eval_steps_per_second": 0.43,
       "step": 300
     },
     {
       "epoch": 0.65,
       "learning_rate": 8.54200070884685e-07,
-      "logits/chosen": 0.2647777199745178,
-      "logits/rejected": 0.28958767652511597,
-      "logps/chosen": -424.25604248046875,
-      "logps/rejected": -472.11639404296875,
-      "loss": 0.0603,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -1.0271676778793335,
-      "rewards/margins": 0.4712137281894684,
-      "rewards/rejected": -1.4983813762664795,
       "step": 310
     },
     {
       "epoch": 0.67,
       "learning_rate": 8.410438087153911e-07,
-      "logits/chosen": 0.18836882710456848,
-      "logits/rejected": 0.3168850541114807,
-      "logps/chosen": -439.59716796875,
-      "logps/rejected": -433.8974609375,
-      "loss": 0.0608,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": -0.8473286628723145,
-      "rewards/margins": 0.38924068212509155,
-      "rewards/rejected": -1.2365691661834717,
       "step": 320
     },
     {
       "epoch": 0.69,
       "learning_rate": 8.274303669726426e-07,
-      "logits/chosen": 0.23949918150901794,
-      "logits/rejected": 0.25133609771728516,
-      "logps/chosen": -380.25909423828125,
-      "logps/rejected": -497.5677185058594,
-      "loss": 0.0576,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.7643330097198486,
-      "rewards/margins": 0.8182552456855774,
-      "rewards/rejected": -1.5825883150100708,
       "step": 330
     },
     {
       "epoch": 0.71,
       "learning_rate": 8.133779948881513e-07,
-      "logits/chosen": 0.2764629125595093,
-      "logits/rejected": 0.2793533205986023,
-      "logps/chosen": -400.74652099609375,
-      "logps/rejected": -499.9100036621094,
-      "loss": 0.0488,
-      "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": -1.11314058303833,
-      "rewards/margins": 0.7436734437942505,
-      "rewards/rejected": -1.8568140268325806,
       "step": 340
     },
     {
       "epoch": 0.73,
       "learning_rate": 7.989055300930704e-07,
-      "logits/chosen": 0.321544349193573,
-      "logits/rejected": 0.34274429082870483,
-      "logps/chosen": -420.0064392089844,
-      "logps/rejected": -518.2902221679688,
-      "loss": 0.047,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -1.1256664991378784,
-      "rewards/margins": 0.7915542125701904,
-      "rewards/rejected": -1.9172207117080688,
       "step": 350
     },
     {
       "epoch": 0.75,
       "learning_rate": 7.840323733655778e-07,
-      "logits/chosen": 0.25519177317619324,
-      "logits/rejected": 0.36787793040275574,
-      "logps/chosen": -438.910400390625,
-      "logps/rejected": -482.37774658203125,
-      "loss": 0.0508,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.9125250577926636,
-      "rewards/margins": 0.8073097467422485,
-      "rewards/rejected": -1.7198346853256226,
       "step": 360
     },
     {
       "epoch": 0.77,
       "learning_rate": 7.687784626235447e-07,
-      "logits/chosen": 0.24404089152812958,
-      "logits/rejected": 0.3457106649875641,
-      "logps/chosen": -447.19036865234375,
-      "logps/rejected": -464.69091796875,
-      "loss": 0.0524,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.9422460794448853,
-      "rewards/margins": 0.6395829916000366,
-      "rewards/rejected": -1.5818291902542114,
       "step": 370
     },
     {
       "epoch": 0.8,
       "learning_rate": 7.531642461971514e-07,
-      "logits/chosen": 0.13880091905593872,
-      "logits/rejected": 0.28412070870399475,
-      "logps/chosen": -437.6341247558594,
-      "logps/rejected": -500.48712158203125,
-      "loss": 0.0526,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -1.0558099746704102,
-      "rewards/margins": 0.8256821632385254,
-      "rewards/rejected": -1.881492018699646,
       "step": 380
     },
     {
       "epoch": 0.82,
       "learning_rate": 7.372106554172801e-07,
-      "logits/chosen": 0.19525602459907532,
-      "logits/rejected": 0.29236602783203125,
-      "logps/chosen": -405.10064697265625,
-      "logps/rejected": -449.4366149902344,
-      "loss": 0.06,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.8169919848442078,
-      "rewards/margins": 0.6195858120918274,
-      "rewards/rejected": -1.4365779161453247,
       "step": 390
     },
     {
       "epoch": 0.84,
       "learning_rate": 7.209390765564318e-07,
-      "logits/chosen": 0.157417893409729,
-      "logits/rejected": 0.24023254215717316,
-      "logps/chosen": -378.41204833984375,
-      "logps/rejected": -445.98272705078125,
-      "loss": 0.0643,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.813235878944397,
-      "rewards/margins": 0.5227171182632446,
-      "rewards/rejected": -1.3359529972076416,
       "step": 400
     },
     {
       "epoch": 0.84,
-      "eval_logits/chosen": 0.18623091280460358,
-      "eval_logits/rejected": 0.2607361972332001,
-      "eval_logps/chosen": -370.18780517578125,
-      "eval_logps/rejected": -451.6427917480469,
-      "eval_loss": 0.06227795034646988,
-      "eval_rewards/accuracies": 0.73046875,
-      "eval_rewards/chosen": -0.6660312414169312,
-      "eval_rewards/margins": 0.7341459393501282,
-      "eval_rewards/rejected": -1.400177240371704,
-      "eval_runtime": 75.0562,
-      "eval_samples_per_second": 26.647,
-      "eval_steps_per_second": 0.426,
       "step": 400
     },
     {
       "epoch": 0.86,
       "learning_rate": 7.043713221597773e-07,
-      "logits/chosen": 0.13670489192008972,
-      "logits/rejected": 0.21374602615833282,
-      "logps/chosen": -379.88201904296875,
-      "logps/rejected": -425.9203186035156,
-      "loss": 0.0629,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -0.6690796613693237,
-      "rewards/margins": 0.6432248950004578,
-      "rewards/rejected": -1.3123046159744263,
       "step": 410
     },
     {
       "epoch": 0.88,
       "learning_rate": 6.875296018047809e-07,
-      "logits/chosen": 0.15494689345359802,
-      "logits/rejected": 0.22296158969402313,
-      "logps/chosen": -377.009765625,
-      "logps/rejected": -412.5980529785156,
-      "loss": 0.0605,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -0.6854912042617798,
-      "rewards/margins": 0.6449334025382996,
-      "rewards/rejected": -1.3304245471954346,
       "step": 420
     },
     {
       "epoch": 0.9,
       "learning_rate": 6.704364923285857e-07,
-      "logits/chosen": 0.10000725835561752,
-      "logits/rejected": 0.20355455577373505,
-      "logps/chosen": -442.444580078125,
-      "logps/rejected": -475.17901611328125,
-      "loss": 0.0633,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.920007050037384,
-      "rewards/margins": 0.6362106204032898,
-      "rewards/rejected": -1.5562175512313843,
       "step": 430
     },
     {
       "epoch": 0.92,
       "learning_rate": 6.531149075630796e-07,
-      "logits/chosen": 0.18681207299232483,
-      "logits/rejected": 0.24837341904640198,
-      "logps/chosen": -394.078857421875,
-      "logps/rejected": -446.2527770996094,
-      "loss": 0.0585,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.9974417686462402,
-      "rewards/margins": 0.7502747774124146,
-      "rewards/rejected": -1.7477165460586548,
       "step": 440
     },
     {
       "epoch": 0.94,
       "learning_rate": 6.355880676182085e-07,
-      "logits/chosen": 0.1681515872478485,
-      "logits/rejected": 0.34068578481674194,
-      "logps/chosen": -438.5791015625,
-      "logps/rejected": -468.8702087402344,
-      "loss": 0.056,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.959572434425354,
-      "rewards/margins": 0.6984410881996155,
-      "rewards/rejected": -1.6580133438110352,
       "step": 450
     },
     {
       "epoch": 0.96,
       "learning_rate": 6.178794677547137e-07,
-      "logits/chosen": 0.22829516232013702,
-      "logits/rejected": 0.33127135038375854,
-      "logps/chosen": -417.236572265625,
-      "logps/rejected": -454.47930908203125,
-      "loss": 0.0488,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -1.1504933834075928,
-      "rewards/margins": 0.6518447399139404,
-      "rewards/rejected": -1.8023380041122437,
       "step": 460
     },
     {
       "epoch": 0.98,
       "learning_rate": 6.000128468880222e-07,
-      "logits/chosen": 0.1735696941614151,
-      "logits/rejected": 0.23917797207832336,
-      "logps/chosen": -441.33526611328125,
-      "logps/rejected": -507.3721618652344,
-      "loss": 0.0469,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -1.0348496437072754,
-      "rewards/margins": 0.6962344646453857,
-      "rewards/rejected": -1.7310841083526611,
       "step": 470
     },
     {
       "epoch": 1.0,
       "learning_rate": 5.820121557655108e-07,
-      "logits/chosen": 0.16151778399944305,
-      "logits/rejected": 0.30070850253105164,
-      "logps/chosen": -389.2116394042969,
-      "logps/rejected": -456.37554931640625,
-      "loss": 0.0468,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -0.9426639676094055,
-      "rewards/margins": 0.6416986584663391,
-      "rewards/rejected": -1.5843626260757446,
       "step": 480
     },
     {
       "epoch": 1.03,
       "learning_rate": 5.639015248598023e-07,
-      "logits/chosen": 0.2655644118785858,
-      "logits/rejected": 0.3393844962120056,
-      "logps/chosen": -394.0737609863281,
-      "logps/rejected": -481.3250427246094,
-      "loss": 0.0334,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -0.886431097984314,
-      "rewards/margins": 1.0793970823287964,
-      "rewards/rejected": -1.9658282995224,
       "step": 490
     },
     {
       "epoch": 1.05,
       "learning_rate": 5.457052320211339e-07,
-      "logits/chosen": 0.30765271186828613,
-      "logits/rejected": 0.33542585372924805,
-      "logps/chosen": -416.736083984375,
-      "logps/rejected": -526.0009765625,
-      "loss": 0.0214,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -1.1540133953094482,
-      "rewards/margins": 1.152156114578247,
-      "rewards/rejected": -2.3061697483062744,
       "step": 500
     },
     {
       "epoch": 1.05,
-      "eval_logits/chosen": 0.4214042127132416,
-      "eval_logits/rejected": 0.4999687075614929,
-      "eval_logps/chosen": -460.466796875,
-      "eval_logps/rejected": -587.046875,
-      "eval_loss": 0.030972089618444443,
-      "eval_rewards/accuracies": 0.7421875,
-      "eval_rewards/chosen": -1.5688213109970093,
-      "eval_rewards/margins": 1.185396432876587,
-      "eval_rewards/rejected": -2.7542178630828857,
-      "eval_runtime": 74.4978,
-      "eval_samples_per_second": 26.846,
-      "eval_steps_per_second": 0.43,
       "step": 500
     },
     {
       "epoch": 1.07,
       "learning_rate": 5.274476699321637e-07,
-      "logits/chosen": 0.35821476578712463,
-      "logits/rejected": 0.46395426988601685,
-      "logps/chosen": -462.271484375,
-      "logps/rejected": -581.0950927734375,
-      "loss": 0.0148,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -1.6695778369903564,
-      "rewards/margins": 1.4044713973999023,
-      "rewards/rejected": -3.074049472808838,
       "step": 510
     },
     {
       "epoch": 1.09,
       "learning_rate": 5.091533134088387e-07,
-      "logits/chosen": 0.3840331435203552,
-      "logits/rejected": 0.5413318872451782,
-      "logps/chosen": -466.8184509277344,
-      "logps/rejected": -561.7572631835938,
-      "loss": 0.0145,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -1.635196328163147,
-      "rewards/margins": 1.1625127792358398,
-      "rewards/rejected": -2.7977089881896973,
       "step": 520
     },
     {
       "epoch": 1.11,
       "learning_rate": 4.908466865911614e-07,
-      "logits/chosen": 0.3811998963356018,
-      "logits/rejected": 0.5391031503677368,
-      "logps/chosen": -462.8243103027344,
-      "logps/rejected": -599.1219482421875,
-      "loss": 0.0153,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.5375772714614868,
-      "rewards/margins": 1.5291885137557983,
-      "rewards/rejected": -3.066765785217285,
       "step": 530
     },
     {
       "epoch": 1.13,
       "learning_rate": 4.7255233006783624e-07,
-      "logits/chosen": 0.29220065474510193,
-      "logits/rejected": 0.5385439395904541,
-      "logps/chosen": -494.8135681152344,
-      "logps/rejected": -553.2826538085938,
-      "loss": 0.0152,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -1.4295642375946045,
-      "rewards/margins": 1.265754222869873,
-      "rewards/rejected": -2.6953186988830566,
       "step": 540
     },
     {
       "epoch": 1.15,
       "learning_rate": 4.5429476797886617e-07,
-      "logits/chosen": 0.36708998680114746,
-      "logits/rejected": 0.4897306561470032,
-      "logps/chosen": -459.0501403808594,
-      "logps/rejected": -559.3533935546875,
-      "loss": 0.0156,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -1.6044361591339111,
-      "rewards/margins": 1.0187304019927979,
-      "rewards/rejected": -2.623166561126709,
       "step": 550
     },
     {
       "epoch": 1.17,
       "learning_rate": 4.3609847514019763e-07,
-      "logits/chosen": 0.401399701833725,
-      "logits/rejected": 0.5879624485969543,
-      "logps/chosen": -483.4132385253906,
-      "logps/rejected": -575.8525390625,
-      "loss": 0.0143,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -1.5152244567871094,
-      "rewards/margins": 1.3872954845428467,
-      "rewards/rejected": -2.902519702911377,
       "step": 560
     },
     {
       "epoch": 1.19,
       "learning_rate": 4.179878442344892e-07,
-      "logits/chosen": 0.3999864161014557,
-      "logits/rejected": 0.5597594976425171,
-      "logps/chosen": -466.9307556152344,
-      "logps/rejected": -579.4730834960938,
-      "loss": 0.0142,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -1.7734342813491821,
-      "rewards/margins": 1.3825814723968506,
-      "rewards/rejected": -3.1560158729553223,
       "step": 570
     },
     {
       "epoch": 1.21,
       "learning_rate": 3.9998715311197783e-07,
-      "logits/chosen": 0.43183040618896484,
-      "logits/rejected": 0.49680033326148987,
-      "logps/chosen": -505.7025451660156,
-      "logps/rejected": -659.0694580078125,
-      "loss": 0.0109,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -2.024803638458252,
-      "rewards/margins": 1.5267921686172485,
-      "rewards/rejected": -3.5515952110290527,
       "step": 580
     },
     {
       "epoch": 1.23,
       "learning_rate": 3.821205322452863e-07,
-      "logits/chosen": 0.45015770196914673,
-      "logits/rejected": 0.6397759318351746,
-      "logps/chosen": -516.25830078125,
-      "logps/rejected": -631.279052734375,
-      "loss": 0.0115,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -1.9833446741104126,
-      "rewards/margins": 1.3147289752960205,
-      "rewards/rejected": -3.2980740070343018,
       "step": 590
     },
     {
       "epoch": 1.26,
       "learning_rate": 3.6441193238179146e-07,
-      "logits/chosen": 0.46848899126052856,
-      "logits/rejected": 0.5270673036575317,
-      "logps/chosen": -509.9579162597656,
-      "logps/rejected": -689.2035522460938,
-      "loss": 0.0145,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -1.8605167865753174,
-      "rewards/margins": 1.5842502117156982,
-      "rewards/rejected": -3.4447669982910156,
       "step": 600
     },
     {
       "epoch": 1.26,
-      "eval_logits/chosen": 0.5416067838668823,
-      "eval_logits/rejected": 0.63544762134552,
-      "eval_logps/chosen": -482.76092529296875,
-      "eval_logps/rejected": -615.6082763671875,
-      "eval_loss": 0.024462632834911346,
-      "eval_rewards/accuracies": 0.734375,
-      "eval_rewards/chosen": -1.7917625904083252,
-      "eval_rewards/margins": 1.2480695247650146,
-      "eval_rewards/rejected": -3.039832353591919,
-      "eval_runtime": 75.4471,
-      "eval_samples_per_second": 26.509,
-      "eval_steps_per_second": 0.424,
       "step": 600
     },
     {
       "epoch": 1.28,
       "learning_rate": 3.4688509243692034e-07,
-      "logits/chosen": 0.47085338830947876,
-      "logits/rejected": 0.5862728357315063,
-      "logps/chosen": -508.70098876953125,
-      "logps/rejected": -643.3338623046875,
-      "loss": 0.0121,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -1.7418628931045532,
-      "rewards/margins": 1.5565435886383057,
-      "rewards/rejected": -3.2984061241149902,
       "step": 610
     },
     {
       "epoch": 1.3,
       "learning_rate": 3.295635076714144e-07,
-      "logits/chosen": 0.3978613018989563,
-      "logits/rejected": 0.5926721096038818,
-      "logps/chosen": -494.2681579589844,
-      "logps/rejected": -604.7338256835938,
-      "loss": 0.0114,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -1.8917449712753296,
-      "rewards/margins": 1.2589935064315796,
-      "rewards/rejected": -3.1507387161254883,
       "step": 620
     },
     {
       "epoch": 1.32,
       "learning_rate": 3.12470398195219e-07,
-      "logits/chosen": 0.4904108941555023,
-      "logits/rejected": 0.6586324572563171,
-      "logps/chosen": -502.24322509765625,
-      "logps/rejected": -618.8930053710938,
-      "loss": 0.0112,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.9003562927246094,
-      "rewards/margins": 1.4167784452438354,
-      "rewards/rejected": -3.3171348571777344,
       "step": 630
     },
     {
       "epoch": 1.34,
       "learning_rate": 2.956286778402226e-07,
-      "logits/chosen": 0.4602645933628082,
-      "logits/rejected": 0.5689934492111206,
-      "logps/chosen": -449.55718994140625,
-      "logps/rejected": -578.3916625976562,
-      "loss": 0.0118,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.755163550376892,
-      "rewards/margins": 1.4266632795333862,
-      "rewards/rejected": -3.1818270683288574,
       "step": 640
     },
     {
       "epoch": 1.36,
       "learning_rate": 2.7906092344356826e-07,
-      "logits/chosen": 0.4582684636116028,
-      "logits/rejected": 0.5123009085655212,
-      "logps/chosen": -464.2190856933594,
-      "logps/rejected": -599.2928466796875,
-      "loss": 0.0127,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -1.6637153625488281,
-      "rewards/margins": 1.4032952785491943,
-      "rewards/rejected": -3.0670104026794434,
       "step": 650
     },
     {
       "epoch": 1.38,
       "learning_rate": 2.6278934458271996e-07,
-      "logits/chosen": 0.3585265576839447,
-      "logits/rejected": 0.5152703523635864,
-      "logps/chosen": -539.8528442382812,
-      "logps/rejected": -647.3905029296875,
-      "loss": 0.0106,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -1.8331562280654907,
-      "rewards/margins": 1.5139731168746948,
-      "rewards/rejected": -3.3471293449401855,
       "step": 660
     },
     {
       "epoch": 1.4,
       "learning_rate": 2.468357538028487e-07,
-      "logits/chosen": 0.4794502854347229,
-      "logits/rejected": 0.6796830892562866,
-      "logps/chosen": -531.4798583984375,
-      "logps/rejected": -636.687255859375,
-      "loss": 0.0106,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -2.1033949851989746,
-      "rewards/margins": 1.3440332412719727,
-      "rewards/rejected": -3.4474282264709473,
       "step": 670
     },
     {
       "epoch": 1.42,
       "learning_rate": 2.312215373764551e-07,
-      "logits/chosen": 0.48690152168273926,
-      "logits/rejected": 0.6909142136573792,
-      "logps/chosen": -482.9384765625,
-      "logps/rejected": -627.9971313476562,
-      "loss": 0.0105,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -1.8502315282821655,
-      "rewards/margins": 1.5311414003372192,
-      "rewards/rejected": -3.381373167037964,
       "step": 680
     },
     {
       "epoch": 1.44,
       "learning_rate": 2.1596762663442213e-07,
-      "logits/chosen": 0.40491142868995667,
-      "logits/rejected": 0.6269996166229248,
-      "logps/chosen": -517.865234375,
-      "logps/rejected": -638.0469970703125,
-      "loss": 0.0118,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -1.894121766090393,
-      "rewards/margins": 1.5707839727401733,
-      "rewards/rejected": -3.4649059772491455,
       "step": 690
     },
     {
       "epoch": 1.47,
       "learning_rate": 2.0109446990692963e-07,
-      "logits/chosen": 0.4644289016723633,
-      "logits/rejected": 0.5091214179992676,
-      "logps/chosen": -506.99554443359375,
-      "logps/rejected": -711.6946411132812,
-      "loss": 0.0098,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -1.9687172174453735,
-      "rewards/margins": 1.7158300876617432,
-      "rewards/rejected": -3.684546709060669,
       "step": 700
     },
     {
       "epoch": 1.47,
-      "eval_logits/chosen": 0.5851482152938843,
-      "eval_logits/rejected": 0.6870884299278259,
-      "eval_logps/chosen": -507.2100830078125,
-      "eval_logps/rejected": -646.5032958984375,
-      "eval_loss": 0.02104853093624115,
-      "eval_rewards/accuracies": 0.73046875,
-      "eval_rewards/chosen": -2.0362541675567627,
-      "eval_rewards/margins": 1.3125278949737549,
-      "eval_rewards/rejected": -3.3487820625305176,
-      "eval_runtime": 74.9024,
-      "eval_samples_per_second": 26.701,
-      "eval_steps_per_second": 0.427,
       "step": 700
     },
     {
       "epoch": 1.49,
       "learning_rate": 1.8662200511184872e-07,
-      "logits/chosen": 0.5449516773223877,
-      "logits/rejected": 0.7054388523101807,
-      "logps/chosen": -489.23712158203125,
-      "logps/rejected": -618.7713623046875,
-      "loss": 0.0106,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -1.8367626667022705,
-      "rewards/margins": 1.529603362083435,
-      "rewards/rejected": -3.366366147994995,
       "step": 710
     },
     {
       "epoch": 1.51,
       "learning_rate": 1.725696330273575e-07,
-      "logits/chosen": 0.4658689498901367,
-      "logits/rejected": 0.5483459234237671,
-      "logps/chosen": -499.9456481933594,
-      "logps/rejected": -656.5256958007812,
-      "loss": 0.0115,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -1.7960010766983032,
-      "rewards/margins": 1.747243881225586,
-      "rewards/rejected": -3.5432448387145996,
       "step": 720
     },
     {
       "epoch": 1.53,
       "learning_rate": 1.589561912846089e-07,
-      "logits/chosen": 0.5471647381782532,
-      "logits/rejected": 0.7508308291435242,
-      "logps/chosen": -486.8019104003906,
-      "logps/rejected": -648.6491088867188,
-      "loss": 0.012,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -1.7438154220581055,
-      "rewards/margins": 1.5669682025909424,
-      "rewards/rejected": -3.310783863067627,
       "step": 730
     },
     {
       "epoch": 1.55,
       "learning_rate": 1.4579992911531496e-07,
-      "logits/chosen": 0.43005961179733276,
-      "logits/rejected": 0.5700550079345703,
-      "logps/chosen": -507.7278747558594,
-      "logps/rejected": -604.3984375,
-      "loss": 0.0111,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -1.9238866567611694,
-      "rewards/margins": 1.2898902893066406,
-      "rewards/rejected": -3.2137768268585205,
       "step": 740
     },
     {
       "epoch": 1.57,
       "learning_rate": 1.3311848288809813e-07,
-      "logits/chosen": 0.5181199312210083,
-      "logits/rejected": 0.7587286233901978,
-      "logps/chosen": -517.6824951171875,
-      "logps/rejected": -604.0447387695312,
-      "loss": 0.0114,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -1.8500522375106812,
-      "rewards/margins": 1.3126447200775146,
-      "rewards/rejected": -3.1626968383789062,
       "step": 750
     },
     {
       "epoch": 1.59,
       "learning_rate": 1.209288524664029e-07,
-      "logits/chosen": 0.38817617297172546,
-      "logits/rejected": 0.6967793703079224,
-      "logps/chosen": -534.35888671875,
-      "logps/rejected": -617.2965087890625,
-      "loss": 0.0116,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -1.964895248413086,
-      "rewards/margins": 1.3300648927688599,
-      "rewards/rejected": -3.2949604988098145,
       "step": 760
     },
     {
       "epoch": 1.61,
       "learning_rate": 1.0924737841966497e-07,
-      "logits/chosen": 0.657262921333313,
-      "logits/rejected": 0.8421579599380493,
-      "logps/chosen": -479.6363220214844,
-      "logps/rejected": -551.2875366210938,
-      "loss": 0.0107,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -1.988033652305603,
-      "rewards/margins": 1.0586892366409302,
-      "rewards/rejected": -3.046722888946533,
       "step": 770
     },
     {
       "epoch": 1.63,
       "learning_rate": 9.808972011828054e-08,
-      "logits/chosen": 0.534065842628479,
-      "logits/rejected": 0.7022881507873535,
-      "logps/chosen": -485.6368713378906,
-      "logps/rejected": -590.6656494140625,
-      "loss": 0.0112,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -1.9203450679779053,
-      "rewards/margins": 1.1289684772491455,
-      "rewards/rejected": -3.04931378364563,
       "step": 780
     },
     {
       "epoch": 1.65,
       "learning_rate": 8.747083474174527e-08,
-      "logits/chosen": 0.6039692163467407,
-      "logits/rejected": 0.7411171197891235,
-      "logps/chosen": -460.4100646972656,
-      "logps/rejected": -635.5348510742188,
-      "loss": 0.01,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -1.8810646533966064,
-      "rewards/margins": 1.626961350440979,
-      "rewards/rejected": -3.508026123046875,
       "step": 790
     },
     {
       "epoch": 1.67,
       "learning_rate": 7.740495722810269e-08,
-      "logits/chosen": 0.35127943754196167,
-      "logits/rejected": 0.535417914390564,
-      "logps/chosen": -558.7343139648438,
-      "logps/rejected": -669.262451171875,
-      "loss": 0.0101,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -2.1135106086730957,
-      "rewards/margins": 1.4616328477859497,
-      "rewards/rejected": -3.575143337249756,
       "step": 800
     },
     {
       "epoch": 1.67,
-      "eval_logits/chosen": 0.5936872959136963,
-      "eval_logits/rejected": 0.6981104016304016,
-      "eval_logps/chosen": -502.8233642578125,
-      "eval_logps/rejected": -638.039794921875,
-      "eval_loss": 0.021807128563523293,
-      "eval_rewards/accuracies": 0.734375,
-      "eval_rewards/chosen": -1.992387056350708,
-      "eval_rewards/margins": 1.2717599868774414,
-      "eval_rewards/rejected": -3.2641468048095703,
-      "eval_runtime": 73.4364,
-      "eval_samples_per_second": 27.234,
-      "eval_steps_per_second": 0.436,
       "step": 800
     },
     {
       "epoch": 1.7,
       "learning_rate": 6.790558119157597e-08,
-      "logits/chosen": 0.514393150806427,
-      "logits/rejected": 0.7291263341903687,
-      "logps/chosen": -525.2340698242188,
-      "logps/rejected": -616.1982421875,
-      "loss": 0.0106,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -1.9875078201293945,
-      "rewards/margins": 1.2109524011611938,
-      "rewards/rejected": -3.198460102081299,
       "step": 810
     },
     {
       "epoch": 1.72,
       "learning_rate": 5.898544083397e-08,
-      "logits/chosen": 0.5488702654838562,
-      "logits/rejected": 0.6949459910392761,
-      "logps/chosen": -483.0582580566406,
-      "logps/rejected": -598.3394775390625,
-      "loss": 0.0115,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -1.958407998085022,
-      "rewards/margins": 1.3388407230377197,
-      "rewards/rejected": -3.2972488403320312,
       "step": 820
     },
     {
       "epoch": 1.74,
       "learning_rate": 5.065649387408705e-08,
-      "logits/chosen": 0.5013612508773804,
-      "logits/rejected": 0.5702673196792603,
-      "logps/chosen": -528.1060180664062,
-      "logps/rejected": -625.3968505859375,
-      "loss": 0.012,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -2.1246533393859863,
-      "rewards/margins": 1.261916995048523,
-      "rewards/rejected": -3.3865699768066406,
       "step": 830
     },
     {
       "epoch": 1.76,
       "learning_rate": 4.292990551804171e-08,
-      "logits/chosen": 0.42700353264808655,
-      "logits/rejected": 0.6631879806518555,
-      "logps/chosen": -502.4617614746094,
-      "logps/rejected": -618.699462890625,
-      "loss": 0.0114,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -1.8777034282684326,
-      "rewards/margins": 1.4012324810028076,
-      "rewards/rejected": -3.2789359092712402,
       "step": 840
     },
     {
       "epoch": 1.78,
       "learning_rate": 3.581603349196371e-08,
-      "logits/chosen": 0.5486747026443481,
-      "logits/rejected": 0.7163097262382507,
-      "logps/chosen": -501.1570739746094,
-      "logps/rejected": -640.0488891601562,
-      "loss": 0.0102,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -1.7478796243667603,
-      "rewards/margins": 1.5438367128372192,
-      "rewards/rejected": -3.2917160987854004,
       "step": 850
     },
     {
       "epoch": 1.8,
       "learning_rate": 2.9324414157151367e-08,
-      "logits/chosen": 0.4644288420677185,
-      "logits/rejected": 0.6574305891990662,
-      "logps/chosen": -473.5594787597656,
-      "logps/rejected": -598.8511962890625,
-      "loss": 0.0108,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -1.788891077041626,
-      "rewards/margins": 1.2945648431777954,
-      "rewards/rejected": -3.083456039428711,
       "step": 860
     },
     {
       "epoch": 1.82,
       "learning_rate": 2.3463749726290284e-08,
-      "logits/chosen": 0.49835458397865295,
-      "logits/rejected": 0.6767226457595825,
-      "logps/chosen": -532.7442016601562,
-      "logps/rejected": -652.2874755859375,
-      "loss": 0.0114,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -1.964927315711975,
-      "rewards/margins": 1.482194185256958,
-      "rewards/rejected": -3.4471213817596436,
       "step": 870
     },
     {
       "epoch": 1.84,
       "learning_rate": 1.824189659787284e-08,
-      "logits/chosen": 0.432788610458374,
-      "logits/rejected": 0.6490308046340942,
-      "logps/chosen": -524.7098388671875,
-      "logps/rejected": -685.0862426757812,
-      "loss": 0.0119,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -1.886285424232483,
-      "rewards/margins": 1.6881020069122314,
-      "rewards/rejected": -3.5743870735168457,
       "step": 880
     },
     {
       "epoch": 1.86,
       "learning_rate": 1.3665854824458035e-08,
-      "logits/chosen": 0.45631036162376404,
-      "logits/rejected": 0.6264600157737732,
-      "logps/chosen": -514.7445068359375,
-      "logps/rejected": -619.1950073242188,
-      "loss": 0.011,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.918135643005371,
-      "rewards/margins": 1.308524250984192,
-      "rewards/rejected": -3.2266597747802734,
       "step": 890
     },
     {
       "epoch": 1.88,
       "learning_rate": 9.741758728888217e-09,
-      "logits/chosen": 0.4965108036994934,
-      "logits/rejected": 0.7444375157356262,
-      "logps/chosen": -533.3218994140625,
-      "logps/rejected": -607.4019165039062,
-      "loss": 0.0103,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -2.0954043865203857,
-      "rewards/margins": 1.2425765991210938,
-      "rewards/rejected": -3.3379809856414795,
       "step": 900
     },
     {
       "epoch": 1.88,
-      "eval_logits/chosen": 0.610427975654602,
-      "eval_logits/rejected": 0.7138903141021729,
-      "eval_logps/chosen": -503.7669677734375,
-      "eval_logps/rejected": -638.1763305664062,
-      "eval_loss": 0.021610137075185776,
-      "eval_rewards/accuracies": 0.734375,
-      "eval_rewards/chosen": -2.0018229484558105,
-      "eval_rewards/margins": 1.2636897563934326,
-      "eval_rewards/rejected": -3.2655129432678223,
-      "eval_runtime": 74.571,
-      "eval_samples_per_second": 26.82,
-      "eval_steps_per_second": 0.429,
       "step": 900
     },
     {
       "epoch": 1.9,
       "learning_rate": 6.474868681043577e-09,
-      "logits/chosen": 0.5612128973007202,
-      "logits/rejected": 0.8626712560653687,
-      "logps/chosen": -493.08551025390625,
-      "logps/rejected": -595.2066650390625,
-      "loss": 0.0104,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -1.881819486618042,
-      "rewards/margins": 1.3230464458465576,
-      "rewards/rejected": -3.2048659324645996,
       "step": 910
     },
     {
       "epoch": 1.93,
       "learning_rate": 3.869564046156459e-09,
-      "logits/chosen": 0.33559730648994446,
-      "logits/rejected": 0.5526424646377563,
-      "logps/chosen": -545.949951171875,
-      "logps/rejected": -630.3507080078125,
-      "loss": 0.0106,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -2.0992321968078613,
-      "rewards/margins": 1.3220652341842651,
-      "rewards/rejected": -3.421297550201416,
       "step": 920
     },
     {
       "epoch": 1.95,
       "learning_rate": 1.929337314139412e-09,
-      "logits/chosen": 0.3952362537384033,
-      "logits/rejected": 0.6363921165466309,
-      "logps/chosen": -528.9135131835938,
-      "logps/rejected": -657.9598388671875,
-      "loss": 0.0099,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -1.9300628900527954,
-      "rewards/margins": 1.5338274240493774,
-      "rewards/rejected": -3.4638900756835938,
       "step": 930
     },
     {
       "epoch": 1.97,
       "learning_rate": 6.567894177967325e-10,
-      "logits/chosen": 0.44664573669433594,
-      "logits/rejected": 0.6714277267456055,
-      "logps/chosen": -544.5101928710938,
-      "logps/rejected": -673.3298950195312,
-      "loss": 0.0113,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -2.0046563148498535,
-      "rewards/margins": 1.3531763553619385,
-      "rewards/rejected": -3.35783314704895,
       "step": 940
     },
     {
       "epoch": 1.99,
       "learning_rate": 5.3626246194704575e-11,
-      "logits/chosen": 0.5509423017501831,
-      "logits/rejected": 0.6711171865463257,
-      "logps/chosen": -456.3231506347656,
-      "logps/rejected": -598.7819213867188,
-      "loss": 0.0095,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -1.7993762493133545,
-      "rewards/margins": 1.4040424823760986,
-      "rewards/rejected": -3.203418731689453,
       "step": 950
     },
     {
       "epoch": 2.0,
       "step": 954,
       "total_flos": 0.0,
-      "train_loss": 0.048426837674039463,
-      "train_runtime": 8860.0868,
-      "train_samples_per_second": 13.8,
-      "train_steps_per_second": 0.108
     }
   ],
   "logging_steps": 10,

     {
       "epoch": 0.02,
       "learning_rate": 1.0416666666666667e-07,
+      "logits/chosen": 0.29368966817855835,
+      "logits/rejected": 0.3178113102912903,
+      "logps/chosen": -295.21783447265625,
+      "logps/rejected": -290.84619140625,
+      "loss": 0.6933,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": 0.00023447822604794055,
+      "rewards/margins": 0.00020264319027774036,
+      "rewards/rejected": 3.183506123605184e-05,
       "step": 10
     },
     {
       "epoch": 0.04,
       "learning_rate": 2.0833333333333333e-07,
+      "logits/chosen": 0.25306791067123413,
+      "logits/rejected": 0.3252382278442383,
+      "logps/chosen": -318.19073486328125,
+      "logps/rejected": -289.6706237792969,
+      "loss": 0.6929,
       "rewards/accuracies": 0.53125,
+      "rewards/chosen": 0.00048495858209207654,
+      "rewards/margins": 0.0009848512709140778,
+      "rewards/rejected": -0.0004998926888220012,
       "step": 20
     },
     {
       "epoch": 0.06,
       "learning_rate": 3.1249999999999997e-07,
+      "logits/chosen": 0.33226653933525085,
+      "logits/rejected": 0.3872108459472656,
+      "logps/chosen": -296.3697204589844,
+      "logps/rejected": -283.0611877441406,
+      "loss": 0.692,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.0008094090735539794,
+      "rewards/margins": 0.0026363185606896877,
+      "rewards/rejected": -0.003445727750658989,
       "step": 30
     },
     {
       "epoch": 0.08,
       "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": 0.22801101207733154,
+      "logits/rejected": 0.32900214195251465,
+      "logps/chosen": -305.9015197753906,
+      "logps/rejected": -293.1842346191406,
+      "loss": 0.6883,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.0027595984283834696,
+      "rewards/margins": 0.006589935161173344,
+      "rewards/rejected": -0.00934953335672617,
       "step": 40
     },
     {
       "epoch": 0.1,
       "learning_rate": 5.208333333333334e-07,
+      "logits/chosen": 0.27091675996780396,
+      "logits/rejected": 0.31866759061813354,
+      "logps/chosen": -314.2833557128906,
+      "logps/rejected": -307.02532958984375,
+      "loss": 0.683,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.0060192132368683815,
+      "rewards/margins": 0.019419629126787186,
+      "rewards/rejected": -0.025438839569687843,
       "step": 50
     },
     {
       "epoch": 0.13,
       "learning_rate": 6.249999999999999e-07,
+      "logits/chosen": 0.31704145669937134,
+      "logits/rejected": 0.4334793984889984,
+      "logps/chosen": -294.429931640625,
+      "logps/rejected": -272.87994384765625,
+      "loss": 0.6735,
       "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.022902976721525192,
+      "rewards/margins": 0.04408121109008789,
+      "rewards/rejected": -0.06698418408632278,
       "step": 60
     },
     {
       "epoch": 0.15,
       "learning_rate": 7.291666666666666e-07,
+      "logits/chosen": 0.31964099407196045,
+      "logits/rejected": 0.3377896547317505,
+      "logps/chosen": -304.6803894042969,
+      "logps/rejected": -311.32794189453125,
+      "loss": 0.6602,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.05670947954058647,
+      "rewards/margins": 0.05069820210337639,
+      "rewards/rejected": -0.10740767419338226,
       "step": 70
     },
     {
       "epoch": 0.17,
       "learning_rate": 8.333333333333333e-07,
+      "logits/chosen": 0.35048729181289673,
+      "logits/rejected": 0.4193252921104431,
+      "logps/chosen": -306.3404541015625,
+      "logps/rejected": -282.4783020019531,
+      "loss": 0.6474,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.10853584855794907,
+      "rewards/margins": 0.13117292523384094,
+      "rewards/rejected": -0.2397087812423706,
       "step": 80
     },
     {
       "epoch": 0.19,
       "learning_rate": 9.374999999999999e-07,
+      "logits/chosen": 0.32813602685928345,
+      "logits/rejected": 0.4464220404624939,
+      "logps/chosen": -341.1703186035156,
+      "logps/rejected": -299.92340087890625,
+      "loss": 0.6357,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.2554694712162018,
+      "rewards/margins": 0.12284588813781738,
+      "rewards/rejected": -0.37831538915634155,
       "step": 90
     },
     {
       "epoch": 0.21,
       "learning_rate": 9.999463737538052e-07,
+      "logits/chosen": 0.35799938440322876,
+      "logits/rejected": 0.3899138271808624,
+      "logps/chosen": -318.7712097167969,
+      "logps/rejected": -348.5688781738281,
+      "loss": 0.6201,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.3124231994152069,
+      "rewards/margins": 0.19829413294792175,
+      "rewards/rejected": -0.5107173323631287,
       "step": 100
     },
     {
       "epoch": 0.21,
+      "eval_logits/chosen": 0.3705582916736603,
+      "eval_logits/rejected": 0.4172414541244507,
+      "eval_logps/chosen": -331.11236572265625,
+      "eval_logps/rejected": -378.240478515625,
+      "eval_loss": 0.6252639293670654,
+      "eval_rewards/accuracies": 0.703125,
+      "eval_rewards/chosen": -0.27527713775634766,
+      "eval_rewards/margins": 0.3908771872520447,
+      "eval_rewards/rejected": -0.6661543846130371,
+      "eval_runtime": 64.993,
+      "eval_samples_per_second": 30.773,
+      "eval_steps_per_second": 0.492,
       "step": 100
     },
     {
       "epoch": 0.23,
       "learning_rate": 9.993432105822034e-07,
+      "logits/chosen": 0.3002661168575287,
+      "logits/rejected": 0.3483879864215851,
+      "logps/chosen": -350.9095458984375,
+      "logps/rejected": -360.30963134765625,
+      "loss": 0.6093,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.37449145317077637,
+      "rewards/margins": 0.3816668689250946,
+      "rewards/rejected": -0.7561584115028381,
       "step": 110
     },
     {
       "epoch": 0.25,
       "learning_rate": 9.980706626858607e-07,
+      "logits/chosen": 0.2088731825351715,
+      "logits/rejected": 0.2899537980556488,
+      "logps/chosen": -395.3984069824219,
+      "logps/rejected": -433.7286682128906,
+      "loss": 0.5905,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.4185329079627991,
+      "rewards/margins": 0.4517739713191986,
+      "rewards/rejected": -0.8703069686889648,
       "step": 120
     },
     {
       "epoch": 0.27,
       "learning_rate": 9.961304359538434e-07,
+      "logits/chosen": 0.09751267731189728,
+      "logits/rejected": 0.22797170281410217,
+      "logps/chosen": -374.6502380371094,
+      "logps/rejected": -373.14263916015625,
+      "loss": 0.5998,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.4483565390110016,
+      "rewards/margins": 0.3120550811290741,
+      "rewards/rejected": -0.7604116201400757,
       "step": 130
     },
     {
       "epoch": 0.29,
       "learning_rate": 9.935251313189563e-07,
+      "logits/chosen": 0.23218217492103577,
+      "logits/rejected": 0.28826406598091125,
+      "logps/chosen": -363.15338134765625,
+      "logps/rejected": -381.83795166015625,
+      "loss": 0.5847,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.49422675371170044,
+      "rewards/margins": 0.38399404287338257,
+      "rewards/rejected": -0.8782208561897278,
       "step": 140
     },
     {
       "epoch": 0.31,
       "learning_rate": 9.902582412711118e-07,
+      "logits/chosen": 0.29499703645706177,
+      "logits/rejected": 0.49714046716690063,
+      "logps/chosen": -342.9471130371094,
+      "logps/rejected": -372.1763610839844,
+      "loss": 0.5681,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.6186890602111816,
+      "rewards/margins": 0.5347500443458557,
+      "rewards/rejected": -1.1534390449523926,
       "step": 150
     },
     {
       "epoch": 0.33,
       "learning_rate": 9.86334145175542e-07,
+      "logits/chosen": 0.35773637890815735,
+      "logits/rejected": 0.4941268861293793,
+      "logps/chosen": -370.3203125,
+      "logps/rejected": -428.2557067871094,
+      "loss": 0.5792,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.7682583928108215,
+      "rewards/margins": 0.6092099547386169,
+      "rewards/rejected": -1.377468228340149,
       "step": 160
     },
     {
       "epoch": 0.36,
       "learning_rate": 9.817581034021272e-07,
+      "logits/chosen": 0.19401590526103973,
+      "logits/rejected": 0.3156794607639313,
+      "logps/chosen": -415.65313720703125,
+      "logps/rejected": -425.68963623046875,
+      "loss": 0.5747,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.5680743455886841,
+      "rewards/margins": 0.4286484122276306,
+      "rewards/rejected": -0.9967228174209595,
       "step": 170
     },
     {
       "epoch": 0.38,
       "learning_rate": 9.765362502737097e-07,
+      "logits/chosen": 0.2572034001350403,
+      "logits/rejected": 0.27328386902809143,
+      "logps/chosen": -358.0533447265625,
+      "logps/rejected": -398.5332946777344,
+      "loss": 0.5634,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.644694447517395,
+      "rewards/margins": 0.5251447558403015,
+      "rewards/rejected": -1.1698391437530518,
       "step": 180
     },
     {
       "epoch": 0.4,
       "learning_rate": 9.706755858428485e-07,
+      "logits/chosen": 0.3962785303592682,
+      "logits/rejected": 0.4539657235145569,
+      "logps/chosen": -347.5164794921875,
+      "logps/rejected": -378.83184814453125,
+      "loss": 0.5423,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.7963652610778809,
+      "rewards/margins": 0.5720622539520264,
+      "rewards/rejected": -1.3684275150299072,
       "step": 190
     },
     {
       "epoch": 0.42,
       "learning_rate": 9.641839665080363e-07,
+      "logits/chosen": 0.3198946714401245,
+      "logits/rejected": 0.4063253402709961,
+      "logps/chosen": -352.0743713378906,
+      "logps/rejected": -419.7388610839844,
+      "loss": 0.5547,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.7651049494743347,
+      "rewards/margins": 0.6531444787979126,
+      "rewards/rejected": -1.418249487876892,
       "step": 200
     },
     {
       "epoch": 0.42,
+      "eval_logits/chosen": 0.3908616304397583,
+      "eval_logits/rejected": 0.4261176884174347,
+      "eval_logps/chosen": -373.46612548828125,
+      "eval_logps/rejected": -458.88629150390625,
+      "eval_loss": 0.5549300312995911,
+      "eval_rewards/accuracies": 0.765625,
+      "eval_rewards/chosen": -0.6988146305084229,
+      "eval_rewards/margins": 0.7737974524497986,
+      "eval_rewards/rejected": -1.4726121425628662,
+      "eval_runtime": 65.2313,
+      "eval_samples_per_second": 30.66,
+      "eval_steps_per_second": 0.491,
       "step": 200
     },
     {
       "epoch": 0.44,
       "learning_rate": 9.570700944819582e-07,
+      "logits/chosen": 0.3505176901817322,
+      "logits/rejected": 0.42375579476356506,
+      "logps/chosen": -397.61199951171875,
+      "logps/rejected": -454.89776611328125,
+      "loss": 0.5265,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.7523492574691772,
+      "rewards/margins": 0.7344074845314026,
+      "rewards/rejected": -1.486756682395935,
       "step": 210
     },
     {
       "epoch": 0.46,
       "learning_rate": 9.493435061259129e-07,
+      "logits/chosen": 0.2726442813873291,
+      "logits/rejected": 0.4434526860713959,
+      "logps/chosen": -410.77667236328125,
+      "logps/rejected": -431.207275390625,
+      "loss": 0.555,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.8984044194221497,
+      "rewards/margins": 0.5839776992797852,
+      "rewards/rejected": -1.48238205909729,
       "step": 220
     },
     {
       "epoch": 0.48,
       "learning_rate": 9.4101455916603e-07,
+      "logits/chosen": 0.28837597370147705,
+      "logits/rejected": 0.35526323318481445,
+      "logps/chosen": -363.0335998535156,
+      "logps/rejected": -436.46612548828125,
+      "loss": 0.5498,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.8101651072502136,
+      "rewards/margins": 0.737695574760437,
+      "rewards/rejected": -1.5478605031967163,
       "step": 230
     },
     {
       "epoch": 0.5,
       "learning_rate": 9.320944188084241e-07,
+      "logits/chosen": 0.23826150596141815,
+      "logits/rejected": 0.285171240568161,
+      "logps/chosen": -432.6297912597656,
+      "logps/rejected": -497.56341552734375,
+      "loss": 0.5392,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.7939236164093018,
+      "rewards/margins": 0.7111212611198425,
+      "rewards/rejected": -1.505044937133789,
       "step": 240
     },
     {
       "epoch": 0.52,
       "learning_rate": 9.225950427718974e-07,
+      "logits/chosen": 0.2762988209724426,
+      "logits/rejected": 0.31130319833755493,
+      "logps/chosen": -399.399169921875,
+      "logps/rejected": -445.702880859375,
+      "loss": 0.5465,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.83611661195755,
+      "rewards/margins": 0.7073522806167603,
+      "rewards/rejected": -1.5434690713882446,
       "step": 250
     },
     {
       "epoch": 0.54,
       "learning_rate": 9.125291652582547e-07,
+      "logits/chosen": 0.1327328383922577,
+      "logits/rejected": 0.3085227310657501,
+      "logps/chosen": -436.08135986328125,
+      "logps/rejected": -457.634765625,
+      "loss": 0.5194,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.9428914785385132,
+      "rewards/margins": 0.6950392723083496,
+      "rewards/rejected": -1.6379308700561523,
       "step": 260
     },
     {
       "epoch": 0.57,
       "learning_rate": 9.019102798817195e-07,
+      "logits/chosen": 0.23745720088481903,
+      "logits/rejected": 0.34172096848487854,
+      "logps/chosen": -421.8299865722656,
+      "logps/rejected": -466.4856872558594,
+      "loss": 0.5496,
       "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.9325121641159058,
+      "rewards/margins": 0.7680062651634216,
+      "rewards/rejected": -1.7005186080932617,
       "step": 270
     },
     {
       "epoch": 0.59,
       "learning_rate": 8.90752621580335e-07,
+      "logits/chosen": 0.16251161694526672,
+      "logits/rejected": 0.2581509053707123,
+      "logps/chosen": -418.5828552246094,
+      "logps/rejected": -507.22412109375,
+      "loss": 0.5168,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.113261342048645,
+      "rewards/margins": 0.7757157683372498,
+      "rewards/rejected": -1.88897705078125,
       "step": 280
     },
     {
       "epoch": 0.61,
       "learning_rate": 8.79071147533597e-07,
+      "logits/chosen": 0.18345972895622253,
+      "logits/rejected": 0.24752414226531982,
+      "logps/chosen": -374.2388916015625,
+      "logps/rejected": -421.7548828125,
+      "loss": 0.5452,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.7729798555374146,
+      "rewards/margins": 0.6754422187805176,
+      "rewards/rejected": -1.448421835899353,
       "step": 290
     },
     {
       "epoch": 0.63,
       "learning_rate": 8.668815171119019e-07,
+      "logits/chosen": 0.11917382478713989,
+      "logits/rejected": 0.2862890362739563,
+      "logps/chosen": -396.6165466308594,
+      "logps/rejected": -400.9344787597656,
+      "loss": 0.5343,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.8496394157409668,
+      "rewards/margins": 0.5671547055244446,
+      "rewards/rejected": -1.4167941808700562,
       "step": 300
     },
     {
       "epoch": 0.63,
+      "eval_logits/chosen": 0.24486932158470154,
+      "eval_logits/rejected": 0.2851215898990631,
+      "eval_logps/chosen": -384.0199279785156,
+      "eval_logps/rejected": -476.3627624511719,
+      "eval_loss": 0.5315821766853333,
+      "eval_rewards/accuracies": 0.765625,
+      "eval_rewards/chosen": -0.8043524026870728,
+      "eval_rewards/margins": 0.8430246114730835,
+      "eval_rewards/rejected": -1.6473771333694458,
+      "eval_runtime": 64.8898,
+      "eval_samples_per_second": 30.822,
+      "eval_steps_per_second": 0.493,
       "step": 300
     },
     {
       "epoch": 0.65,
       "learning_rate": 8.54200070884685e-07,
+      "logits/chosen": 0.21563191711902618,
+      "logits/rejected": 0.1952591836452484,
+      "logps/chosen": -438.91552734375,
+      "logps/rejected": -499.61395263671875,
+      "loss": 0.5567,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.173762559890747,
+      "rewards/margins": 0.5995947122573853,
+      "rewards/rejected": -1.7733571529388428,
       "step": 310
     },
     {
       "epoch": 0.67,
       "learning_rate": 8.410438087153911e-07,
+      "logits/chosen": 0.031750187277793884,
+      "logits/rejected": 0.14312420785427094,
+      "logps/chosen": -457.0936584472656,
+      "logps/rejected": -459.15411376953125,
+      "loss": 0.5366,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -1.0222933292388916,
+      "rewards/margins": 0.4668423533439636,
+      "rewards/rejected": -1.4891356229782104,
       "step": 320
     },
     {
       "epoch": 0.69,
       "learning_rate": 8.274303669726426e-07,
+      "logits/chosen": 0.07745673507452011,
+      "logits/rejected": 0.07082104682922363,
+      "logps/chosen": -399.32464599609375,
+      "logps/rejected": -523.4277954101562,
+      "loss": 0.532,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.9549884796142578,
+      "rewards/margins": 0.8862001299858093,
+      "rewards/rejected": -1.8411887884140015,
       "step": 330
     },
     {
       "epoch": 0.71,
       "learning_rate": 8.133779948881513e-07,
+      "logits/chosen": 0.10294970124959946,
+      "logits/rejected": 0.09352216869592667,
+      "logps/chosen": -409.33770751953125,
+      "logps/rejected": -510.10089111328125,
+      "loss": 0.5217,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.1990526914596558,
+      "rewards/margins": 0.7596696615219116,
+      "rewards/rejected": -1.958722472190857,
       "step": 340
     },
     {
       "epoch": 0.73,
       "learning_rate": 7.989055300930704e-07,
+      "logits/chosen": 0.16737070679664612,
+      "logits/rejected": 0.21901166439056396,
+      "logps/chosen": -437.2059020996094,
+      "logps/rejected": -538.3087158203125,
+      "loss": 0.5091,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.2976617813110352,
+      "rewards/margins": 0.8197441101074219,
+      "rewards/rejected": -2.117405891418457,
       "step": 350
     },
     {
       "epoch": 0.75,
       "learning_rate": 7.840323733655778e-07,
+      "logits/chosen": 0.1267612874507904,
+      "logits/rejected": 0.20460394024848938,
+      "logps/chosen": -465.1019592285156,
+      "logps/rejected": -518.5805053710938,
+      "loss": 0.5185,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.174440860748291,
+      "rewards/margins": 0.9074214696884155,
+      "rewards/rejected": -2.081862211227417,
       "step": 360
     },
     {
       "epoch": 0.77,
       "learning_rate": 7.687784626235447e-07,
+      "logits/chosen": 0.18740633130073547,
+      "logits/rejected": 0.27840983867645264,
+      "logps/chosen": -468.21807861328125,
+      "logps/rejected": -493.06646728515625,
+      "loss": 0.5158,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -1.1525232791900635,
+      "rewards/margins": 0.7130603790283203,
+      "rewards/rejected": -1.8655836582183838,
       "step": 370
     },
     {
       "epoch": 0.8,
       "learning_rate": 7.531642461971514e-07,
+      "logits/chosen": 0.15459200739860535,
+      "logits/rejected": 0.23283176124095917,
+      "logps/chosen": -453.07904052734375,
+      "logps/rejected": -535.761474609375,
+      "loss": 0.5392,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.2102587223052979,
+      "rewards/margins": 1.0239769220352173,
+      "rewards/rejected": -2.2342355251312256,
       "step": 380
     },
     {
       "epoch": 0.82,
       "learning_rate": 7.372106554172801e-07,
+      "logits/chosen": 0.19951777160167694,
+      "logits/rejected": 0.2895793318748474,
+      "logps/chosen": -411.4781799316406,
+      "logps/rejected": -466.41253662109375,
+      "loss": 0.5356,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.8807674646377563,
+      "rewards/margins": 0.7255697846412659,
+      "rewards/rejected": -1.606337308883667,
       "step": 390
     },
     {
       "epoch": 0.84,
       "learning_rate": 7.209390765564318e-07,
+      "logits/chosen": 0.1757899820804596,
+      "logits/rejected": 0.23791635036468506,
+      "logps/chosen": -390.8957214355469,
+      "logps/rejected": -478.49407958984375,
+      "loss": 0.5323,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.9380720257759094,
+      "rewards/margins": 0.7229949235916138,
+      "rewards/rejected": -1.661067008972168,
       "step": 400
     },
     {
       "epoch": 0.84,
+      "eval_logits/chosen": 0.25136542320251465,
+      "eval_logits/rejected": 0.28342366218566895,
+      "eval_logps/chosen": -394.2620849609375,
+      "eval_logps/rejected": -494.46002197265625,
+      "eval_loss": 0.521114706993103,
+      "eval_rewards/accuracies": 0.78125,
+      "eval_rewards/chosen": -0.90677410364151,
+      "eval_rewards/margins": 0.9215754270553589,
+      "eval_rewards/rejected": -1.8283497095108032,
+      "eval_runtime": 65.2477,
+      "eval_samples_per_second": 30.652,
+      "eval_steps_per_second": 0.49,
       "step": 400
     },
     {
       "epoch": 0.86,
       "learning_rate": 7.043713221597773e-07,
+      "logits/chosen": 0.1401471644639969,
+      "logits/rejected": 0.17819848656654358,
+      "logps/chosen": -401.8942565917969,
+      "logps/rejected": -474.2579650878906,
+      "loss": 0.5225,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.8892021179199219,
+      "rewards/margins": 0.906479001045227,
+      "rewards/rejected": -1.7956812381744385,
       "step": 410
     },
     {
       "epoch": 0.88,
       "learning_rate": 6.875296018047809e-07,
+      "logits/chosen": 0.1304786652326584,
+      "logits/rejected": 0.15569528937339783,
+      "logps/chosen": -400.5438537597656,
+      "logps/rejected": -468.2953186035156,
+      "loss": 0.5065,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -0.9208317995071411,
+      "rewards/margins": 0.9665653109550476,
+      "rewards/rejected": -1.887397050857544,
       "step": 420
     },
     {
       "epoch": 0.9,
       "learning_rate": 6.704364923285857e-07,
+      "logits/chosen": 0.09775003790855408,
+      "logits/rejected": 0.1501173973083496,
+      "logps/chosen": -476.73065185546875,
+      "logps/rejected": -533.7389526367188,
+      "loss": 0.5285,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -1.26286780834198,
+      "rewards/margins": 0.8789494633674622,
+      "rewards/rejected": -2.141817569732666,
       "step": 430
     },
     {
       "epoch": 0.92,
       "learning_rate": 6.531149075630796e-07,
+      "logits/chosen": 0.1202029138803482,
+      "logits/rejected": 0.1756385862827301,
+      "logps/chosen": -400.1629333496094,
+      "logps/rejected": -469.0196838378906,
+      "loss": 0.5074,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -1.0582826137542725,
+      "rewards/margins": 0.9171028137207031,
+      "rewards/rejected": -1.975385308265686,
       "step": 440
     },
     {
       "epoch": 0.94,
       "learning_rate": 6.355880676182085e-07,
+      "logits/chosen": 0.01758761703968048,
+      "logits/rejected": 0.15642888844013214,
+      "logps/chosen": -443.065185546875,
+      "logps/rejected": -484.41473388671875,
+      "loss": 0.5295,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.004433035850525,
+      "rewards/margins": 0.8090255856513977,
+      "rewards/rejected": -1.8134586811065674,
       "step": 450
     },
     {
       "epoch": 0.96,
       "learning_rate": 6.178794677547137e-07,
+      "logits/chosen": 0.012063628062605858,
+      "logits/rejected": 0.10572747141122818,
+      "logps/chosen": -408.4104919433594,
+      "logps/rejected": -449.46881103515625,
+      "loss": 0.5267,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.0622318983078003,
+      "rewards/margins": 0.6900007724761963,
+      "rewards/rejected": -1.752232551574707,
       "step": 460
     },
     {
       "epoch": 0.98,
       "learning_rate": 6.000128468880222e-07,
+      "logits/chosen": -0.05889149755239487,
+      "logits/rejected": -0.014351313933730125,
+      "logps/chosen": -449.07061767578125,
+      "logps/rejected": -538.423828125,
+      "loss": 0.5042,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.1122030019760132,
+      "rewards/margins": 0.9293983578681946,
+      "rewards/rejected": -2.0416014194488525,
       "step": 470
     },
     {
       "epoch": 1.0,
       "learning_rate": 5.820121557655108e-07,
+      "logits/chosen": -0.045923542231321335,
+      "logits/rejected": 0.03086056187748909,
+      "logps/chosen": -422.5347595214844,
+      "logps/rejected": -529.2613525390625,
+      "loss": 0.4682,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.275895118713379,
+      "rewards/margins": 1.037326455116272,
+      "rewards/rejected": -2.3132214546203613,
       "step": 480
     },
     {
       "epoch": 1.03,
       "learning_rate": 5.639015248598023e-07,
+      "logits/chosen": -0.05794327333569527,
+      "logits/rejected": -0.09440571069717407,
+      "logps/chosen": -441.08990478515625,
+      "logps/rejected": -601.30419921875,
+      "loss": 0.3493,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -1.3565930128097534,
+      "rewards/margins": 1.8090267181396484,
+      "rewards/rejected": -3.1656198501586914,
       "step": 490
     },
     {
       "epoch": 1.05,
       "learning_rate": 5.457052320211339e-07,
+      "logits/chosen": -0.23803594708442688,
+      "logits/rejected": -0.29828980565071106,
+      "logps/chosen": -474.3367614746094,
+      "logps/rejected": -656.8623046875,
+      "loss": 0.352,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -1.730020523071289,
+      "rewards/margins": 1.8847625255584717,
+      "rewards/rejected": -3.6147830486297607,
       "step": 500
     },
     {
       "epoch": 1.05,
+      "eval_logits/chosen": -0.06535135954618454,
+      "eval_logits/rejected": -0.08458372950553894,
+      "eval_logps/chosen": -498.9117431640625,
+      "eval_logps/rejected": -653.2899169921875,
+      "eval_loss": 0.525809109210968,
+      "eval_rewards/accuracies": 0.796875,
+      "eval_rewards/chosen": -1.9532711505889893,
+      "eval_rewards/margins": 1.4633771181106567,
+      "eval_rewards/rejected": -3.4166483879089355,
+      "eval_runtime": 64.5447,
+      "eval_samples_per_second": 30.986,
+      "eval_steps_per_second": 0.496,
       "step": 500
     },
     {
       "epoch": 1.07,
       "learning_rate": 5.274476699321637e-07,
+      "logits/chosen": -0.17468394339084625,
+      "logits/rejected": -0.19271844625473022,
+      "logps/chosen": -464.8907165527344,
+      "logps/rejected": -632.8477172851562,
+      "loss": 0.3423,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": -1.695770263671875,
+      "rewards/margins": 1.8958046436309814,
+      "rewards/rejected": -3.5915749073028564,
       "step": 510
     },
     {
       "epoch": 1.09,
       "learning_rate": 5.091533134088387e-07,
+      "logits/chosen": -0.23788562417030334,
+      "logits/rejected": -0.20414999127388,
+      "logps/chosen": -485.94415283203125,
+      "logps/rejected": -640.9654541015625,
+      "loss": 0.3236,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -1.8264538049697876,
+      "rewards/margins": 1.7633371353149414,
+      "rewards/rejected": -3.5897908210754395,
       "step": 520
     },
     {
       "epoch": 1.11,
       "learning_rate": 4.908466865911614e-07,
+      "logits/chosen": -0.11999205499887466,
+      "logits/rejected": -0.09423510730266571,
+      "logps/chosen": -487.30810546875,
+      "logps/rejected": -646.9547119140625,
+      "loss": 0.3424,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -1.7824156284332275,
+      "rewards/margins": 1.7626768350601196,
+      "rewards/rejected": -3.5450921058654785,
       "step": 530
     },
     {
       "epoch": 1.13,
       "learning_rate": 4.7255233006783624e-07,
+      "logits/chosen": -0.16903451085090637,
+      "logits/rejected": -0.06715662032365799,
+      "logps/chosen": -530.5585327148438,
+      "logps/rejected": -645.1633911132812,
+      "loss": 0.3301,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -1.7870140075683594,
+      "rewards/margins": 1.8271121978759766,
+      "rewards/rejected": -3.614126682281494,
       "step": 540
     },
     {
       "epoch": 1.15,
       "learning_rate": 4.5429476797886617e-07,
+      "logits/chosen": -0.03496643900871277,
+      "logits/rejected": -0.04560618847608566,
+      "logps/chosen": -483.15203857421875,
+      "logps/rejected": -634.9447631835938,
+      "loss": 0.3501,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -1.8454551696777344,
+      "rewards/margins": 1.5336250066757202,
+      "rewards/rejected": -3.379080295562744,
       "step": 550
     },
     {
       "epoch": 1.17,
       "learning_rate": 4.3609847514019763e-07,
+      "logits/chosen": 0.06872721016407013,
+      "logits/rejected": 0.0859331339597702,
+      "logps/chosen": -506.5009765625,
+      "logps/rejected": -646.7543334960938,
+      "loss": 0.3359,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -1.7461020946502686,
+      "rewards/margins": 1.8654359579086304,
+      "rewards/rejected": -3.6115379333496094,
       "step": 560
     },
     {
       "epoch": 1.19,
       "learning_rate": 4.179878442344892e-07,
+      "logits/chosen": -0.04321649298071861,
+      "logits/rejected": 0.051123034209012985,
+      "logps/chosen": -496.735595703125,
+      "logps/rejected": -647.29150390625,
+      "loss": 0.3464,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -2.0714824199676514,
+      "rewards/margins": 1.762717843055725,
+      "rewards/rejected": -3.834200620651245,
       "step": 570
     },
     {
       "epoch": 1.21,
       "learning_rate": 3.9998715311197783e-07,
+      "logits/chosen": -0.004042728338390589,
+      "logits/rejected": 0.04070080816745758,
+      "logps/chosen": -512.9417724609375,
+      "logps/rejected": -696.821044921875,
+      "loss": 0.3365,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -2.097195863723755,
+      "rewards/margins": 1.831916093826294,
+      "rewards/rejected": -3.9291114807128906,
       "step": 580
     },
     {
       "epoch": 1.23,
       "learning_rate": 3.821205322452863e-07,
+      "logits/chosen": 0.09215477854013443,
+      "logits/rejected": 0.05737446993589401,
+      "logps/chosen": -525.1434936523438,
+      "logps/rejected": -705.9063110351562,
+      "loss": 0.3158,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -2.0721964836120605,
+      "rewards/margins": 1.9721500873565674,
+      "rewards/rejected": -4.044346809387207,
       "step": 590
     },
     {
       "epoch": 1.26,
       "learning_rate": 3.6441193238179146e-07,
+      "logits/chosen": 0.07227401435375214,
+      "logits/rejected": 0.03988388180732727,
+      "logps/chosen": -549.4615478515625,
+      "logps/rejected": -771.7275390625,
+      "loss": 0.3342,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -2.2555530071258545,
+      "rewards/margins": 2.014453649520874,
+      "rewards/rejected": -4.2700066566467285,
       "step": 600
     },
     {
       "epoch": 1.26,
+      "eval_logits/chosen": 0.1344175487756729,
+      "eval_logits/rejected": 0.11280365288257599,
+      "eval_logps/chosen": -534.8101196289062,
+      "eval_logps/rejected": -684.085693359375,
+      "eval_loss": 0.5267595648765564,
+      "eval_rewards/accuracies": 0.79296875,
+      "eval_rewards/chosen": -2.3122546672821045,
+      "eval_rewards/margins": 1.412351369857788,
+      "eval_rewards/rejected": -3.7246060371398926,
+      "eval_runtime": 64.3013,
+      "eval_samples_per_second": 31.104,
+      "eval_steps_per_second": 0.498,
       "step": 600
     },
     {
       "epoch": 1.28,
       "learning_rate": 3.4688509243692034e-07,
+      "logits/chosen": 0.021421348676085472,
+      "logits/rejected": 0.08866464346647263,
+      "logps/chosen": -535.4236450195312,
+      "logps/rejected": -694.8360595703125,
+      "loss": 0.344,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -2.009089946746826,
+      "rewards/margins": 1.8043378591537476,
+      "rewards/rejected": -3.8134284019470215,
       "step": 610
     },
     {
       "epoch": 1.3,
       "learning_rate": 3.295635076714144e-07,
+      "logits/chosen": -0.06299210339784622,
+      "logits/rejected": -0.04097691923379898,
+      "logps/chosen": -499.0265197753906,
+      "logps/rejected": -653.1188354492188,
+      "loss": 0.3317,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -1.9393279552459717,
+      "rewards/margins": 1.6952606439590454,
+      "rewards/rejected": -3.6345887184143066,
       "step": 620
     },
     {
       "epoch": 1.32,
       "learning_rate": 3.12470398195219e-07,
+      "logits/chosen": -0.013870243914425373,
+      "logits/rejected": 0.0671583041548729,
+      "logps/chosen": -512.1448974609375,
+      "logps/rejected": -680.2833251953125,
+      "loss": 0.3283,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -1.9993736743927002,
+      "rewards/margins": 1.9316644668579102,
+      "rewards/rejected": -3.9310379028320312,
       "step": 630
     },
     {
       "epoch": 1.34,
       "learning_rate": 2.956286778402226e-07,
+      "logits/chosen": -0.11906696856021881,
+      "logits/rejected": -0.17396704852581024,
+      "logps/chosen": -495.10345458984375,
+      "logps/rejected": -677.45556640625,
+      "loss": 0.319,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -2.2106266021728516,
+      "rewards/margins": 1.9618394374847412,
+      "rewards/rejected": -4.172466278076172,
       "step": 640
     },
     {
       "epoch": 1.36,
       "learning_rate": 2.7906092344356826e-07,
+      "logits/chosen": -0.07961982488632202,
+      "logits/rejected": -0.12522803246974945,
+      "logps/chosen": -516.12890625,
+      "logps/rejected": -696.549560546875,
+      "loss": 0.3233,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -2.1828126907348633,
+      "rewards/margins": 1.8567641973495483,
+      "rewards/rejected": -4.039577007293701,
       "step": 650
     },
     {
       "epoch": 1.38,
       "learning_rate": 2.6278934458271996e-07,
+      "logits/chosen": -0.15696656703948975,
+      "logits/rejected": -0.12818947434425354,
+      "logps/chosen": -568.789794921875,
+      "logps/rejected": -722.9078369140625,
+      "loss": 0.3273,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -2.1225264072418213,
+      "rewards/margins": 1.9797760248184204,
+      "rewards/rejected": -4.102302551269531,
       "step": 660
     },
     {
       "epoch": 1.4,
       "learning_rate": 2.468357538028487e-07,
+      "logits/chosen": 0.01013887207955122,
+      "logits/rejected": 0.029213298112154007,
+      "logps/chosen": -541.7221069335938,
+      "logps/rejected": -720.105712890625,
+      "loss": 0.3153,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -2.205817461013794,
+      "rewards/margins": 2.0757954120635986,
+      "rewards/rejected": -4.281612396240234,
       "step": 670
     },
     {
       "epoch": 1.42,
       "learning_rate": 2.312215373764551e-07,
+      "logits/chosen": -0.06487278640270233,
+      "logits/rejected": -0.01965305209159851,
+      "logps/chosen": -516.360107421875,
+      "logps/rejected": -694.418212890625,
+      "loss": 0.3262,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -2.184447765350342,
+      "rewards/margins": 1.861135721206665,
+      "rewards/rejected": -4.045583248138428,
       "step": 680
     },
     {
       "epoch": 1.44,
       "learning_rate": 2.1596762663442213e-07,
+      "logits/chosen": -0.16129662096500397,
+      "logits/rejected": -0.09581325948238373,
+      "logps/chosen": -546.6666259765625,
+      "logps/rejected": -722.95263671875,
+      "loss": 0.3194,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -2.1821353435516357,
+      "rewards/margins": 2.131826877593994,
+      "rewards/rejected": -4.313961982727051,
       "step": 690
     },
     {
       "epoch": 1.47,
       "learning_rate": 2.0109446990692963e-07,
+      "logits/chosen": -0.11689990758895874,
+      "logits/rejected": -0.2061731368303299,
+      "logps/chosen": -537.8167724609375,
+      "logps/rejected": -781.1466674804688,
+      "loss": 0.337,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -2.2769298553466797,
+      "rewards/margins": 2.1021370887756348,
+      "rewards/rejected": -4.3790669441223145,
       "step": 700
     },
     {
       "epoch": 1.47,
+      "eval_logits/chosen": 0.041396014392375946,
+      "eval_logits/rejected": 0.009947247803211212,
+      "eval_logps/chosen": -541.1116333007812,
+      "eval_logps/rejected": -699.990966796875,
+      "eval_loss": 0.5290427207946777,
+      "eval_rewards/accuracies": 0.77734375,
+      "eval_rewards/chosen": -2.375269651412964,
+      "eval_rewards/margins": 1.5083887577056885,
+      "eval_rewards/rejected": -3.883657932281494,
+      "eval_runtime": 64.3756,
+      "eval_samples_per_second": 31.068,
+      "eval_steps_per_second": 0.497,
       "step": 700
     },
     {
       "epoch": 1.49,
       "learning_rate": 1.8662200511184872e-07,
+      "logits/chosen": -0.05749096721410751,
+      "logits/rejected": -0.05046076700091362,
+      "logps/chosen": -522.4590454101562,
+      "logps/rejected": -701.3648071289062,
+      "loss": 0.3387,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -2.1689815521240234,
+      "rewards/margins": 2.023318290710449,
+      "rewards/rejected": -4.192299842834473,
       "step": 710
     },
     {
       "epoch": 1.51,
       "learning_rate": 1.725696330273575e-07,
+      "logits/chosen": -0.12996384501457214,
+      "logits/rejected": -0.20302283763885498,
+      "logps/chosen": -513.8458251953125,
+      "logps/rejected": -704.156982421875,
+      "loss": 0.3363,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -1.9350038766860962,
+      "rewards/margins": 2.0845541954040527,
+      "rewards/rejected": -4.019558429718018,
       "step": 720
     },
     {
       "epoch": 1.53,
       "learning_rate": 1.589561912846089e-07,
+      "logits/chosen": -0.02087187021970749,
+      "logits/rejected": -0.01297883689403534,
+      "logps/chosen": -513.4478149414062,
+      "logps/rejected": -715.5861206054688,
+      "loss": 0.3311,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -2.01027512550354,
+      "rewards/margins": 1.9698785543441772,
+      "rewards/rejected": -3.9801535606384277,
       "step": 730
     },
     {
       "epoch": 1.55,
       "learning_rate": 1.4579992911531496e-07,
+      "logits/chosen": -0.08378951251506805,
+      "logits/rejected": -0.10333013534545898,
+      "logps/chosen": -528.8599853515625,
+      "logps/rejected": -697.0358276367188,
+      "loss": 0.31,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -2.1352083683013916,
+      "rewards/margins": 2.004941940307617,
+      "rewards/rejected": -4.140150547027588,
       "step": 740
     },
     {
       "epoch": 1.57,
       "learning_rate": 1.3311848288809813e-07,
+      "logits/chosen": -0.021279722452163696,
+      "logits/rejected": -0.07772192358970642,
+      "logps/chosen": -553.6995239257812,
+      "logps/rejected": -696.1124267578125,
+      "loss": 0.3325,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -2.2102222442626953,
+      "rewards/margins": 1.8731515407562256,
+      "rewards/rejected": -4.083374500274658,
       "step": 750
     },
     {
       "epoch": 1.59,
       "learning_rate": 1.209288524664029e-07,
+      "logits/chosen": -0.1553444117307663,
+      "logits/rejected": -0.07370997965335846,
+      "logps/chosen": -559.6234130859375,
+      "logps/rejected": -718.3536376953125,
+      "loss": 0.3318,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -2.2175405025482178,
+      "rewards/margins": 2.087991714477539,
+      "rewards/rejected": -4.305531978607178,
       "step": 760
     },
     {
       "epoch": 1.61,
       "learning_rate": 1.0924737841966497e-07,
+      "logits/chosen": 0.06289811432361603,
+      "logits/rejected": 0.08451451361179352,
+      "logps/chosen": -502.3817443847656,
+      "logps/rejected": -655.4021606445312,
+      "loss": 0.3065,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -2.215487241744995,
+      "rewards/margins": 1.8723819255828857,
+      "rewards/rejected": -4.087869644165039,
       "step": 770
     },
     {
       "epoch": 1.63,
       "learning_rate": 9.808972011828054e-08,
+      "logits/chosen": -0.028034457936882973,
+      "logits/rejected": -0.07584713399410248,
+      "logps/chosen": -507.1363220214844,
+      "logps/rejected": -684.7667236328125,
+      "loss": 0.321,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -2.1353392601013184,
+      "rewards/margins": 1.854984998703003,
+      "rewards/rejected": -3.9903244972229004,
       "step": 780
     },
     {
       "epoch": 1.65,
       "learning_rate": 8.747083474174527e-08,
+      "logits/chosen": -0.027467548847198486,
+      "logits/rejected": -0.11992067098617554,
+      "logps/chosen": -513.2483520507812,
+      "logps/rejected": -773.5486450195312,
+      "loss": 0.3106,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -2.409447431564331,
+      "rewards/margins": 2.4787163734436035,
+      "rewards/rejected": -4.8881635665893555,
       "step": 790
     },
     {
       "epoch": 1.67,
       "learning_rate": 7.740495722810269e-08,
+      "logits/chosen": -0.22111931443214417,
+      "logits/rejected": -0.16927292943000793,
+      "logps/chosen": -594.322998046875,
+      "logps/rejected": -767.4426879882812,
+      "loss": 0.3398,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -2.4693970680236816,
+      "rewards/margins": 2.0875487327575684,
+      "rewards/rejected": -4.55694580078125,
       "step": 800
     },
     {
       "epoch": 1.67,
+      "eval_logits/chosen": 0.0749908834695816,
+      "eval_logits/rejected": 0.0380852147936821,
+      "eval_logps/chosen": -554.5546264648438,
+      "eval_logps/rejected": -712.9505615234375,
+      "eval_loss": 0.5297122001647949,
+      "eval_rewards/accuracies": 0.7734375,
+      "eval_rewards/chosen": -2.509699821472168,
+      "eval_rewards/margins": 1.5035548210144043,
+      "eval_rewards/rejected": -4.013254642486572,
+      "eval_runtime": 65.3757,
+      "eval_samples_per_second": 30.592,
+      "eval_steps_per_second": 0.489,
       "step": 800
     },
     {
       "epoch": 1.7,
       "learning_rate": 6.790558119157597e-08,
+      "logits/chosen": -0.03027234971523285,
+      "logits/rejected": -0.026968132704496384,
+      "logps/chosen": -558.7872924804688,
+      "logps/rejected": -744.04736328125,
+      "loss": 0.3134,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -2.323040246963501,
+      "rewards/margins": 2.1539111137390137,
+      "rewards/rejected": -4.476951599121094,
       "step": 810
     },
     {
       "epoch": 1.72,
       "learning_rate": 5.898544083397e-08,
+      "logits/chosen": -0.06089891865849495,
+      "logits/rejected": -0.11520856618881226,
+      "logps/chosen": -516.7492065429688,
+      "logps/rejected": -698.2511596679688,
+      "loss": 0.3131,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -2.2953174114227295,
+      "rewards/margins": 2.0010485649108887,
+      "rewards/rejected": -4.296365737915039,
       "step": 820
     },
     {
       "epoch": 1.74,
       "learning_rate": 5.065649387408705e-08,
+      "logits/chosen": -0.026049736887216568,
+      "logits/rejected": -0.11464808881282806,
+      "logps/chosen": -556.2135620117188,
+      "logps/rejected": -718.17578125,
+      "loss": 0.3145,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -2.405728816986084,
+      "rewards/margins": 1.908630132675171,
+      "rewards/rejected": -4.314358711242676,
       "step": 830
     },
     {
       "epoch": 1.76,
       "learning_rate": 4.292990551804171e-08,
+      "logits/chosen": -0.12712730467319489,
+      "logits/rejected": -0.10675887763500214,
+      "logps/chosen": -529.3737182617188,
+      "logps/rejected": -723.229248046875,
+      "loss": 0.327,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -2.146822929382324,
+      "rewards/margins": 2.177410125732422,
+      "rewards/rejected": -4.324233055114746,
       "step": 840
     },
     {
       "epoch": 1.78,
       "learning_rate": 3.581603349196371e-08,
+      "logits/chosen": 0.01494809053838253,
+      "logits/rejected": -0.08690011501312256,
+      "logps/chosen": -540.9631958007812,
+      "logps/rejected": -735.3316650390625,
+      "loss": 0.3262,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": -2.145940065383911,
+      "rewards/margins": 2.0986034870147705,
+      "rewards/rejected": -4.24454402923584,
       "step": 850
     },
     {
       "epoch": 1.8,
       "learning_rate": 2.9324414157151367e-08,
+      "logits/chosen": -0.10003119707107544,
+      "logits/rejected": -0.13639459013938904,
+      "logps/chosen": -504.34552001953125,
+      "logps/rejected": -681.4578247070312,
+      "loss": 0.3261,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -2.0967519283294678,
+      "rewards/margins": 1.8127696514129639,
+      "rewards/rejected": -3.9095215797424316,
       "step": 860
     },
     {
       "epoch": 1.82,
       "learning_rate": 2.3463749726290284e-08,
+      "logits/chosen": -0.005720620043575764,
+      "logits/rejected": -0.09044505655765533,
+      "logps/chosen": -550.0,
+      "logps/rejected": -727.3507690429688,
+      "loss": 0.3221,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -2.1374850273132324,
+      "rewards/margins": 2.060269355773926,
+      "rewards/rejected": -4.197754859924316,
       "step": 870
     },
     {
       "epoch": 1.84,
       "learning_rate": 1.824189659787284e-08,
+      "logits/chosen": -0.07426755130290985,
+      "logits/rejected": -0.09251859039068222,
+      "logps/chosen": -551.6723022460938,
+      "logps/rejected": -753.9895629882812,
+      "loss": 0.3162,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -2.1559104919433594,
+      "rewards/margins": 2.1075100898742676,
+      "rewards/rejected": -4.263420581817627,
       "step": 880
     },
     {
       "epoch": 1.86,
       "learning_rate": 1.3665854824458035e-08,
+      "logits/chosen": -0.05439913272857666,
+      "logits/rejected": -0.06511974334716797,
+      "logps/chosen": -540.4793090820312,
+      "logps/rejected": -690.4094848632812,
+      "loss": 0.3265,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -2.1754844188690186,
+      "rewards/margins": 1.7633205652236938,
+      "rewards/rejected": -3.938805103302002,
       "step": 890
     },
     {
       "epoch": 1.88,
       "learning_rate": 9.741758728888217e-09,
+      "logits/chosen": -0.06001782417297363,
+      "logits/rejected": -0.016363339498639107,
+      "logps/chosen": -546.7725830078125,
+      "logps/rejected": -690.0701293945312,
+      "loss": 0.307,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -2.229912281036377,
+      "rewards/margins": 1.9347511529922485,
+      "rewards/rejected": -4.164663314819336,
       "step": 900
     },
     {
       "epoch": 1.88,
+      "eval_logits/chosen": 0.06628188490867615,
+      "eval_logits/rejected": 0.02886618673801422,
+      "eval_logps/chosen": -549.4910278320312,
+      "eval_logps/rejected": -703.8400268554688,
+      "eval_loss": 0.5260834097862244,
+      "eval_rewards/accuracies": 0.77734375,
+      "eval_rewards/chosen": -2.4590635299682617,
+      "eval_rewards/margins": 1.4630858898162842,
+      "eval_rewards/rejected": -3.922149658203125,
+      "eval_runtime": 65.2404,
+      "eval_samples_per_second": 30.656,
+      "eval_steps_per_second": 0.49,
       "step": 900
     },
     {
       "epoch": 1.9,
       "learning_rate": 6.474868681043577e-09,
+      "logits/chosen": -0.0006331875920295715,
+      "logits/rejected": 0.06078674644231796,
+      "logps/chosen": -526.890869140625,
+      "logps/rejected": -696.57080078125,
+      "loss": 0.3133,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -2.2198734283447266,
+      "rewards/margins": 1.9986340999603271,
+      "rewards/rejected": -4.218507289886475,
       "step": 910
     },
     {
       "epoch": 1.93,
       "learning_rate": 3.869564046156459e-09,
+      "logits/chosen": -0.17484715580940247,
+      "logits/rejected": -0.2491791695356369,
+      "logps/chosen": -560.9608154296875,
+      "logps/rejected": -718.45703125,
+      "loss": 0.3088,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -2.2493414878845215,
+      "rewards/margins": 2.0530190467834473,
+      "rewards/rejected": -4.3023600578308105,
       "step": 920
     },
     {
       "epoch": 1.95,
       "learning_rate": 1.929337314139412e-09,
+      "logits/chosen": -0.0817941427230835,
+      "logits/rejected": -0.2032664567232132,
+      "logps/chosen": -562.2503662109375,
+      "logps/rejected": -765.2064208984375,
+      "loss": 0.3264,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -2.2634310722351074,
+      "rewards/margins": 2.2729239463806152,
+      "rewards/rejected": -4.536355018615723,
       "step": 930
     },
     {
       "epoch": 1.97,
       "learning_rate": 6.567894177967325e-10,
+      "logits/chosen": -0.061837755143642426,
+      "logits/rejected": -0.09424273669719696,
+      "logps/chosen": -570.0264892578125,
+      "logps/rejected": -782.4632568359375,
+      "loss": 0.3155,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -2.259819984436035,
+      "rewards/margins": 2.1893467903137207,
+      "rewards/rejected": -4.449166297912598,
       "step": 940
     },
     {
       "epoch": 1.99,
       "learning_rate": 5.3626246194704575e-11,
+      "logits/chosen": 0.019718965515494347,
+      "logits/rejected": -0.05742845684289932,
+      "logps/chosen": -491.19879150390625,
+      "logps/rejected": -698.8577880859375,
+      "loss": 0.3247,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -2.148132801055908,
+      "rewards/margins": 2.056044816970825,
+      "rewards/rejected": -4.204176902770996,
       "step": 950
     },
     {
       "epoch": 2.0,
       "step": 954,
       "total_flos": 0.0,
+      "train_loss": 0.44779854000739333,
+      "train_runtime": 8782.9823,
+      "train_samples_per_second": 13.921,
+      "train_steps_per_second": 0.109
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ebe8424565caecb3908e9e9e2a372a3ad6da08c02b93398d33a8308351a9f5c
 size 6648

 version https://git-lfs.github.com/spec/v1
+oid sha256:5afd5730214e6bd724e3cab0f3dcc26a9879ab9f6aff92cdb3a2b93fd0a49305
 size 6648