Model save

Browse files

Files changed (5) hide show

README.md +21 -24
adapter_model.safetensors +1 -1
all_results.json +3 -18
train_results.json +3 -3
trainer_state.json +670 -670

README.md CHANGED Viewed

@@ -2,13 +2,10 @@
 license: apache-2.0
 library_name: peft
 tags:
-- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
 base_model: mistralai/Mistral-7B-v0.1
-datasets:
-- HuggingFaceH4/ultrafeedback_binarized
 model-index:
 - name: zephyr-7b
   results: []
@@ -19,19 +16,19 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b
-This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-qlora](https://huggingface.co/alignment-handbook/zephyr-7b-sft-qlora) on the HuggingFaceH4/ultrafeedback_binarized dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6918
-- Rewards/chosen: -0.0862
-- Rewards/rejected: -0.1980
-- Rewards/accuracies: 0.3591
-- Rewards/margins: 0.1117
-- Logps/rejected: -95.1937
-- Logps/chosen: -77.5232
-- Logits/rejected: -1.9123
-- Logits/chosen: -1.9402
-- Use Label: 15333.4131
-- Pred Label: 4738.5874
 ## Model description
@@ -68,15 +65,15 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen | Use Label  | Pred Label |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|:----------:|:----------:|
-| 0.6876        | 0.1   | 100  | 0.6896          | -0.0555        | -0.0989          | 0.3353             | 0.0434          | -85.2883       | -74.4495     | -2.0761         | -2.1076       | 1766.8572  | 89.1429    |
-| 0.6892        | 0.21  | 200  | 0.6894          | -0.0049        | -0.0560          | 0.3492             | 0.0511          | -80.9954       | -69.3876     | -2.0287         | -2.0520       | 3500.8889  | 459.1111   |
-| 0.6904        | 0.31  | 300  | 0.6909          | -0.0625        | -0.1410          | 0.3532             | 0.0785          | -89.5016       | -75.1524     | -1.9943         | -2.0164       | 5140.6826  | 923.3174   |
-| 0.6906        | 0.42  | 400  | 0.6921          | -0.0637        | -0.1541          | 0.3512             | 0.0904          | -90.8064       | -75.2687     | -2.0248         | -2.0481       | 6695.4287  | 1472.5714  |
-| 0.6903        | 0.52  | 500  | 0.6914          | -0.0747        | -0.1726          | 0.3492             | 0.0979          | -92.6561       | -76.3697     | -1.9801         | -2.0071       | 8246.2061  | 2025.7937  |
-| 0.6903        | 0.63  | 600  | 0.6917          | -0.1005        | -0.2047          | 0.3552             | 0.1042          | -95.8670       | -78.9543     | -1.9601         | -1.9870       | 9772.0635  | 2603.9365  |
-| 0.6917        | 0.73  | 700  | 0.6917          | -0.1117        | -0.2224          | 0.3512             | 0.1108          | -97.6411       | -80.0681     | -1.9401         | -1.9659       | 11284.7773 | 3195.2222  |
-| 0.6912        | 0.84  | 800  | 0.6917          | -0.0869        | -0.1981          | 0.3631             | 0.1112          | -95.2089       | -77.5874     | -1.9144         | -1.9422       | 12826.8252 | 3757.1746  |
-| 0.6914        | 0.94  | 900  | 0.6918          | -0.0863        | -0.1983          | 0.3571             | 0.1120          | -95.2291       | -77.5275     | -1.9113         | -1.9391       | 14335.7139 | 4352.2856  |
 ### Framework versions

 license: apache-2.0
 library_name: peft
 tags:
 - trl
 - dpo
 - generated_from_trainer
 base_model: mistralai/Mistral-7B-v0.1
 model-index:
 - name: zephyr-7b
   results: []
 # zephyr-7b
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6928
+- Rewards/chosen: -0.0288
+- Rewards/rejected: -0.1012
+- Rewards/accuracies: 0.3492
+- Rewards/margins: 0.0723
+- Logps/rejected: -85.5160
+- Logps/chosen: -71.7842
+- Logits/rejected: -2.1139
+- Logits/chosen: -2.1428
+- Use Label: 13461.3809
+- Pred Label: 5226.6191
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen | Use Label  | Pred Label |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|:----------:|:----------:|
+| 0.6911        | 0.1   | 100  | 0.6919          | -0.0053        | -0.0356          | 0.3393             | 0.0303          | -78.9541       | -69.4262     | -2.0935         | -2.1210       | 1705.8572  | 150.1429   |
+| 0.692         | 0.21  | 200  | 0.6927          | -0.0264        | -0.0695          | 0.3433             | 0.0431          | -82.3504       | -71.5409     | -2.1057         | -2.1268       | 3337.0476  | 622.9524   |
+| 0.6924        | 0.31  | 300  | 0.6929          | -0.0369        | -0.0896          | 0.3393             | 0.0527          | -84.3537       | -72.5877     | -2.1933         | -2.2169       | 4863.7300  | 1200.2699  |
+| 0.6927        | 0.42  | 400  | 0.6925          | -0.0211        | -0.0804          | 0.3413             | 0.0593          | -83.4364       | -71.0104     | -2.0934         | -2.1190       | 6324.0796  | 1843.9207  |
+| 0.6924        | 0.52  | 500  | 0.6929          | -0.0206        | -0.0831          | 0.3433             | 0.0625          | -83.7112       | -70.9618     | -2.1518         | -2.1762       | 7772.7778  | 2499.2222  |
+| 0.6929        | 0.63  | 600  | 0.6927          | -0.0452        | -0.1160          | 0.3512             | 0.0708          | -86.9945       | -73.4171     | -2.1125         | -2.1408       | 9198.8574  | 3177.1428  |
+| 0.6928        | 0.73  | 700  | 0.6930          | -0.0507        | -0.1231          | 0.3512             | 0.0724          | -87.7077       | -73.9657     | -2.1086         | -2.1372       | 10627.2695 | 3852.7302  |
+| 0.6927        | 0.84  | 800  | 0.6928          | -0.0272        | -0.0999          | 0.3552             | 0.0726          | -85.3832       | -71.6247     | -2.1141         | -2.1431       | 12045.5234 | 4538.4761  |
+| 0.6929        | 0.94  | 900  | 0.6928          | -0.0288        | -0.1012          | 0.3492             | 0.0723          | -85.5160       | -71.7842     | -2.1139         | -2.1428       | 13461.3809 | 5226.6191  |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1d8fa522ecbd41d7ed29a7426d9923a51393e6fb2d160dd942b03bce23414f6
 size 671150064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7756f5d0cc022294ccf38c261284a9de8e425fd482035784aa767bab75061bc0
 size 671150064

all_results.json CHANGED Viewed

@@ -1,23 +1,8 @@
 {
     "epoch": 1.0,
-    "eval_logits/chosen": -1.9401931762695312,
-    "eval_logits/rejected": -1.9123154878616333,
-    "eval_logps/chosen": -77.5232162475586,
-    "eval_logps/rejected": -95.19373321533203,
-    "eval_loss": 0.6917868852615356,
-    "eval_pred_label": 4738.58740234375,
-    "eval_rewards/accuracies": 0.3591269850730896,
-    "eval_rewards/chosen": -0.0862266793847084,
-    "eval_rewards/margins": 0.11172995716333389,
-    "eval_rewards/rejected": -0.19795666635036469,
-    "eval_runtime": 247.3331,
-    "eval_samples": 2000,
-    "eval_samples_per_second": 8.086,
-    "eval_steps_per_second": 0.255,
-    "eval_use_label": 15333.4130859375,
-    "train_loss": 0.6906769273168754,
-    "train_runtime": 20027.4031,
     "train_samples": 61135,
-    "train_samples_per_second": 3.053,
     "train_steps_per_second": 0.048
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.692275420283772,
+    "train_runtime": 20019.5915,
     "train_samples": 61135,
+    "train_samples_per_second": 3.054,
     "train_steps_per_second": 0.048
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.6906769273168754,
-    "train_runtime": 20027.4031,
     "train_samples": 61135,
-    "train_samples_per_second": 3.053,
     "train_steps_per_second": 0.048
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.692275420283772,
+    "train_runtime": 20019.5915,
     "train_samples": 61135,
+    "train_samples_per_second": 3.054,
     "train_steps_per_second": 0.048
 }

trainer_state.json CHANGED Viewed

@@ -29,970 +29,970 @@
       "epoch": 0.02,
       "grad_norm": 0.6796875,
       "learning_rate": 1.0416666666666667e-06,
-      "logits/chosen": -2.2281553745269775,
-      "logits/rejected": -2.276446580886841,
-      "logps/chosen": -57.036190032958984,
-      "logps/rejected": -66.88007354736328,
       "loss": 0.6927,
       "pred_label": 0.0,
-      "rewards/accuracies": 0.24013157188892365,
-      "rewards/chosen": 0.003924594726413488,
-      "rewards/margins": 0.0009102027979679406,
-      "rewards/rejected": 0.0030143915209919214,
       "step": 20,
       "use_label": 170.0
     },
     {
       "epoch": 0.04,
-      "grad_norm": 0.6328125,
       "learning_rate": 2.0833333333333334e-06,
-      "logits/chosen": -2.2738099098205566,
-      "logits/rejected": -2.2623789310455322,
-      "logps/chosen": -54.78137969970703,
-      "logps/rejected": -67.2437515258789,
-      "loss": 0.6914,
       "pred_label": 0.0,
       "rewards/accuracies": 0.24687500298023224,
-      "rewards/chosen": 0.01747792772948742,
-      "rewards/margins": 0.001674558618105948,
-      "rewards/rejected": 0.015803368762135506,
       "step": 40,
       "use_label": 482.0
     },
     {
       "epoch": 0.06,
-      "grad_norm": 0.71875,
       "learning_rate": 3.125e-06,
-      "logits/chosen": -2.3237431049346924,
-      "logits/rejected": -2.321906089782715,
-      "logps/chosen": -75.5770034790039,
-      "logps/rejected": -87.68544006347656,
-      "loss": 0.6885,
-      "pred_label": 0.0,
-      "rewards/accuracies": 0.3125,
-      "rewards/chosen": 0.031676117330789566,
-      "rewards/margins": 0.009719676338136196,
-      "rewards/rejected": 0.021956440061330795,
       "step": 60,
-      "use_label": 802.0
     },
     {
       "epoch": 0.08,
-      "grad_norm": 0.73828125,
       "learning_rate": 4.166666666666667e-06,
-      "logits/chosen": -2.2948005199432373,
-      "logits/rejected": -2.2623462677001953,
-      "logps/chosen": -79.29240417480469,
-      "logps/rejected": -83.04844665527344,
-      "loss": 0.6876,
-      "pred_label": 5.800000190734863,
       "rewards/accuracies": 0.3343749940395355,
-      "rewards/chosen": 0.016009245067834854,
-      "rewards/margins": 0.018887853249907494,
-      "rewards/rejected": -0.0028786074835807085,
       "step": 80,
-      "use_label": 1116.199951171875
     },
     {
       "epoch": 0.1,
-      "grad_norm": 0.6953125,
       "learning_rate": 4.9997324926814375e-06,
-      "logits/chosen": -2.2056884765625,
-      "logits/rejected": -2.210036039352417,
-      "logps/chosen": -68.87937927246094,
-      "logps/rejected": -77.87590026855469,
-      "loss": 0.6876,
-      "pred_label": 27.537500381469727,
-      "rewards/accuracies": 0.34062498807907104,
-      "rewards/chosen": -0.010471501387655735,
-      "rewards/margins": 0.03584115579724312,
-      "rewards/rejected": -0.04631265625357628,
       "step": 100,
-      "use_label": 1414.4625244140625
     },
     {
       "epoch": 0.1,
-      "eval_logits/chosen": -2.1076083183288574,
-      "eval_logits/rejected": -2.0761499404907227,
-      "eval_logps/chosen": -74.44951629638672,
-      "eval_logps/rejected": -85.2883071899414,
-      "eval_loss": 0.6895647048950195,
-      "eval_pred_label": 89.14286041259766,
-      "eval_rewards/accuracies": 0.335317462682724,
-      "eval_rewards/chosen": -0.05548960343003273,
-      "eval_rewards/margins": 0.04341282695531845,
-      "eval_rewards/rejected": -0.09890241920948029,
-      "eval_runtime": 247.5952,
-      "eval_samples_per_second": 8.078,
       "eval_steps_per_second": 0.254,
-      "eval_use_label": 1766.857177734375,
       "step": 100
     },
     {
       "epoch": 0.13,
-      "grad_norm": 0.7578125,
       "learning_rate": 4.9903757462135984e-06,
-      "logits/chosen": -2.2542896270751953,
-      "logits/rejected": -2.1902401447296143,
-      "logps/chosen": -70.2941665649414,
-      "logps/rejected": -84.7874755859375,
-      "loss": 0.6884,
-      "pred_label": 155.6374969482422,
-      "rewards/accuracies": 0.3187499940395355,
-      "rewards/chosen": -0.023759985342621803,
-      "rewards/margins": 0.051492441445589066,
-      "rewards/rejected": -0.07525241374969482,
       "step": 120,
-      "use_label": 2110.362548828125
     },
     {
       "epoch": 0.15,
-      "grad_norm": 0.55859375,
       "learning_rate": 4.967700826904229e-06,
-      "logits/chosen": -2.1823272705078125,
-      "logits/rejected": -2.210157632827759,
-      "logps/chosen": -61.80498504638672,
-      "logps/rejected": -76.43424224853516,
-      "loss": 0.6907,
-      "pred_label": 204.22500610351562,
-      "rewards/accuracies": 0.26875001192092896,
-      "rewards/chosen": -0.029314354062080383,
-      "rewards/margins": 0.036702848970890045,
-      "rewards/rejected": -0.06601719558238983,
       "step": 140,
-      "use_label": 2381.77490234375
     },
     {
       "epoch": 0.17,
-      "grad_norm": 0.70703125,
       "learning_rate": 4.931828996974498e-06,
-      "logits/chosen": -2.251568555831909,
-      "logits/rejected": -2.220432996749878,
-      "logps/chosen": -66.60148620605469,
-      "logps/rejected": -71.53702545166016,
-      "loss": 0.69,
-      "pred_label": 257.2124938964844,
-      "rewards/accuracies": 0.3343749940395355,
-      "rewards/chosen": -0.020524730905890465,
-      "rewards/margins": 0.05932433158159256,
-      "rewards/rejected": -0.07984906435012817,
       "step": 160,
-      "use_label": 2648.78759765625
     },
     {
       "epoch": 0.19,
-      "grad_norm": 0.6796875,
       "learning_rate": 4.882952093833628e-06,
-      "logits/chosen": -2.114015817642212,
-      "logits/rejected": -2.126950740814209,
-      "logps/chosen": -66.40071868896484,
-      "logps/rejected": -78.54503631591797,
-      "loss": 0.6901,
-      "pred_label": 319.9624938964844,
-      "rewards/accuracies": 0.328125,
-      "rewards/chosen": -0.03171534463763237,
-      "rewards/margins": 0.0544399619102478,
-      "rewards/rejected": -0.08615531027317047,
       "step": 180,
-      "use_label": 2906.03759765625
     },
     {
       "epoch": 0.21,
-      "grad_norm": 0.9140625,
       "learning_rate": 4.821331504159906e-06,
-      "logits/chosen": -2.138213872909546,
-      "logits/rejected": -2.108750343322754,
-      "logps/chosen": -77.92289733886719,
-      "logps/rejected": -78.32075500488281,
-      "loss": 0.6892,
-      "pred_label": 383.5249938964844,
-      "rewards/accuracies": 0.37812501192092896,
-      "rewards/chosen": -0.009543296881020069,
-      "rewards/margins": 0.06037301942706108,
-      "rewards/rejected": -0.06991632282733917,
       "step": 200,
-      "use_label": 3162.47509765625
     },
     {
       "epoch": 0.21,
-      "eval_logits/chosen": -2.051973581314087,
-      "eval_logits/rejected": -2.028658390045166,
-      "eval_logps/chosen": -69.3875503540039,
-      "eval_logps/rejected": -80.99542999267578,
-      "eval_loss": 0.6893584132194519,
-      "eval_pred_label": 459.1111145019531,
-      "eval_rewards/accuracies": 0.3492063581943512,
-      "eval_rewards/chosen": -0.0048699695616960526,
-      "eval_rewards/margins": 0.05110359564423561,
-      "eval_rewards/rejected": -0.05597356706857681,
-      "eval_runtime": 247.8689,
-      "eval_samples_per_second": 8.069,
       "eval_steps_per_second": 0.254,
-      "eval_use_label": 3500.888916015625,
       "step": 200
     },
     {
       "epoch": 0.23,
-      "grad_norm": 0.765625,
       "learning_rate": 4.747296766042161e-06,
-      "logits/chosen": -2.172316074371338,
-      "logits/rejected": -2.1599390506744385,
-      "logps/chosen": -73.75865173339844,
-      "logps/rejected": -76.45826721191406,
-      "loss": 0.6906,
-      "pred_label": 537.4000244140625,
-      "rewards/accuracies": 0.34375,
-      "rewards/chosen": -0.017265746369957924,
-      "rewards/margins": 0.061459798365831375,
-      "rewards/rejected": -0.07872554659843445,
       "step": 220,
-      "use_label": 3832.60009765625
     },
     {
       "epoch": 0.25,
-      "grad_norm": 0.671875,
       "learning_rate": 4.661243806657256e-06,
-      "logits/chosen": -2.1377243995666504,
-      "logits/rejected": -2.114131450653076,
-      "logps/chosen": -78.08522033691406,
-      "logps/rejected": -88.16291809082031,
-      "loss": 0.6906,
-      "pred_label": 610.8624877929688,
-      "rewards/accuracies": 0.3375000059604645,
-      "rewards/chosen": -0.06858871877193451,
-      "rewards/margins": 0.07855252921581268,
-      "rewards/rejected": -0.1471412628889084,
       "step": 240,
-      "use_label": 4079.137451171875
     },
     {
       "epoch": 0.27,
-      "grad_norm": 0.70703125,
       "learning_rate": 4.563632824908252e-06,
-      "logits/chosen": -2.1762757301330566,
-      "logits/rejected": -2.173243999481201,
-      "logps/chosen": -69.33678436279297,
-      "logps/rejected": -82.98787689208984,
-      "loss": 0.6907,
-      "pred_label": 682.2750244140625,
-      "rewards/accuracies": 0.33125001192092896,
-      "rewards/chosen": -0.06302420794963837,
-      "rewards/margins": 0.0732887014746666,
-      "rewards/rejected": -0.13631291687488556,
       "step": 260,
-      "use_label": 4327.72509765625
     },
     {
       "epoch": 0.29,
-      "grad_norm": 0.625,
       "learning_rate": 4.454985830346574e-06,
-      "logits/chosen": -2.16465425491333,
-      "logits/rejected": -2.1788923740386963,
-      "logps/chosen": -74.41441345214844,
-      "logps/rejected": -78.55416870117188,
-      "loss": 0.6892,
-      "pred_label": 749.125,
-      "rewards/accuracies": 0.3062500059604645,
-      "rewards/chosen": -0.06083650514483452,
-      "rewards/margins": 0.04520425945520401,
-      "rewards/rejected": -0.10604077577590942,
       "step": 280,
-      "use_label": 4580.875
     },
     {
       "epoch": 0.31,
-      "grad_norm": 0.65234375,
       "learning_rate": 4.335883851539693e-06,
-      "logits/chosen": -2.0553781986236572,
-      "logits/rejected": -2.0573229789733887,
-      "logps/chosen": -69.96788024902344,
-      "logps/rejected": -80.52223205566406,
-      "loss": 0.6904,
-      "pred_label": 824.5499877929688,
-      "rewards/accuracies": 0.359375,
-      "rewards/chosen": -0.04866168648004532,
-      "rewards/margins": 0.09801270812749863,
-      "rewards/rejected": -0.14667439460754395,
       "step": 300,
-      "use_label": 4825.4501953125
     },
     {
       "epoch": 0.31,
-      "eval_logits/chosen": -2.0163989067077637,
-      "eval_logits/rejected": -1.9942671060562134,
-      "eval_logps/chosen": -75.15243530273438,
-      "eval_logps/rejected": -89.50163269042969,
-      "eval_loss": 0.6908969879150391,
-      "eval_pred_label": 923.3174438476562,
-      "eval_rewards/accuracies": 0.3531745970249176,
-      "eval_rewards/chosen": -0.06251893937587738,
-      "eval_rewards/margins": 0.07851671427488327,
-      "eval_rewards/rejected": -0.14103564620018005,
-      "eval_runtime": 247.8241,
-      "eval_samples_per_second": 8.07,
       "eval_steps_per_second": 0.254,
-      "eval_use_label": 5140.6826171875,
       "step": 300
     },
     {
       "epoch": 0.33,
-      "grad_norm": 0.9140625,
       "learning_rate": 4.206963828813555e-06,
-      "logits/chosen": -2.065279483795166,
-      "logits/rejected": -2.0684821605682373,
-      "logps/chosen": -72.58639526367188,
-      "logps/rejected": -89.45655822753906,
-      "loss": 0.6899,
-      "pred_label": 1033.7874755859375,
-      "rewards/accuracies": 0.3125,
-      "rewards/chosen": -0.11120834201574326,
-      "rewards/margins": 0.0645986869931221,
-      "rewards/rejected": -0.17580702900886536,
       "step": 320,
-      "use_label": 5440.21240234375
     },
     {
       "epoch": 0.36,
-      "grad_norm": 0.56640625,
       "learning_rate": 4.068915207986931e-06,
-      "logits/chosen": -2.033398151397705,
-      "logits/rejected": -1.991502046585083,
-      "logps/chosen": -71.1894760131836,
-      "logps/rejected": -84.0774154663086,
-      "loss": 0.6917,
-      "pred_label": 1122.112548828125,
-      "rewards/accuracies": 0.3375000059604645,
-      "rewards/chosen": -0.07950185984373093,
-      "rewards/margins": 0.08617939054965973,
-      "rewards/rejected": -0.16568127274513245,
       "step": 340,
-      "use_label": 5671.8876953125
     },
     {
       "epoch": 0.38,
-      "grad_norm": 0.84765625,
       "learning_rate": 3.922476253313921e-06,
-      "logits/chosen": -2.0358688831329346,
-      "logits/rejected": -2.0224781036376953,
-      "logps/chosen": -76.57051849365234,
-      "logps/rejected": -84.2589340209961,
-      "loss": 0.6914,
-      "pred_label": 1204.4124755859375,
-      "rewards/accuracies": 0.31562501192092896,
-      "rewards/chosen": -0.11715561151504517,
-      "rewards/margins": 0.07723374664783478,
-      "rewards/rejected": -0.19438934326171875,
       "step": 360,
-      "use_label": 5909.58740234375
     },
     {
       "epoch": 0.4,
-      "grad_norm": 0.55078125,
       "learning_rate": 3.768430099352445e-06,
-      "logits/chosen": -2.12782621383667,
-      "logits/rejected": -2.086026430130005,
-      "logps/chosen": -74.41622161865234,
-      "logps/rejected": -85.17180633544922,
-      "loss": 0.6918,
-      "pred_label": 1289.9375,
-      "rewards/accuracies": 0.3656249940395355,
-      "rewards/chosen": -0.07592298835515976,
-      "rewards/margins": 0.08457346260547638,
-      "rewards/rejected": -0.16049645841121674,
       "step": 380,
-      "use_label": 6144.0625
     },
     {
       "epoch": 0.42,
-      "grad_norm": 0.73046875,
       "learning_rate": 3.607600562872785e-06,
-      "logits/chosen": -2.126784086227417,
-      "logits/rejected": -2.1261298656463623,
-      "logps/chosen": -83.82131958007812,
-      "logps/rejected": -86.00455474853516,
-      "loss": 0.6906,
-      "pred_label": 1373.137451171875,
-      "rewards/accuracies": 0.3375000059604645,
-      "rewards/chosen": -0.05874443054199219,
-      "rewards/margins": 0.06775099784135818,
-      "rewards/rejected": -0.12649545073509216,
       "step": 400,
-      "use_label": 6380.8623046875
     },
     {
       "epoch": 0.42,
-      "eval_logits/chosen": -2.0480618476867676,
-      "eval_logits/rejected": -2.0248324871063232,
-      "eval_logps/chosen": -75.26866149902344,
-      "eval_logps/rejected": -90.80635070800781,
-      "eval_loss": 0.6920759081840515,
-      "eval_pred_label": 1472.5714111328125,
-      "eval_rewards/accuracies": 0.3511904776096344,
-      "eval_rewards/chosen": -0.06368114054203033,
-      "eval_rewards/margins": 0.09040173143148422,
-      "eval_rewards/rejected": -0.15408287942409515,
-      "eval_runtime": 248.0088,
       "eval_samples_per_second": 8.064,
       "eval_steps_per_second": 0.254,
-      "eval_use_label": 6695.4287109375,
       "step": 400
     },
     {
       "epoch": 0.44,
-      "grad_norm": 0.78515625,
       "learning_rate": 3.4408477372034743e-06,
-      "logits/chosen": -2.055358409881592,
-      "logits/rejected": -2.068175792694092,
-      "logps/chosen": -70.47552490234375,
-      "logps/rejected": -79.02010345458984,
-      "loss": 0.6903,
-      "pred_label": 1589.0374755859375,
-      "rewards/accuracies": 0.3656249940395355,
-      "rewards/chosen": -0.06399895995855331,
-      "rewards/margins": 0.0963120311498642,
-      "rewards/rejected": -0.16031098365783691,
       "step": 420,
-      "use_label": 6988.96240234375
     },
     {
       "epoch": 0.46,
-      "grad_norm": 0.95703125,
       "learning_rate": 3.269063392575352e-06,
-      "logits/chosen": -2.0893940925598145,
-      "logits/rejected": -2.09212589263916,
-      "logps/chosen": -85.68560028076172,
-      "logps/rejected": -87.41291809082031,
-      "loss": 0.6912,
-      "pred_label": 1667.6875,
-      "rewards/accuracies": 0.33125001192092896,
-      "rewards/chosen": -0.13728377223014832,
-      "rewards/margins": 0.07875251770019531,
-      "rewards/rejected": -0.21603628993034363,
       "step": 440,
-      "use_label": 7230.3125
     },
     {
       "epoch": 0.48,
-      "grad_norm": 0.53515625,
       "learning_rate": 3.09316620706208e-06,
-      "logits/chosen": -2.079465389251709,
-      "logits/rejected": -2.091001033782959,
-      "logps/chosen": -73.67254638671875,
-      "logps/rejected": -81.05415344238281,
-      "loss": 0.6916,
-      "pred_label": 1751.75,
-      "rewards/accuracies": 0.30000001192092896,
-      "rewards/chosen": -0.0876312330365181,
-      "rewards/margins": 0.08376732468605042,
-      "rewards/rejected": -0.17139855027198792,
       "step": 460,
-      "use_label": 7466.25
     },
     {
       "epoch": 0.5,
-      "grad_norm": 0.69921875,
       "learning_rate": 2.91409685362137e-06,
-      "logits/chosen": -2.0379364490509033,
-      "logits/rejected": -2.0492634773254395,
-      "logps/chosen": -77.06828308105469,
-      "logps/rejected": -89.38865661621094,
-      "loss": 0.6912,
-      "pred_label": 1832.6500244140625,
-      "rewards/accuracies": 0.36250001192092896,
-      "rewards/chosen": -0.06041146069765091,
-      "rewards/margins": 0.10216375440359116,
-      "rewards/rejected": -0.16257521510124207,
       "step": 480,
-      "use_label": 7705.35009765625
     },
     {
       "epoch": 0.52,
-      "grad_norm": 0.86328125,
       "learning_rate": 2.7328129695107205e-06,
-      "logits/chosen": -2.031346082687378,
-      "logits/rejected": -2.0272762775421143,
-      "logps/chosen": -79.55888366699219,
-      "logps/rejected": -84.47586822509766,
-      "loss": 0.6903,
-      "pred_label": 1919.5374755859375,
-      "rewards/accuracies": 0.36250001192092896,
-      "rewards/chosen": -0.08177755773067474,
-      "rewards/margins": 0.08017835766077042,
-      "rewards/rejected": -0.16195592284202576,
       "step": 500,
-      "use_label": 7938.46240234375
     },
     {
       "epoch": 0.52,
-      "eval_logits/chosen": -2.0070507526397705,
-      "eval_logits/rejected": -1.9800992012023926,
-      "eval_logps/chosen": -76.36968231201172,
-      "eval_logps/rejected": -92.65614318847656,
-      "eval_loss": 0.6914148926734924,
-      "eval_pred_label": 2025.793701171875,
-      "eval_rewards/accuracies": 0.3492063581943512,
-      "eval_rewards/chosen": -0.07469133287668228,
-      "eval_rewards/margins": 0.09788943827152252,
-      "eval_rewards/rejected": -0.1725807636976242,
-      "eval_runtime": 247.8554,
-      "eval_samples_per_second": 8.069,
       "eval_steps_per_second": 0.254,
-      "eval_use_label": 8246.2060546875,
       "step": 500
     },
     {
       "epoch": 0.54,
-      "grad_norm": 0.78125,
       "learning_rate": 2.5502840349805074e-06,
-      "logits/chosen": -2.026449203491211,
-      "logits/rejected": -2.0701510906219482,
-      "logps/chosen": -75.1209487915039,
-      "logps/rejected": -88.01356506347656,
-      "loss": 0.6913,
-      "pred_label": 2148.887451171875,
-      "rewards/accuracies": 0.3531250059604645,
-      "rewards/chosen": -0.06801941990852356,
-      "rewards/margins": 0.09691040217876434,
-      "rewards/rejected": -0.1649298369884491,
       "step": 520,
-      "use_label": 8533.1123046875
     },
     {
       "epoch": 0.57,
-      "grad_norm": 1.09375,
       "learning_rate": 2.367486188632446e-06,
-      "logits/chosen": -2.0245327949523926,
-      "logits/rejected": -2.0479135513305664,
-      "logps/chosen": -84.60169219970703,
-      "logps/rejected": -90.6330795288086,
-      "loss": 0.692,
-      "pred_label": 2235.550048828125,
-      "rewards/accuracies": 0.359375,
-      "rewards/chosen": -0.09091995656490326,
-      "rewards/margins": 0.11123095452785492,
-      "rewards/rejected": -0.20215091109275818,
       "step": 540,
-      "use_label": 8766.4501953125
     },
     {
       "epoch": 0.59,
-      "grad_norm": 0.75390625,
       "learning_rate": 2.1853970071701415e-06,
-      "logits/chosen": -2.0177600383758545,
-      "logits/rejected": -2.016798257827759,
-      "logps/chosen": -78.94650268554688,
-      "logps/rejected": -80.36412811279297,
-      "loss": 0.6917,
-      "pred_label": 2319.53759765625,
       "rewards/accuracies": 0.2874999940395355,
-      "rewards/chosen": -0.10138510167598724,
-      "rewards/margins": 0.06911652535200119,
-      "rewards/rejected": -0.17050163447856903,
       "step": 560,
-      "use_label": 9002.462890625
     },
     {
       "epoch": 0.61,
-      "grad_norm": 0.71875,
       "learning_rate": 2.00499027745888e-06,
-      "logits/chosen": -2.054065704345703,
-      "logits/rejected": -2.0555384159088135,
-      "logps/chosen": -80.3529281616211,
-      "logps/rejected": -95.12947082519531,
-      "loss": 0.6919,
-      "pred_label": 2401.675048828125,
-      "rewards/accuracies": 0.359375,
-      "rewards/chosen": -0.09597108513116837,
-      "rewards/margins": 0.09131233394145966,
-      "rewards/rejected": -0.18728342652320862,
       "step": 580,
-      "use_label": 9240.3251953125
     },
     {
       "epoch": 0.63,
-      "grad_norm": 0.76171875,
       "learning_rate": 1.8272307888529276e-06,
-      "logits/chosen": -2.059126377105713,
-      "logits/rejected": -2.099806547164917,
-      "logps/chosen": -89.58797454833984,
-      "logps/rejected": -108.6166000366211,
-      "loss": 0.6903,
-      "pred_label": 2492.9375,
-      "rewards/accuracies": 0.41874998807907104,
-      "rewards/chosen": -0.12580521404743195,
-      "rewards/margins": 0.10241512209177017,
-      "rewards/rejected": -0.22822031378746033,
       "step": 600,
-      "use_label": 9469.0625
     },
     {
       "epoch": 0.63,
-      "eval_logits/chosen": -1.9870026111602783,
-      "eval_logits/rejected": -1.960112452507019,
-      "eval_logps/chosen": -78.95431518554688,
-      "eval_logps/rejected": -95.86695861816406,
-      "eval_loss": 0.6917396187782288,
-      "eval_pred_label": 2603.9365234375,
-      "eval_rewards/accuracies": 0.3551587164402008,
-      "eval_rewards/chosen": -0.1005377396941185,
-      "eval_rewards/margins": 0.104151152074337,
-      "eval_rewards/rejected": -0.2046888917684555,
-      "eval_runtime": 247.9642,
-      "eval_samples_per_second": 8.066,
       "eval_steps_per_second": 0.254,
-      "eval_use_label": 9772.0634765625,
       "step": 600
     },
     {
       "epoch": 0.65,
-      "grad_norm": 0.5859375,
       "learning_rate": 1.6530691736402317e-06,
-      "logits/chosen": -1.9752880334854126,
-      "logits/rejected": -2.011981964111328,
-      "logps/chosen": -69.71615600585938,
-      "logps/rejected": -95.88337707519531,
-      "loss": 0.6918,
-      "pred_label": 2726.324951171875,
-      "rewards/accuracies": 0.34687501192092896,
-      "rewards/chosen": -0.09408678859472275,
-      "rewards/margins": 0.09362435340881348,
-      "rewards/rejected": -0.18771114945411682,
       "step": 620,
-      "use_label": 10059.6748046875
     },
     {
       "epoch": 0.67,
-      "grad_norm": 0.73046875,
       "learning_rate": 1.4834368231970922e-06,
-      "logits/chosen": -2.0288071632385254,
-      "logits/rejected": -2.0409998893737793,
-      "logps/chosen": -82.56907653808594,
-      "logps/rejected": -90.75765228271484,
-      "loss": 0.6894,
-      "pred_label": 2805.512451171875,
-      "rewards/accuracies": 0.36250001192092896,
-      "rewards/chosen": -0.10210500657558441,
-      "rewards/margins": 0.10695278644561768,
-      "rewards/rejected": -0.2090577781200409,
       "step": 640,
-      "use_label": 10300.4873046875
     },
     {
       "epoch": 0.69,
-      "grad_norm": 0.5625,
       "learning_rate": 1.3192409070404582e-06,
-      "logits/chosen": -2.055405855178833,
-      "logits/rejected": -2.0071816444396973,
-      "logps/chosen": -77.25361633300781,
-      "logps/rejected": -88.34065246582031,
-      "loss": 0.6915,
-      "pred_label": 2899.9375,
-      "rewards/accuracies": 0.34687501192092896,
-      "rewards/chosen": -0.11595650017261505,
-      "rewards/margins": 0.0952102541923523,
-      "rewards/rejected": -0.21116676926612854,
       "step": 660,
-      "use_label": 10526.0625
     },
     {
       "epoch": 0.71,
-      "grad_norm": 0.67578125,
       "learning_rate": 1.1613595214152713e-06,
-      "logits/chosen": -2.056795597076416,
-      "logits/rejected": -2.071035861968994,
-      "logps/chosen": -88.15283203125,
-      "logps/rejected": -96.39839172363281,
-      "loss": 0.6918,
-      "pred_label": 2978.0625,
-      "rewards/accuracies": 0.3499999940395355,
-      "rewards/chosen": -0.12273094803094864,
-      "rewards/margins": 0.09404005855321884,
-      "rewards/rejected": -0.2167709767818451,
       "step": 680,
-      "use_label": 10767.9375
     },
     {
       "epoch": 0.73,
-      "grad_norm": 0.74609375,
       "learning_rate": 1.0106369933615043e-06,
-      "logits/chosen": -2.0782313346862793,
-      "logits/rejected": -2.0467371940612793,
-      "logps/chosen": -97.93621826171875,
-      "logps/rejected": -106.91497802734375,
-      "loss": 0.6917,
-      "pred_label": 3075.71240234375,
-      "rewards/accuracies": 0.3687500059604645,
-      "rewards/chosen": -0.1391007900238037,
-      "rewards/margins": 0.10766571760177612,
-      "rewards/rejected": -0.24676652252674103,
       "step": 700,
-      "use_label": 10990.287109375
     },
     {
       "epoch": 0.73,
-      "eval_logits/chosen": -1.9658821821212769,
-      "eval_logits/rejected": -1.9401167631149292,
-      "eval_logps/chosen": -80.06806182861328,
-      "eval_logps/rejected": -97.64107513427734,
-      "eval_loss": 0.6917343735694885,
-      "eval_pred_label": 3195.22216796875,
       "eval_rewards/accuracies": 0.3511904776096344,
-      "eval_rewards/chosen": -0.11167524009943008,
-      "eval_rewards/margins": 0.1107548326253891,
-      "eval_rewards/rejected": -0.2224300652742386,
-      "eval_runtime": 247.943,
-      "eval_samples_per_second": 8.066,
       "eval_steps_per_second": 0.254,
-      "eval_use_label": 11284.77734375,
       "step": 700
     },
     {
       "epoch": 0.75,
-      "grad_norm": 0.72265625,
       "learning_rate": 8.678793653740633e-07,
-      "logits/chosen": -2.015249729156494,
-      "logits/rejected": -2.0358498096466064,
-      "logps/chosen": -70.9017562866211,
-      "logps/rejected": -86.4397201538086,
-      "loss": 0.6908,
-      "pred_label": 3306.39990234375,
-      "rewards/accuracies": 0.3187499940395355,
-      "rewards/chosen": -0.10931293666362762,
-      "rewards/margins": 0.0925455391407013,
-      "rewards/rejected": -0.20185847580432892,
       "step": 720,
-      "use_label": 11583.599609375
     },
     {
       "epoch": 0.77,
-      "grad_norm": 0.83203125,
       "learning_rate": 7.338500848029603e-07,
-      "logits/chosen": -2.01334810256958,
-      "logits/rejected": -2.0296788215637207,
-      "logps/chosen": -74.19635772705078,
-      "logps/rejected": -83.99024200439453,
-      "loss": 0.6911,
-      "pred_label": 3386.16259765625,
-      "rewards/accuracies": 0.32499998807907104,
-      "rewards/chosen": -0.08706559240818024,
-      "rewards/margins": 0.11473299562931061,
-      "rewards/rejected": -0.20179858803749084,
       "step": 740,
-      "use_label": 11823.837890625
     },
     {
       "epoch": 0.8,
-      "grad_norm": 0.66015625,
       "learning_rate": 6.092659210462232e-07,
-      "logits/chosen": -2.052433967590332,
-      "logits/rejected": -2.060997724533081,
-      "logps/chosen": -76.93110656738281,
-      "logps/rejected": -97.30107879638672,
-      "loss": 0.6904,
-      "pred_label": 3466.5,
       "rewards/accuracies": 0.33125001192092896,
-      "rewards/chosen": -0.11182014644145966,
-      "rewards/margins": 0.07981495559215546,
-      "rewards/rejected": -0.1916351020336151,
       "step": 760,
-      "use_label": 12063.5
     },
     {
       "epoch": 0.82,
-      "grad_norm": 0.859375,
       "learning_rate": 4.947931323697983e-07,
-      "logits/chosen": -2.032320737838745,
-      "logits/rejected": -2.047227144241333,
-      "logps/chosen": -89.46810913085938,
-      "logps/rejected": -95.58660125732422,
-      "loss": 0.6913,
-      "pred_label": 3558.875,
       "rewards/accuracies": 0.375,
-      "rewards/chosen": -0.11294672638177872,
-      "rewards/margins": 0.11753211170434952,
-      "rewards/rejected": -0.23047883808612823,
       "step": 780,
-      "use_label": 12291.125
     },
     {
       "epoch": 0.84,
-      "grad_norm": 0.74609375,
       "learning_rate": 3.910439028537638e-07,
-      "logits/chosen": -2.010045289993286,
-      "logits/rejected": -1.989505410194397,
-      "logps/chosen": -70.47514343261719,
-      "logps/rejected": -75.11082458496094,
-      "loss": 0.6912,
-      "pred_label": 3649.22509765625,
-      "rewards/accuracies": 0.3656249940395355,
-      "rewards/chosen": -0.08034199476242065,
-      "rewards/margins": 0.0995674580335617,
-      "rewards/rejected": -0.17990948259830475,
       "step": 800,
-      "use_label": 12520.775390625
     },
     {
       "epoch": 0.84,
-      "eval_logits/chosen": -1.9421576261520386,
-      "eval_logits/rejected": -1.9144233465194702,
-      "eval_logps/chosen": -77.5874252319336,
-      "eval_logps/rejected": -95.20885467529297,
-      "eval_loss": 0.6917100548744202,
-      "eval_pred_label": 3757.174560546875,
-      "eval_rewards/accuracies": 0.363095223903656,
-      "eval_rewards/chosen": -0.08686873316764832,
-      "eval_rewards/margins": 0.11123905330896378,
-      "eval_rewards/rejected": -0.19810780882835388,
-      "eval_runtime": 247.8932,
-      "eval_samples_per_second": 8.068,
       "eval_steps_per_second": 0.254,
-      "eval_use_label": 12826.8251953125,
       "step": 800
     },
     {
       "epoch": 0.86,
-      "grad_norm": 0.828125,
       "learning_rate": 2.98573068519539e-07,
-      "logits/chosen": -2.035728931427002,
-      "logits/rejected": -2.029679775238037,
-      "logps/chosen": -74.97032165527344,
-      "logps/rejected": -84.2763900756836,
-      "loss": 0.6908,
-      "pred_label": 3872.199951171875,
-      "rewards/accuracies": 0.3343749940395355,
-      "rewards/chosen": -0.1004786491394043,
-      "rewards/margins": 0.08142165094614029,
-      "rewards/rejected": -0.181900292634964,
       "step": 820,
-      "use_label": 13121.7998046875
     },
     {
       "epoch": 0.88,
-      "grad_norm": 0.6953125,
       "learning_rate": 2.178751501463036e-07,
-      "logits/chosen": -2.0276803970336914,
-      "logits/rejected": -2.0149848461151123,
-      "logps/chosen": -66.70552062988281,
-      "logps/rejected": -70.63726806640625,
-      "loss": 0.6915,
-      "pred_label": 3954.60009765625,
-      "rewards/accuracies": 0.28437501192092896,
-      "rewards/chosen": -0.08035041391849518,
-      "rewards/margins": 0.07462439686059952,
-      "rewards/rejected": -0.1549748182296753,
       "step": 840,
-      "use_label": 13359.400390625
     },
     {
       "epoch": 0.9,
-      "grad_norm": 0.7578125,
       "learning_rate": 1.4938170864468636e-07,
-      "logits/chosen": -2.048083543777466,
-      "logits/rejected": -2.0321922302246094,
-      "logps/chosen": -90.8042221069336,
-      "logps/rejected": -100.8233413696289,
-      "loss": 0.69,
-      "pred_label": 4041.72509765625,
-      "rewards/accuracies": 0.40625,
-      "rewards/chosen": -0.0809466689825058,
-      "rewards/margins": 0.1332779824733734,
-      "rewards/rejected": -0.2142246663570404,
       "step": 860,
-      "use_label": 13592.275390625
     },
     {
       "epoch": 0.92,
-      "grad_norm": 0.5546875,
       "learning_rate": 9.345903713082305e-08,
-      "logits/chosen": -2.047487735748291,
-      "logits/rejected": -2.034466505050659,
-      "logps/chosen": -81.69231414794922,
-      "logps/rejected": -101.5263442993164,
-      "loss": 0.6915,
-      "pred_label": 4142.625,
-      "rewards/accuracies": 0.38749998807907104,
-      "rewards/chosen": -0.09660721570253372,
-      "rewards/margins": 0.13364934921264648,
-      "rewards/rejected": -0.23025652766227722,
       "step": 880,
-      "use_label": 13811.375
     },
     {
       "epoch": 0.94,
-      "grad_norm": 0.7578125,
       "learning_rate": 5.0406202043228604e-08,
-      "logits/chosen": -1.9304163455963135,
-      "logits/rejected": -1.9657026529312134,
-      "logps/chosen": -75.30284118652344,
-      "logps/rejected": -99.71704864501953,
-      "loss": 0.6914,
-      "pred_label": 4235.9248046875,
       "rewards/accuracies": 0.3375000059604645,
-      "rewards/chosen": -0.08683101832866669,
-      "rewards/margins": 0.10066400468349457,
-      "rewards/rejected": -0.18749502301216125,
       "step": 900,
-      "use_label": 14038.0751953125
     },
     {
       "epoch": 0.94,
-      "eval_logits/chosen": -1.939072847366333,
-      "eval_logits/rejected": -1.9112603664398193,
-      "eval_logps/chosen": -77.5274658203125,
-      "eval_logps/rejected": -95.22908020019531,
-      "eval_loss": 0.6917905211448669,
-      "eval_pred_label": 4352.28564453125,
-      "eval_rewards/accuracies": 0.3571428656578064,
-      "eval_rewards/chosen": -0.08626923710107803,
-      "eval_rewards/margins": 0.1120409369468689,
-      "eval_rewards/rejected": -0.19831016659736633,
-      "eval_runtime": 247.7794,
-      "eval_samples_per_second": 8.072,
-      "eval_steps_per_second": 0.254,
-      "eval_use_label": 14335.7138671875,
       "step": 900
     },
     {
       "epoch": 0.96,
-      "grad_norm": 0.80078125,
       "learning_rate": 2.0453443778310766e-08,
-      "logits/chosen": -1.9801095724105835,
-      "logits/rejected": -1.9714418649673462,
-      "logps/chosen": -63.8930778503418,
-      "logps/rejected": -85.15528869628906,
-      "loss": 0.6906,
-      "pred_label": 4473.8125,
-      "rewards/accuracies": 0.31562501192092896,
-      "rewards/chosen": -0.06585933268070221,
-      "rewards/margins": 0.11039040982723236,
-      "rewards/rejected": -0.17624975740909576,
       "step": 920,
-      "use_label": 14624.1875
     },
     {
       "epoch": 0.98,
-      "grad_norm": 0.8359375,
       "learning_rate": 3.760945397705828e-09,
-      "logits/chosen": -1.9589160680770874,
-      "logits/rejected": -1.9971154928207397,
-      "logps/chosen": -74.0462646484375,
-      "logps/rejected": -91.64708709716797,
-      "loss": 0.6913,
-      "pred_label": 4558.71240234375,
       "rewards/accuracies": 0.32499998807907104,
-      "rewards/chosen": -0.0799408107995987,
-      "rewards/margins": 0.10116855055093765,
-      "rewards/rejected": -0.18110935389995575,
       "step": 940,
-      "use_label": 14859.287109375
     },
     {
       "epoch": 1.0,
       "step": 955,
       "total_flos": 0.0,
-      "train_loss": 0.6906769273168754,
-      "train_runtime": 20027.4031,
-      "train_samples_per_second": 3.053,
       "train_steps_per_second": 0.048
     }
   ],

       "epoch": 0.02,
       "grad_norm": 0.6796875,
       "learning_rate": 1.0416666666666667e-06,
+      "logits/chosen": -2.227864980697632,
+      "logits/rejected": -2.276106834411621,
+      "logps/chosen": -57.02927780151367,
+      "logps/rejected": -66.8729019165039,
       "loss": 0.6927,
       "pred_label": 0.0,
+      "rewards/accuracies": 0.24671052396297455,
+      "rewards/chosen": 0.003993770573288202,
+      "rewards/margins": 0.0009077258291654289,
+      "rewards/rejected": 0.003086044918745756,
       "step": 20,
       "use_label": 170.0
     },
     {
       "epoch": 0.04,
+      "grad_norm": 0.546875,
       "learning_rate": 2.0833333333333334e-06,
+      "logits/chosen": -2.2728817462921143,
+      "logits/rejected": -2.261592388153076,
+      "logps/chosen": -54.7827033996582,
+      "logps/rejected": -67.2376708984375,
+      "loss": 0.6915,
       "pred_label": 0.0,
       "rewards/accuracies": 0.24687500298023224,
+      "rewards/chosen": 0.017464743927121162,
+      "rewards/margins": 0.0016005486249923706,
+      "rewards/rejected": 0.015864195302128792,
       "step": 40,
       "use_label": 482.0
     },
     {
       "epoch": 0.06,
+      "grad_norm": 0.625,
       "learning_rate": 3.125e-06,
+      "logits/chosen": -2.321017026901245,
+      "logits/rejected": -2.318946123123169,
+      "logps/chosen": -75.58020782470703,
+      "logps/rejected": -87.66261291503906,
+      "loss": 0.6905,
+      "pred_label": 4.987500190734863,
+      "rewards/accuracies": 0.3187499940395355,
+      "rewards/chosen": 0.031644098460674286,
+      "rewards/margins": 0.009459299966692924,
+      "rewards/rejected": 0.02218480221927166,
       "step": 60,
+      "use_label": 797.0125122070312
     },
     {
       "epoch": 0.08,
+      "grad_norm": 0.57421875,
       "learning_rate": 4.166666666666667e-06,
+      "logits/chosen": -2.2973294258117676,
+      "logits/rejected": -2.2655692100524902,
+      "logps/chosen": -77.97566223144531,
+      "logps/rejected": -81.31121826171875,
+      "loss": 0.6909,
+      "pred_label": 29.850000381469727,
       "rewards/accuracies": 0.3343749940395355,
+      "rewards/chosen": 0.02917659282684326,
+      "rewards/margins": 0.014682939276099205,
+      "rewards/rejected": 0.014493651688098907,
       "step": 80,
+      "use_label": 1092.1500244140625
     },
     {
       "epoch": 0.1,
+      "grad_norm": 0.625,
       "learning_rate": 4.9997324926814375e-06,
+      "logits/chosen": -2.210732936859131,
+      "logits/rejected": -2.2176434993743896,
+      "logps/chosen": -66.4733657836914,
+      "logps/rejected": -74.55338287353516,
+      "loss": 0.6911,
+      "pred_label": 68.07499694824219,
+      "rewards/accuracies": 0.33125001192092896,
+      "rewards/chosen": 0.013588580302894115,
+      "rewards/margins": 0.026675995439291,
+      "rewards/rejected": -0.01308741606771946,
       "step": 100,
+      "use_label": 1373.925048828125
     },
     {
       "epoch": 0.1,
+      "eval_logits/chosen": -2.120985984802246,
+      "eval_logits/rejected": -2.093513250350952,
+      "eval_logps/chosen": -69.42622375488281,
+      "eval_logps/rejected": -78.9540786743164,
+      "eval_loss": 0.691917359828949,
+      "eval_pred_label": 150.14285278320312,
+      "eval_rewards/accuracies": 0.3392857015132904,
+      "eval_rewards/chosen": -0.005256766453385353,
+      "eval_rewards/margins": 0.030303288251161575,
+      "eval_rewards/rejected": -0.03556005656719208,
+      "eval_runtime": 247.9513,
+      "eval_samples_per_second": 8.066,
       "eval_steps_per_second": 0.254,
+      "eval_use_label": 1705.857177734375,
       "step": 100
     },
     {
       "epoch": 0.13,
+      "grad_norm": 0.53125,
       "learning_rate": 4.9903757462135984e-06,
+      "logits/chosen": -2.24790620803833,
+      "logits/rejected": -2.1782658100128174,
+      "logps/chosen": -67.23531341552734,
+      "logps/rejected": -80.04717254638672,
+      "loss": 0.6914,
+      "pred_label": 243.0,
+      "rewards/accuracies": 0.3125,
+      "rewards/chosen": 0.00682856747880578,
+      "rewards/margins": 0.03467796370387077,
+      "rewards/rejected": -0.02784939482808113,
       "step": 120,
+      "use_label": 2023.0
     },
     {
       "epoch": 0.15,
+      "grad_norm": 0.341796875,
       "learning_rate": 4.967700826904229e-06,
+      "logits/chosen": -2.1205825805664062,
+      "logits/rejected": -2.150360584259033,
+      "logps/chosen": -58.376564025878906,
+      "logps/rejected": -71.84730529785156,
+      "loss": 0.6917,
+      "pred_label": 304.9125061035156,
+      "rewards/accuracies": 0.2874999940395355,
+      "rewards/chosen": 0.0049698068760335445,
+      "rewards/margins": 0.025117725133895874,
+      "rewards/rejected": -0.02014791965484619,
       "step": 140,
+      "use_label": 2281.08740234375
     },
     {
       "epoch": 0.17,
+      "grad_norm": 0.515625,
       "learning_rate": 4.931828996974498e-06,
+      "logits/chosen": -2.1872148513793945,
+      "logits/rejected": -2.1555256843566895,
+      "logps/chosen": -66.3367919921875,
+      "logps/rejected": -69.24983215332031,
+      "loss": 0.6918,
+      "pred_label": 371.5375061035156,
+      "rewards/accuracies": 0.3218750059604645,
+      "rewards/chosen": -0.017877796664834023,
+      "rewards/margins": 0.03909943252801895,
+      "rewards/rejected": -0.05697723478078842,
       "step": 160,
+      "use_label": 2534.46240234375
     },
     {
       "epoch": 0.19,
+      "grad_norm": 0.4921875,
       "learning_rate": 4.882952093833628e-06,
+      "logits/chosen": -2.1010584831237793,
+      "logits/rejected": -2.112929582595825,
+      "logps/chosen": -67.18075561523438,
+      "logps/rejected": -77.23786163330078,
+      "loss": 0.6925,
+      "pred_label": 444.2124938964844,
+      "rewards/accuracies": 0.3031249940395355,
+      "rewards/chosen": -0.03951570764183998,
+      "rewards/margins": 0.03356783464550972,
+      "rewards/rejected": -0.0730835422873497,
       "step": 180,
+      "use_label": 2781.78759765625
     },
     {
       "epoch": 0.21,
+      "grad_norm": 0.546875,
       "learning_rate": 4.821331504159906e-06,
+      "logits/chosen": -2.181281805038452,
+      "logits/rejected": -2.155298948287964,
+      "logps/chosen": -78.88096618652344,
+      "logps/rejected": -77.27136993408203,
+      "loss": 0.692,
+      "pred_label": 513.2125244140625,
+      "rewards/accuracies": 0.3812499940395355,
+      "rewards/chosen": -0.019123973324894905,
+      "rewards/margins": 0.040298379957675934,
+      "rewards/rejected": -0.05942235141992569,
       "step": 200,
+      "use_label": 3032.78759765625
     },
     {
       "epoch": 0.21,
+      "eval_logits/chosen": -2.1267549991607666,
+      "eval_logits/rejected": -2.1057066917419434,
+      "eval_logps/chosen": -71.54093170166016,
+      "eval_logps/rejected": -82.35039520263672,
+      "eval_loss": 0.6926834583282471,
+      "eval_pred_label": 622.952392578125,
+      "eval_rewards/accuracies": 0.3432539701461792,
+      "eval_rewards/chosen": -0.026403911411762238,
+      "eval_rewards/margins": 0.043119337409734726,
+      "eval_rewards/rejected": -0.06952324509620667,
+      "eval_runtime": 248.2687,
+      "eval_samples_per_second": 8.056,
       "eval_steps_per_second": 0.254,
+      "eval_use_label": 3337.047607421875,
       "step": 200
     },
     {
       "epoch": 0.23,
+      "grad_norm": 0.609375,
       "learning_rate": 4.747296766042161e-06,
+      "logits/chosen": -2.2548727989196777,
+      "logits/rejected": -2.2427258491516113,
+      "logps/chosen": -74.4991683959961,
+      "logps/rejected": -75.8321762084961,
+      "loss": 0.6924,
+      "pred_label": 738.5,
+      "rewards/accuracies": 0.3531250059604645,
+      "rewards/chosen": -0.024670986458659172,
+      "rewards/margins": 0.04779377579689026,
+      "rewards/rejected": -0.07246476411819458,
       "step": 220,
+      "use_label": 3631.5
     },
     {
       "epoch": 0.25,
+      "grad_norm": 0.46875,
       "learning_rate": 4.661243806657256e-06,
+      "logits/chosen": -2.2358717918395996,
+      "logits/rejected": -2.216477870941162,
+      "logps/chosen": -72.57451629638672,
+      "logps/rejected": -79.20014953613281,
+      "loss": 0.6921,
+      "pred_label": 830.7750244140625,
+      "rewards/accuracies": 0.3499999940395355,
+      "rewards/chosen": -0.013481785543262959,
+      "rewards/margins": 0.0440317802131176,
+      "rewards/rejected": -0.05751357227563858,
       "step": 240,
+      "use_label": 3859.22509765625
     },
     {
       "epoch": 0.27,
+      "grad_norm": 0.5390625,
       "learning_rate": 4.563632824908252e-06,
+      "logits/chosen": -2.204738140106201,
+      "logits/rejected": -2.2045350074768066,
+      "logps/chosen": -64.52825164794922,
+      "logps/rejected": -74.71345520019531,
+      "loss": 0.6919,
+      "pred_label": 912.1624755859375,
+      "rewards/accuracies": 0.3125,
+      "rewards/chosen": -0.01493888907134533,
+      "rewards/margins": 0.038629818707704544,
+      "rewards/rejected": -0.05356870964169502,
       "step": 260,
+      "use_label": 4097.83740234375
     },
     {
       "epoch": 0.29,
+      "grad_norm": 0.431640625,
       "learning_rate": 4.454985830346574e-06,
+      "logits/chosen": -2.224844455718994,
+      "logits/rejected": -2.247999668121338,
+      "logps/chosen": -72.3452377319336,
+      "logps/rejected": -75.01800537109375,
+      "loss": 0.6916,
+      "pred_label": 993.7874755859375,
+      "rewards/accuracies": 0.3125,
+      "rewards/chosen": -0.04014473780989647,
+      "rewards/margins": 0.030534306541085243,
+      "rewards/rejected": -0.07067903876304626,
       "step": 280,
+      "use_label": 4336.21240234375
     },
     {
       "epoch": 0.31,
+      "grad_norm": 0.423828125,
       "learning_rate": 4.335883851539693e-06,
+      "logits/chosen": -2.2155380249023438,
+      "logits/rejected": -2.2151846885681152,
+      "logps/chosen": -67.15587615966797,
+      "logps/rejected": -74.2086181640625,
+      "loss": 0.6924,
+      "pred_label": 1083.4625244140625,
+      "rewards/accuracies": 0.34687501192092896,
+      "rewards/chosen": -0.020541679114103317,
+      "rewards/margins": 0.06299655884504318,
+      "rewards/rejected": -0.0835382491350174,
       "step": 300,
+      "use_label": 4566.53759765625
     },
     {
       "epoch": 0.31,
+      "eval_logits/chosen": -2.2169294357299805,
+      "eval_logits/rejected": -2.1932876110076904,
+      "eval_logps/chosen": -72.5876693725586,
+      "eval_logps/rejected": -84.35366821289062,
+      "eval_loss": 0.6928625702857971,
+      "eval_pred_label": 1200.2698974609375,
+      "eval_rewards/accuracies": 0.3392857015132904,
+      "eval_rewards/chosen": -0.03687124699354172,
+      "eval_rewards/margins": 0.0526847243309021,
+      "eval_rewards/rejected": -0.08955597132444382,
+      "eval_runtime": 247.9119,
+      "eval_samples_per_second": 8.067,
       "eval_steps_per_second": 0.254,
+      "eval_use_label": 4863.72998046875,
       "step": 300
     },
     {
       "epoch": 0.33,
+      "grad_norm": 0.61328125,
       "learning_rate": 4.206963828813555e-06,
+      "logits/chosen": -2.291391134262085,
+      "logits/rejected": -2.3002986907958984,
+      "logps/chosen": -68.5405502319336,
+      "logps/rejected": -83.0180435180664,
+      "loss": 0.6927,
+      "pred_label": 1323.074951171875,
+      "rewards/accuracies": 0.30000001192092896,
+      "rewards/chosen": -0.07074997574090958,
+      "rewards/margins": 0.04067195579409599,
+      "rewards/rejected": -0.11142192780971527,
       "step": 320,
+      "use_label": 5150.9248046875
     },
     {
       "epoch": 0.36,
+      "grad_norm": 0.455078125,
       "learning_rate": 4.068915207986931e-06,
+      "logits/chosen": -2.2867865562438965,
+      "logits/rejected": -2.2617173194885254,
+      "logps/chosen": -64.90373229980469,
+      "logps/rejected": -74.42888641357422,
+      "loss": 0.692,
+      "pred_label": 1427.7750244140625,
+      "rewards/accuracies": 0.3531250059604645,
+      "rewards/chosen": -0.016644436866044998,
+      "rewards/margins": 0.052551619708538055,
+      "rewards/rejected": -0.06919606029987335,
       "step": 340,
+      "use_label": 5366.22509765625
     },
     {
       "epoch": 0.38,
+      "grad_norm": 0.458984375,
       "learning_rate": 3.922476253313921e-06,
+      "logits/chosen": -2.249298572540283,
+      "logits/rejected": -2.253566265106201,
+      "logps/chosen": -68.57295989990234,
+      "logps/rejected": -73.1113510131836,
+      "loss": 0.693,
+      "pred_label": 1522.0999755859375,
+      "rewards/accuracies": 0.328125,
+      "rewards/chosen": -0.037180084735155106,
+      "rewards/margins": 0.045733559876680374,
+      "rewards/rejected": -0.08291363716125488,
       "step": 360,
+      "use_label": 5591.89990234375
     },
     {
       "epoch": 0.4,
+      "grad_norm": 0.4453125,
       "learning_rate": 3.768430099352445e-06,
+      "logits/chosen": -2.2458603382110596,
+      "logits/rejected": -2.2051453590393066,
+      "logps/chosen": -70.38607788085938,
+      "logps/rejected": -78.15666198730469,
+      "loss": 0.6923,
+      "pred_label": 1625.5374755859375,
+      "rewards/accuracies": 0.3531250059604645,
+      "rewards/chosen": -0.03562153875827789,
+      "rewards/margins": 0.054723359644412994,
+      "rewards/rejected": -0.09034489840269089,
       "step": 380,
+      "use_label": 5808.46240234375
     },
     {
       "epoch": 0.42,
+      "grad_norm": 0.59765625,
       "learning_rate": 3.607600562872785e-06,
+      "logits/chosen": -2.196977138519287,
+      "logits/rejected": -2.197218656539917,
+      "logps/chosen": -81.0395736694336,
+      "logps/rejected": -81.44091033935547,
+      "loss": 0.6927,
+      "pred_label": 1725.362548828125,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": -0.03092697635293007,
+      "rewards/margins": 0.049932099878787994,
+      "rewards/rejected": -0.08085907250642776,
       "step": 400,
+      "use_label": 6028.6376953125
     },
     {
       "epoch": 0.42,
+      "eval_logits/chosen": -2.118962526321411,
+      "eval_logits/rejected": -2.093430995941162,
+      "eval_logps/chosen": -71.01036071777344,
+      "eval_logps/rejected": -83.43638610839844,
+      "eval_loss": 0.6925376653671265,
+      "eval_pred_label": 1843.920654296875,
+      "eval_rewards/accuracies": 0.341269850730896,
+      "eval_rewards/chosen": -0.021098149940371513,
+      "eval_rewards/margins": 0.05928494408726692,
+      "eval_rewards/rejected": -0.08038310706615448,
+      "eval_runtime": 248.0095,
       "eval_samples_per_second": 8.064,
       "eval_steps_per_second": 0.254,
+      "eval_use_label": 6324.07958984375,
       "step": 400
     },
     {
       "epoch": 0.44,
+      "grad_norm": 0.30078125,
       "learning_rate": 3.4408477372034743e-06,
+      "logits/chosen": -2.146075487136841,
+      "logits/rejected": -2.152238607406616,
+      "logps/chosen": -65.8438720703125,
+      "logps/rejected": -70.74162292480469,
+      "loss": 0.692,
+      "pred_label": 1975.637451171875,
+      "rewards/accuracies": 0.3531250059604645,
+      "rewards/chosen": -0.017682421952486038,
+      "rewards/margins": 0.05984373763203621,
+      "rewards/rejected": -0.07752615213394165,
       "step": 420,
+      "use_label": 6602.3623046875
     },
     {
       "epoch": 0.46,
+      "grad_norm": 0.9296875,
       "learning_rate": 3.269063392575352e-06,
+      "logits/chosen": -2.2523856163024902,
+      "logits/rejected": -2.2490224838256836,
+      "logps/chosen": -74.74308013916016,
+      "logps/rejected": -74.57176208496094,
+      "loss": 0.6927,
+      "pred_label": 2072.27490234375,
+      "rewards/accuracies": 0.3218750059604645,
+      "rewards/chosen": -0.027858540415763855,
+      "rewards/margins": 0.05976608395576477,
+      "rewards/rejected": -0.08762462437152863,
       "step": 440,
+      "use_label": 6825.72509765625
     },
     {
       "epoch": 0.48,
+      "grad_norm": 0.34375,
       "learning_rate": 3.09316620706208e-06,
+      "logits/chosen": -2.2484962940216064,
+      "logits/rejected": -2.253873109817505,
+      "logps/chosen": -68.02134704589844,
+      "logps/rejected": -73.40286254882812,
+      "loss": 0.6929,
+      "pred_label": 2175.53759765625,
+      "rewards/accuracies": 0.328125,
+      "rewards/chosen": -0.03111925721168518,
+      "rewards/margins": 0.06376632302999496,
+      "rewards/rejected": -0.09488557279109955,
       "step": 460,
+      "use_label": 7042.46240234375
     },
     {
       "epoch": 0.5,
+      "grad_norm": 0.3984375,
       "learning_rate": 2.91409685362137e-06,
+      "logits/chosen": -2.2359812259674072,
+      "logits/rejected": -2.2330563068389893,
+      "logps/chosen": -75.03883361816406,
+      "logps/rejected": -84.55928039550781,
+      "loss": 0.6922,
+      "pred_label": 2276.949951171875,
+      "rewards/accuracies": 0.3687500059604645,
+      "rewards/chosen": -0.040116917341947556,
+      "rewards/margins": 0.0741645023226738,
+      "rewards/rejected": -0.11428143084049225,
       "step": 480,
+      "use_label": 7261.0498046875
     },
     {
       "epoch": 0.52,
+      "grad_norm": 0.5703125,
       "learning_rate": 2.7328129695107205e-06,
+      "logits/chosen": -2.2053210735321045,
+      "logits/rejected": -2.2094616889953613,
+      "logps/chosen": -75.30181121826172,
+      "logps/rejected": -77.61902618408203,
+      "loss": 0.6924,
+      "pred_label": 2379.137451171875,
+      "rewards/accuracies": 0.3656249940395355,
+      "rewards/chosen": -0.039206866174936295,
+      "rewards/margins": 0.05418051406741142,
+      "rewards/rejected": -0.09338738024234772,
       "step": 500,
+      "use_label": 7478.8623046875
     },
     {
       "epoch": 0.52,
+      "eval_logits/chosen": -2.176236152648926,
+      "eval_logits/rejected": -2.151799201965332,
+      "eval_logps/chosen": -70.96183776855469,
+      "eval_logps/rejected": -83.7112045288086,
+      "eval_loss": 0.6929337382316589,
+      "eval_pred_label": 2499.22216796875,
+      "eval_rewards/accuracies": 0.3432539701461792,
+      "eval_rewards/chosen": -0.02061287872493267,
+      "eval_rewards/margins": 0.06251849234104156,
+      "eval_rewards/rejected": -0.08313137292861938,
+      "eval_runtime": 248.0888,
+      "eval_samples_per_second": 8.062,
       "eval_steps_per_second": 0.254,
+      "eval_use_label": 7772.77783203125,
       "step": 500
     },
     {
       "epoch": 0.54,
+      "grad_norm": 0.61328125,
       "learning_rate": 2.5502840349805074e-06,
+      "logits/chosen": -2.195094347000122,
+      "logits/rejected": -2.237112045288086,
+      "logps/chosen": -70.13484954833984,
+      "logps/rejected": -79.53434753417969,
+      "loss": 0.692,
+      "pred_label": 2632.125,
+      "rewards/accuracies": 0.3656249940395355,
+      "rewards/chosen": -0.018158430233597755,
+      "rewards/margins": 0.061979226768016815,
+      "rewards/rejected": -0.08013766258955002,
       "step": 520,
+      "use_label": 8049.875
     },
     {
       "epoch": 0.57,
+      "grad_norm": 0.55078125,
       "learning_rate": 2.367486188632446e-06,
+      "logits/chosen": -2.1844329833984375,
+      "logits/rejected": -2.1980721950531006,
+      "logps/chosen": -78.40437316894531,
+      "logps/rejected": -80.49110412597656,
+      "loss": 0.6925,
+      "pred_label": 2729.66259765625,
+      "rewards/accuracies": 0.3656249940395355,
+      "rewards/chosen": -0.028946753591299057,
+      "rewards/margins": 0.0717843621969223,
+      "rewards/rejected": -0.10073111951351166,
       "step": 540,
+      "use_label": 8272.337890625
     },
     {
       "epoch": 0.59,
+      "grad_norm": 0.48828125,
       "learning_rate": 2.1853970071701415e-06,
+      "logits/chosen": -2.19417667388916,
+      "logits/rejected": -2.1900599002838135,
+      "logps/chosen": -73.69783020019531,
+      "logps/rejected": -72.62937927246094,
+      "loss": 0.6926,
+      "pred_label": 2827.875,
       "rewards/accuracies": 0.2874999940395355,
+      "rewards/chosen": -0.04889845848083496,
+      "rewards/margins": 0.04425561800599098,
+      "rewards/rejected": -0.09315408021211624,
       "step": 560,
+      "use_label": 8494.125
     },
     {
       "epoch": 0.61,
+      "grad_norm": 0.328125,
       "learning_rate": 2.00499027745888e-06,
+      "logits/chosen": -2.224670171737671,
+      "logits/rejected": -2.230435371398926,
+      "logps/chosen": -76.27436065673828,
+      "logps/rejected": -87.6956787109375,
+      "loss": 0.6922,
+      "pred_label": 2926.862548828125,
+      "rewards/accuracies": 0.3687500059604645,
+      "rewards/chosen": -0.055185507982969284,
+      "rewards/margins": 0.05776001885533333,
+      "rewards/rejected": -0.11294553428888321,
       "step": 580,
+      "use_label": 8715.1376953125
     },
     {
       "epoch": 0.63,
+      "grad_norm": 0.5546875,
       "learning_rate": 1.8272307888529276e-06,
+      "logits/chosen": -2.231316089630127,
+      "logits/rejected": -2.258852481842041,
+      "logps/chosen": -84.25640106201172,
+      "logps/rejected": -99.73040771484375,
+      "loss": 0.6929,
+      "pred_label": 3042.83740234375,
+      "rewards/accuracies": 0.40312498807907104,
+      "rewards/chosen": -0.07248945534229279,
+      "rewards/margins": 0.06686891615390778,
+      "rewards/rejected": -0.13935837149620056,
       "step": 600,
+      "use_label": 8919.162109375
     },
     {
       "epoch": 0.63,
+      "eval_logits/chosen": -2.1407980918884277,
+      "eval_logits/rejected": -2.1125032901763916,
+      "eval_logps/chosen": -73.41705322265625,
+      "eval_logps/rejected": -86.9944839477539,
+      "eval_loss": 0.6927017569541931,
+      "eval_pred_label": 3177.142822265625,
+      "eval_rewards/accuracies": 0.3511904776096344,
+      "eval_rewards/chosen": -0.04516514018177986,
+      "eval_rewards/margins": 0.07079902291297913,
+      "eval_rewards/rejected": -0.11596415936946869,
+      "eval_runtime": 248.1359,
+      "eval_samples_per_second": 8.06,
       "eval_steps_per_second": 0.254,
+      "eval_use_label": 9198.857421875,
       "step": 600
     },
     {
       "epoch": 0.65,
+      "grad_norm": 0.404296875,
       "learning_rate": 1.6530691736402317e-06,
+      "logits/chosen": -2.1386609077453613,
+      "logits/rejected": -2.1743404865264893,
+      "logps/chosen": -65.55394744873047,
+      "logps/rejected": -88.32081604003906,
+      "loss": 0.6924,
+      "pred_label": 3318.58740234375,
+      "rewards/accuracies": 0.34375,
+      "rewards/chosen": -0.05246468633413315,
+      "rewards/margins": 0.059620797634124756,
+      "rewards/rejected": -0.1120854839682579,
       "step": 620,
+      "use_label": 9467.412109375
     },
     {
       "epoch": 0.67,
+      "grad_norm": 0.51171875,
       "learning_rate": 1.4834368231970922e-06,
+      "logits/chosen": -2.1956310272216797,
+      "logits/rejected": -2.2024998664855957,
+      "logps/chosen": -77.41986846923828,
+      "logps/rejected": -82.58815002441406,
+      "loss": 0.692,
+      "pred_label": 3414.199951171875,
+      "rewards/accuracies": 0.3656249940395355,
+      "rewards/chosen": -0.05061299726366997,
+      "rewards/margins": 0.07674984633922577,
+      "rewards/rejected": -0.12736284732818604,
       "step": 640,
+      "use_label": 9691.7998046875
     },
     {
       "epoch": 0.69,
+      "grad_norm": 0.2890625,
       "learning_rate": 1.3192409070404582e-06,
+      "logits/chosen": -2.1827545166015625,
+      "logits/rejected": -2.1392319202423096,
+      "logps/chosen": -71.07948303222656,
+      "logps/rejected": -78.78751373291016,
+      "loss": 0.6924,
+      "pred_label": 3519.35009765625,
+      "rewards/accuracies": 0.3375000059604645,
+      "rewards/chosen": -0.0542152114212513,
+      "rewards/margins": 0.06142013147473335,
+      "rewards/rejected": -0.11563535034656525,
       "step": 660,
+      "use_label": 9906.650390625
     },
     {
       "epoch": 0.71,
+      "grad_norm": 0.435546875,
       "learning_rate": 1.1613595214152713e-06,
+      "logits/chosen": -2.2185826301574707,
+      "logits/rejected": -2.2344555854797363,
+      "logps/chosen": -81.96281433105469,
+      "logps/rejected": -87.13890838623047,
+      "loss": 0.6923,
+      "pred_label": 3610.012451171875,
+      "rewards/accuracies": 0.34375,
+      "rewards/chosen": -0.06083091348409653,
+      "rewards/margins": 0.0633452981710434,
+      "rewards/rejected": -0.12417621910572052,
       "step": 680,
+      "use_label": 10135.9873046875
     },
     {
       "epoch": 0.73,
+      "grad_norm": 0.5078125,
       "learning_rate": 1.0106369933615043e-06,
+      "logits/chosen": -2.2393274307250977,
+      "logits/rejected": -2.2085208892822266,
+      "logps/chosen": -90.31179809570312,
+      "logps/rejected": -96.00973510742188,
+      "loss": 0.6928,
+      "pred_label": 3716.97509765625,
+      "rewards/accuracies": 0.3843750059604645,
+      "rewards/chosen": -0.06285654008388519,
+      "rewards/margins": 0.07485760748386383,
+      "rewards/rejected": -0.13771414756774902,
       "step": 700,
+      "use_label": 10349.025390625
     },
     {
       "epoch": 0.73,
+      "eval_logits/chosen": -2.1372170448303223,
+      "eval_logits/rejected": -2.1086459159851074,
+      "eval_logps/chosen": -73.96572875976562,
+      "eval_logps/rejected": -87.70773315429688,
+      "eval_loss": 0.6929500102996826,
+      "eval_pred_label": 3852.730224609375,
       "eval_rewards/accuracies": 0.3511904776096344,
+      "eval_rewards/chosen": -0.05065184459090233,
+      "eval_rewards/margins": 0.07244490087032318,
+      "eval_rewards/rejected": -0.12309674173593521,
+      "eval_runtime": 248.0038,
+      "eval_samples_per_second": 8.064,
       "eval_steps_per_second": 0.254,
+      "eval_use_label": 10627.26953125,
       "step": 700
     },
     {
       "epoch": 0.75,
+      "grad_norm": 0.55078125,
       "learning_rate": 8.678793653740633e-07,
+      "logits/chosen": -2.1876041889190674,
+      "logits/rejected": -2.1966712474823,
+      "logps/chosen": -64.94602966308594,
+      "logps/rejected": -77.46949005126953,
+      "loss": 0.6927,
+      "pred_label": 3992.16259765625,
+      "rewards/accuracies": 0.31562501192092896,
+      "rewards/chosen": -0.04975567013025284,
+      "rewards/margins": 0.06240048259496689,
+      "rewards/rejected": -0.11215615272521973,
       "step": 720,
+      "use_label": 10897.837890625
     },
     {
       "epoch": 0.77,
+      "grad_norm": 0.416015625,
       "learning_rate": 7.338500848029603e-07,
+      "logits/chosen": -2.194794178009033,
+      "logits/rejected": -2.2083091735839844,
+      "logps/chosen": -69.16300201416016,
+      "logps/rejected": -74.87442779541016,
+      "loss": 0.6927,
+      "pred_label": 4088.0625,
+      "rewards/accuracies": 0.3187499940395355,
+      "rewards/chosen": -0.03673207014799118,
+      "rewards/margins": 0.07390830665826797,
+      "rewards/rejected": -0.11064038425683975,
       "step": 740,
+      "use_label": 11121.9375
     },
     {
       "epoch": 0.8,
+      "grad_norm": 0.47265625,
       "learning_rate": 6.092659210462232e-07,
+      "logits/chosen": -2.2297511100769043,
+      "logits/rejected": -2.232818841934204,
+      "logps/chosen": -70.27059173583984,
+      "logps/rejected": -88.61542510986328,
+      "loss": 0.6927,
+      "pred_label": 4190.375,
       "rewards/accuracies": 0.33125001192092896,
+      "rewards/chosen": -0.04521505907177925,
+      "rewards/margins": 0.05956338718533516,
+      "rewards/rejected": -0.10477845370769501,
       "step": 760,
+      "use_label": 11339.625
     },
     {
       "epoch": 0.82,
+      "grad_norm": 0.515625,
       "learning_rate": 4.947931323697983e-07,
+      "logits/chosen": -2.224112033843994,
+      "logits/rejected": -2.241053581237793,
+      "logps/chosen": -82.8070068359375,
+      "logps/rejected": -85.62196350097656,
+      "loss": 0.6927,
+      "pred_label": 4299.97509765625,
       "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.04633576422929764,
+      "rewards/margins": 0.0844966396689415,
+      "rewards/rejected": -0.13083240389823914,
       "step": 780,
+      "use_label": 11550.025390625
     },
     {
       "epoch": 0.84,
+      "grad_norm": 0.498046875,
       "learning_rate": 3.910439028537638e-07,
+      "logits/chosen": -2.201280117034912,
+      "logits/rejected": -2.177452325820923,
+      "logps/chosen": -65.0578842163086,
+      "logps/rejected": -66.19197082519531,
+      "loss": 0.6927,
+      "pred_label": 4407.78759765625,
+      "rewards/accuracies": 0.3499999940395355,
+      "rewards/chosen": -0.026169428601861,
+      "rewards/margins": 0.06455135345458984,
+      "rewards/rejected": -0.0907207801938057,
       "step": 800,
+      "use_label": 11762.212890625
     },
     {
       "epoch": 0.84,
+      "eval_logits/chosen": -2.1430623531341553,
+      "eval_logits/rejected": -2.1141114234924316,
+      "eval_logps/chosen": -71.62469482421875,
+      "eval_logps/rejected": -85.3831787109375,
+      "eval_loss": 0.6928467750549316,
+      "eval_pred_label": 4538.47607421875,
+      "eval_rewards/accuracies": 0.3551587164402008,
+      "eval_rewards/chosen": -0.027241550385951996,
+      "eval_rewards/margins": 0.072609543800354,
+      "eval_rewards/rejected": -0.099851094186306,
+      "eval_runtime": 247.951,
+      "eval_samples_per_second": 8.066,
       "eval_steps_per_second": 0.254,
+      "eval_use_label": 12045.5234375,
       "step": 800
     },
     {
       "epoch": 0.86,
+      "grad_norm": 0.48046875,
       "learning_rate": 2.98573068519539e-07,
+      "logits/chosen": -2.228102684020996,
+      "logits/rejected": -2.2112691402435303,
+      "logps/chosen": -68.63658142089844,
+      "logps/rejected": -75.33064270019531,
+      "loss": 0.6923,
+      "pred_label": 4678.53759765625,
+      "rewards/accuracies": 0.3218750059604645,
+      "rewards/chosen": -0.03714119642972946,
+      "rewards/margins": 0.05530167371034622,
+      "rewards/rejected": -0.09244287014007568,
       "step": 820,
+      "use_label": 12315.462890625
     },
     {
       "epoch": 0.88,
+      "grad_norm": 0.56640625,
       "learning_rate": 2.178751501463036e-07,
+      "logits/chosen": -2.204557418823242,
+      "logits/rejected": -2.2018847465515137,
+      "logps/chosen": -61.4800910949707,
+      "logps/rejected": -63.1760139465332,
+      "loss": 0.6929,
+      "pred_label": 4777.375,
+      "rewards/accuracies": 0.29374998807907104,
+      "rewards/chosen": -0.02809613011777401,
+      "rewards/margins": 0.05226613208651543,
+      "rewards/rejected": -0.08036227524280548,
       "step": 840,
+      "use_label": 12536.625
     },
     {
       "epoch": 0.9,
+      "grad_norm": 0.8515625,
       "learning_rate": 1.4938170864468636e-07,
+      "logits/chosen": -2.252244234085083,
+      "logits/rejected": -2.242299795150757,
+      "logps/chosen": -84.9459228515625,
+      "logps/rejected": -90.69441223144531,
+      "loss": 0.6922,
+      "pred_label": 4874.3251953125,
+      "rewards/accuracies": 0.4124999940395355,
+      "rewards/chosen": -0.022363774478435516,
+      "rewards/margins": 0.09057153016328812,
+      "rewards/rejected": -0.11293530464172363,
       "step": 860,
+      "use_label": 12759.6748046875
     },
     {
       "epoch": 0.92,
+      "grad_norm": 0.4296875,
       "learning_rate": 9.345903713082305e-08,
+      "logits/chosen": -2.2364704608917236,
+      "logits/rejected": -2.224773406982422,
+      "logps/chosen": -75.7426528930664,
+      "logps/rejected": -91.20499420166016,
+      "loss": 0.6925,
+      "pred_label": 4988.4873046875,
+      "rewards/accuracies": 0.3843750059604645,
+      "rewards/chosen": -0.03711060434579849,
+      "rewards/margins": 0.08993253856897354,
+      "rewards/rejected": -0.12704312801361084,
       "step": 880,
+      "use_label": 12965.5126953125
     },
     {
       "epoch": 0.94,
+      "grad_norm": 0.6015625,
       "learning_rate": 5.0406202043228604e-08,
+      "logits/chosen": -2.121796131134033,
+      "logits/rejected": -2.15610671043396,
+      "logps/chosen": -69.87088775634766,
+      "logps/rejected": -90.85367584228516,
+      "loss": 0.6929,
+      "pred_label": 5089.85009765625,
       "rewards/accuracies": 0.3375000059604645,
+      "rewards/chosen": -0.032511431723833084,
+      "rewards/margins": 0.06634987145662308,
+      "rewards/rejected": -0.09886129945516586,
       "step": 900,
+      "use_label": 13184.150390625
     },
     {
       "epoch": 0.94,
+      "eval_logits/chosen": -2.1427581310272217,
+      "eval_logits/rejected": -2.113929510116577,
+      "eval_logps/chosen": -71.7841567993164,
+      "eval_logps/rejected": -85.5160140991211,
+      "eval_loss": 0.6928035020828247,
+      "eval_pred_label": 5226.619140625,
+      "eval_rewards/accuracies": 0.3492063581943512,
+      "eval_rewards/chosen": -0.02883605659008026,
+      "eval_rewards/margins": 0.0723433569073677,
+      "eval_rewards/rejected": -0.10117942094802856,
+      "eval_runtime": 246.4796,
+      "eval_samples_per_second": 8.114,
+      "eval_steps_per_second": 0.256,
+      "eval_use_label": 13461.380859375,
       "step": 900
     },
     {
       "epoch": 0.96,
+      "grad_norm": 0.52734375,
       "learning_rate": 2.0453443778310766e-08,
+      "logits/chosen": -2.1679275035858154,
+      "logits/rejected": -2.1737468242645264,
+      "logps/chosen": -59.419395446777344,
+      "logps/rejected": -76.71382141113281,
+      "loss": 0.6925,
+      "pred_label": 5365.3876953125,
+      "rewards/accuracies": 0.3187499940395355,
+      "rewards/chosen": -0.021122563630342484,
+      "rewards/margins": 0.0707126036286354,
+      "rewards/rejected": -0.09183517098426819,
       "step": 920,
+      "use_label": 13732.6123046875
     },
     {
       "epoch": 0.98,
+      "grad_norm": 0.64453125,
       "learning_rate": 3.760945397705828e-09,
+      "logits/chosen": -2.1522116661071777,
+      "logits/rejected": -2.1893556118011475,
+      "logps/chosen": -68.75323486328125,
+      "logps/rejected": -82.70423889160156,
+      "loss": 0.6926,
+      "pred_label": 5459.0751953125,
       "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": -0.02701050415635109,
+      "rewards/margins": 0.06467042118310928,
+      "rewards/rejected": -0.09168092906475067,
       "step": 940,
+      "use_label": 13958.9248046875
     },
     {
       "epoch": 1.0,
       "step": 955,
       "total_flos": 0.0,
+      "train_loss": 0.692275420283772,
+      "train_runtime": 20019.5915,
+      "train_samples_per_second": 3.054,
       "train_steps_per_second": 0.048
     }
   ],