Model save

Browse files

Files changed (7) hide show

README.md +18 -15
all_results.json +4 -4
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +625 -469

README.md CHANGED Viewed

@@ -17,15 +17,18 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [HuggingFaceH4/mistral-7b-sft-beta](https://huggingface.co/HuggingFaceH4/mistral-7b-sft-beta) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2611
-- Rewards/chosen: -1.1614
-- Rewards/rejected: -2.0289
-- Rewards/accuracies: 0.7461
-- Rewards/margins: 0.8674
-- Logps/rejected: -460.2387
-- Logps/chosen: -373.1811
-- Logits/rejected: -2.1811
-- Logits/chosen: -2.2167
 ## Model description
@@ -60,12 +63,12 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
-|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.2925        | 0.21  | 100  | 0.3029          | -0.7549        | -1.2071          | 0.7031             | 0.4522          | -378.0666      | -332.5286    | -2.6453         | -2.6608       |
-| 0.2756        | 0.42  | 200  | 0.2765          | -1.0186        | -1.7149          | 0.7148             | 0.6963          | -428.8432      | -358.9036    | -2.3729         | -2.3947       |
-| 0.2684        | 0.63  | 300  | 0.2669          | -1.2042        | -2.0211          | 0.7422             | 0.8169          | -459.4592      | -377.4594    | -2.2540         | -2.2836       |
-| 0.2654        | 0.84  | 400  | 0.2611          | -1.1614        | -2.0289          | 0.7461             | 0.8674          | -460.2387      | -373.1811    | -2.1811         | -2.2167       |
 ### Framework versions

 This model is a fine-tuned version of [HuggingFaceH4/mistral-7b-sft-beta](https://huggingface.co/HuggingFaceH4/mistral-7b-sft-beta) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.1314
+- Rewards/chosen: -1.5200
+- Rewards/rejected: -2.4344
+- Rewards/accuracies: 0.75
+- Rewards/margins: 0.9144
+- Logps/rejected: -500.7934
+- Logps/chosen: -409.0388
+- Logits/rejected: -2.1508
+- Logits/chosen: -2.1830
+- Debug/policy Weights: 0.2589
+- Debug/losses: 0.1297
+- Debug/raw Losses: 0.4817
 ## Model description
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen | Debug/policy Weights | Debug/losses | Debug/raw Losses |
+|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|:--------------------:|:------------:|:----------------:|
+| 0.2168        | 0.21  | 100  | 0.2150          | -0.5440        | -1.0580          | 0.7383             | 0.5141          | -363.1571      | -311.4377    | -2.6827         | -2.6979       | 0.3735               | 0.2082       | 0.5529           |
+| 0.1396        | 0.42  | 200  | 0.1416          | -1.3480        | -2.1286          | 0.7656             | 0.7807          | -470.2158      | -391.8350    | -2.2733         | -2.2968       | 0.2687               | 0.1390       | 0.5030           |
+| 0.1294        | 0.63  | 300  | 0.1309          | -1.6003        | -2.4486          | 0.7383             | 0.8483          | -502.2112      | -417.0714    | -2.1589         | -2.1885       | 0.2545               | 0.1284       | 0.4935           |
+| 0.1329        | 0.84  | 400  | 0.1314          | -1.5200        | -2.4344          | 0.75               | 0.9144          | -500.7934      | -409.0388    | -2.1508         | -2.1830       | 0.2589               | 0.1297       | 0.4817           |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.28123937291580264,
-    "train_runtime": 4275.6877,
     "train_samples": 61134,
-    "train_samples_per_second": 14.298,
-    "train_steps_per_second": 0.112
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.17621936496331603,
+    "train_runtime": 4510.4366,
     "train_samples": 61134,
+    "train_samples_per_second": 13.554,
+    "train_steps_per_second": 0.106
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f818db06c2df0daed1173424964a76bf104c6880c792c7504a1b3c8b482a1c3b
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:09cc7ca4a2419236436e6c007340b593bba2a32c8ae2632430bedae57caa0e7d
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de40456c8404b1e8967e7e253ec7b090cd274d4aa84367faa3c245eb1094aa0a
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a18ed3e61ca7e185538cfad27e95e49182c44b8e7cf83e0a3e9e75dfa4402b4
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5329c6f04ca5c32ed2b8ff84211932e80751ed496ad55cdc96bffbad28dc7f55
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe431dd8a696ee319a6385010068d99a7950c45d95d27f41443264941966e681
 size 4540516344

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.28123937291580264,
-    "train_runtime": 4275.6877,
     "train_samples": 61134,
-    "train_samples_per_second": 14.298,
-    "train_steps_per_second": 0.112
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.17621936496331603,
+    "train_runtime": 4510.4366,
     "train_samples": 61134,
+    "train_samples_per_second": 13.554,
+    "train_steps_per_second": 0.106
 }

trainer_state.json CHANGED Viewed

@@ -9,13 +9,16 @@
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
       "learning_rate": 1.0416666666666666e-08,
       "logits/chosen": -2.8099329471588135,
       "logits/rejected": -2.7572641372680664,
       "logps/chosen": -241.48843383789062,
       "logps/rejected": -197.4517822265625,
-      "loss": 0.3419,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -23,735 +26,888 @@
       "step": 1
     },
     {
       "epoch": 0.02,
       "learning_rate": 1.0416666666666667e-07,
-      "logits/chosen": -2.8319878578186035,
-      "logits/rejected": -2.8086318969726562,
-      "logps/chosen": -292.67718505859375,
-      "logps/rejected": -278.6147766113281,
-      "loss": 0.357,
-      "rewards/accuracies": 0.4166666567325592,
-      "rewards/chosen": 0.000136316564748995,
-      "rewards/margins": 0.00042209154344163835,
-      "rewards/rejected": -0.0002857750514522195,
       "step": 10
     },
     {
       "epoch": 0.04,
       "learning_rate": 2.0833333333333333e-07,
-      "logits/chosen": -2.8108882904052734,
-      "logits/rejected": -2.782381057739258,
-      "logps/chosen": -290.30352783203125,
-      "logps/rejected": -290.828125,
-      "loss": 0.3442,
-      "rewards/accuracies": 0.59375,
-      "rewards/chosen": 0.0009612235007807612,
-      "rewards/margins": 0.0021439972333610058,
-      "rewards/rejected": -0.0011827738489955664,
       "step": 20
     },
     {
       "epoch": 0.06,
       "learning_rate": 3.1249999999999997e-07,
-      "logits/chosen": -2.753178834915161,
-      "logits/rejected": -2.722262382507324,
-      "logps/chosen": -246.39126586914062,
-      "logps/rejected": -227.2058868408203,
-      "loss": 0.3474,
-      "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": -0.0002911156916525215,
-      "rewards/margins": 0.008968978188931942,
-      "rewards/rejected": -0.009260093793272972,
       "step": 30
     },
     {
       "epoch": 0.08,
       "learning_rate": 4.1666666666666667e-07,
-      "logits/chosen": -2.7772631645202637,
-      "logits/rejected": -2.7496306896209717,
-      "logps/chosen": -299.43017578125,
-      "logps/rejected": -264.92559814453125,
-      "loss": 0.3437,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": 0.0009144862997345626,
-      "rewards/margins": 0.037536174058914185,
-      "rewards/rejected": -0.03662168234586716,
       "step": 40
     },
     {
       "epoch": 0.1,
       "learning_rate": 4.999733114418725e-07,
-      "logits/chosen": -2.6782639026641846,
-      "logits/rejected": -2.6587812900543213,
-      "logps/chosen": -279.86041259765625,
-      "logps/rejected": -272.60748291015625,
-      "loss": 0.3357,
       "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.024299880489706993,
-      "rewards/margins": 0.06480460613965988,
-      "rewards/rejected": -0.08910447359085083,
       "step": 50
     },
     {
       "epoch": 0.13,
       "learning_rate": 4.990398100856366e-07,
-      "logits/chosen": -2.684187173843384,
-      "logits/rejected": -2.6644179821014404,
-      "logps/chosen": -266.75103759765625,
-      "logps/rejected": -249.3052215576172,
-      "loss": 0.3212,
-      "rewards/accuracies": 0.59375,
-      "rewards/chosen": -0.07674752175807953,
-      "rewards/margins": 0.09015476703643799,
-      "rewards/rejected": -0.1669023185968399,
       "step": 60
     },
     {
       "epoch": 0.15,
       "learning_rate": 4.967775735898179e-07,
-      "logits/chosen": -2.661471366882324,
-      "logits/rejected": -2.6346983909606934,
-      "logps/chosen": -283.1821594238281,
-      "logps/rejected": -263.30267333984375,
-      "loss": 0.3188,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": -0.14759597182273865,
-      "rewards/margins": 0.13659381866455078,
-      "rewards/rejected": -0.28418979048728943,
       "step": 70
     },
     {
       "epoch": 0.17,
       "learning_rate": 4.931986719649298e-07,
-      "logits/chosen": -2.6391332149505615,
-      "logits/rejected": -2.63655948638916,
-      "logps/chosen": -301.9135437011719,
-      "logps/rejected": -322.2628479003906,
-      "loss": 0.3009,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -0.311817467212677,
-      "rewards/margins": 0.2355634719133377,
-      "rewards/rejected": -0.5473809242248535,
       "step": 80
     },
     {
       "epoch": 0.19,
       "learning_rate": 4.883222001996351e-07,
-      "logits/chosen": -2.695049285888672,
-      "logits/rejected": -2.6640732288360596,
-      "logps/chosen": -298.87469482421875,
-      "logps/rejected": -303.5993957519531,
-      "loss": 0.3033,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.43910256028175354,
-      "rewards/margins": 0.24994739890098572,
-      "rewards/rejected": -0.6890498995780945,
       "step": 90
     },
     {
       "epoch": 0.21,
       "learning_rate": 4.821741763807186e-07,
-      "logits/chosen": -2.7090964317321777,
-      "logits/rejected": -2.6778430938720703,
-      "logps/chosen": -359.72955322265625,
-      "logps/rejected": -371.3741760253906,
-      "loss": 0.2925,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.7029050588607788,
-      "rewards/margins": 0.3322359025478363,
-      "rewards/rejected": -1.0351407527923584,
       "step": 100
     },
     {
       "epoch": 0.21,
-      "eval_logits/chosen": -2.660813570022583,
-      "eval_logits/rejected": -2.6453118324279785,
-      "eval_logps/chosen": -332.528564453125,
-      "eval_logps/rejected": -378.06658935546875,
-      "eval_loss": 0.30285975337028503,
-      "eval_rewards/accuracies": 0.703125,
-      "eval_rewards/chosen": -0.7548891305923462,
-      "eval_rewards/margins": 0.452243834733963,
-      "eval_rewards/rejected": -1.2071329355239868,
-      "eval_runtime": 53.3188,
-      "eval_samples_per_second": 37.51,
-      "eval_steps_per_second": 0.6,
       "step": 100
     },
     {
       "epoch": 0.23,
       "learning_rate": 4.747874028753375e-07,
-      "logits/chosen": -2.526386260986328,
-      "logits/rejected": -2.497170925140381,
-      "logps/chosen": -353.86492919921875,
-      "logps/rejected": -355.2405700683594,
-      "loss": 0.2989,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.8376742601394653,
-      "rewards/margins": 0.4966367185115814,
-      "rewards/rejected": -1.3343110084533691,
       "step": 110
     },
     {
       "epoch": 0.25,
       "learning_rate": 4.662012913161997e-07,
-      "logits/chosen": -2.6284193992614746,
-      "logits/rejected": -2.597144603729248,
-      "logps/chosen": -328.7850341796875,
-      "logps/rejected": -369.0627746582031,
-      "loss": 0.2923,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.5993393659591675,
-      "rewards/margins": 0.46277889609336853,
-      "rewards/rejected": -1.0621182918548584,
       "step": 120
     },
     {
       "epoch": 0.27,
       "learning_rate": 4.5646165232345103e-07,
-      "logits/chosen": -2.5967652797698975,
-      "logits/rejected": -2.580361843109131,
-      "logps/chosen": -338.71331787109375,
-      "logps/rejected": -352.9530334472656,
-      "loss": 0.2846,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.6421850323677063,
-      "rewards/margins": 0.38081812858581543,
-      "rewards/rejected": -1.023003101348877,
       "step": 130
     },
     {
       "epoch": 0.29,
       "learning_rate": 4.456204510851956e-07,
-      "logits/chosen": -2.546405792236328,
-      "logits/rejected": -2.5155086517333984,
-      "logps/chosen": -361.4484558105469,
-      "logps/rejected": -406.66717529296875,
-      "loss": 0.2882,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.8081401586532593,
-      "rewards/margins": 0.5508965253829956,
-      "rewards/rejected": -1.3590366840362549,
       "step": 140
     },
     {
       "epoch": 0.31,
       "learning_rate": 4.337355301007335e-07,
-      "logits/chosen": -2.4885222911834717,
-      "logits/rejected": -2.513378620147705,
-      "logps/chosen": -290.5274963378906,
-      "logps/rejected": -359.549560546875,
-      "loss": 0.271,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -0.6384859681129456,
-      "rewards/margins": 0.5941485166549683,
-      "rewards/rejected": -1.232634425163269,
       "step": 150
     },
     {
       "epoch": 0.33,
       "learning_rate": 4.2087030056579986e-07,
-      "logits/chosen": -2.461970806121826,
-      "logits/rejected": -2.4330391883850098,
-      "logps/chosen": -348.7262878417969,
-      "logps/rejected": -383.38458251953125,
-      "loss": 0.2854,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -0.9275447130203247,
-      "rewards/margins": 0.4475277364253998,
-      "rewards/rejected": -1.3750722408294678,
       "step": 160
     },
     {
       "epoch": 0.36,
       "learning_rate": 4.070934040463998e-07,
-      "logits/chosen": -2.380707263946533,
-      "logits/rejected": -2.3646743297576904,
-      "logps/chosen": -368.96636962890625,
-      "logps/rejected": -414.83905029296875,
-      "loss": 0.2767,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -0.8679953813552856,
-      "rewards/margins": 0.6787124872207642,
-      "rewards/rejected": -1.5467078685760498,
       "step": 170
     },
     {
       "epoch": 0.38,
       "learning_rate": 3.9247834624635404e-07,
-      "logits/chosen": -2.3971316814422607,
-      "logits/rejected": -2.4019041061401367,
-      "logps/chosen": -348.81622314453125,
-      "logps/rejected": -395.7445068359375,
-      "loss": 0.2742,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.7963830232620239,
-      "rewards/margins": 0.6072254776954651,
-      "rewards/rejected": -1.4036084413528442,
       "step": 180
     },
     {
       "epoch": 0.4,
       "learning_rate": 3.7710310482256523e-07,
-      "logits/chosen": -2.389106512069702,
-      "logits/rejected": -2.3477344512939453,
-      "logps/chosen": -376.10321044921875,
-      "logps/rejected": -420.30364990234375,
-      "loss": 0.2739,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -0.8470739126205444,
-      "rewards/margins": 0.7152097821235657,
-      "rewards/rejected": -1.5622835159301758,
       "step": 190
     },
     {
       "epoch": 0.42,
       "learning_rate": 3.610497133404795e-07,
-      "logits/chosen": -2.3799221515655518,
-      "logits/rejected": -2.389249563217163,
-      "logps/chosen": -386.76690673828125,
-      "logps/rejected": -418.9993591308594,
-      "loss": 0.2756,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -0.905994713306427,
-      "rewards/margins": 0.6408411860466003,
-      "rewards/rejected": -1.5468358993530273,
       "step": 200
     },
     {
       "epoch": 0.42,
-      "eval_logits/chosen": -2.3946902751922607,
-      "eval_logits/rejected": -2.3728690147399902,
-      "eval_logps/chosen": -358.903564453125,
-      "eval_logps/rejected": -428.84320068359375,
-      "eval_loss": 0.276460200548172,
-      "eval_rewards/accuracies": 0.71484375,
-      "eval_rewards/chosen": -1.018639087677002,
-      "eval_rewards/margins": 0.6962600946426392,
-      "eval_rewards/rejected": -1.7148993015289307,
-      "eval_runtime": 53.23,
-      "eval_samples_per_second": 37.573,
-      "eval_steps_per_second": 0.601,
       "step": 200
     },
     {
       "epoch": 0.44,
       "learning_rate": 3.4440382358952115e-07,
-      "logits/chosen": -2.332733631134033,
-      "logits/rejected": -2.316524028778076,
-      "logps/chosen": -363.67376708984375,
-      "logps/rejected": -420.559814453125,
-      "loss": 0.273,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.9064055681228638,
-      "rewards/margins": 0.7798347473144531,
-      "rewards/rejected": -1.6862401962280273,
       "step": 210
     },
     {
       "epoch": 0.46,
       "learning_rate": 3.272542485937368e-07,
-      "logits/chosen": -2.33485746383667,
-      "logits/rejected": -2.284698247909546,
-      "logps/chosen": -357.8499755859375,
-      "logps/rejected": -403.9745788574219,
-      "loss": 0.2701,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.8288432359695435,
-      "rewards/margins": 0.5878358483314514,
-      "rewards/rejected": -1.41667902469635,
       "step": 220
     },
     {
       "epoch": 0.48,
       "learning_rate": 3.096924887558854e-07,
-      "logits/chosen": -2.3702471256256104,
-      "logits/rejected": -2.314202308654785,
-      "logps/chosen": -374.31231689453125,
-      "logps/rejected": -429.17718505859375,
-      "loss": 0.2771,
       "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.9976439476013184,
-      "rewards/margins": 0.5939726829528809,
-      "rewards/rejected": -1.5916167497634888,
       "step": 230
     },
     {
       "epoch": 0.5,
       "learning_rate": 2.9181224366319943e-07,
-      "logits/chosen": -2.323148250579834,
-      "logits/rejected": -2.2833874225616455,
-      "logps/chosen": -378.198974609375,
-      "logps/rejected": -421.3106994628906,
-      "loss": 0.2546,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -0.9202890396118164,
-      "rewards/margins": 0.7598530650138855,
-      "rewards/rejected": -1.6801420450210571,
       "step": 240
     },
     {
       "epoch": 0.52,
       "learning_rate": 2.7370891215954565e-07,
-      "logits/chosen": -2.332274913787842,
-      "logits/rejected": -2.2773728370666504,
-      "logps/chosen": -363.24713134765625,
-      "logps/rejected": -417.0872497558594,
-      "loss": 0.2847,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.9167481660842896,
-      "rewards/margins": 0.709892988204956,
-      "rewards/rejected": -1.6266412734985352,
       "step": 250
     },
     {
       "epoch": 0.54,
       "learning_rate": 2.55479083351317e-07,
-      "logits/chosen": -2.330303907394409,
-      "logits/rejected": -2.3061676025390625,
-      "logps/chosen": -344.08203125,
-      "logps/rejected": -414.8096618652344,
-      "loss": 0.2653,
       "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.849345862865448,
-      "rewards/margins": 0.7162947058677673,
-      "rewards/rejected": -1.5656404495239258,
       "step": 260
     },
     {
       "epoch": 0.56,
       "learning_rate": 2.3722002126275822e-07,
-      "logits/chosen": -2.3339719772338867,
-      "logits/rejected": -2.3088550567626953,
-      "logps/chosen": -378.90631103515625,
-      "logps/rejected": -447.6788635253906,
-      "loss": 0.2631,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -0.9045342206954956,
-      "rewards/margins": 0.9216111302375793,
-      "rewards/rejected": -1.8261455297470093,
       "step": 270
     },
     {
       "epoch": 0.59,
       "learning_rate": 2.19029145890313e-07,
-      "logits/chosen": -2.2406225204467773,
-      "logits/rejected": -2.229895830154419,
-      "logps/chosen": -422.8426208496094,
-      "logps/rejected": -476.47314453125,
-      "loss": 0.2625,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -1.1509960889816284,
-      "rewards/margins": 0.9580610394477844,
-      "rewards/rejected": -2.1090569496154785,
       "step": 280
     },
     {
       "epoch": 0.61,
       "learning_rate": 2.0100351342479216e-07,
-      "logits/chosen": -2.2886314392089844,
-      "logits/rejected": -2.2553632259368896,
-      "logps/chosen": -388.92877197265625,
-      "logps/rejected": -442.0311584472656,
-      "loss": 0.2692,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -1.1116503477096558,
-      "rewards/margins": 0.7756324410438538,
-      "rewards/rejected": -1.8872827291488647,
       "step": 290
     },
     {
       "epoch": 0.63,
       "learning_rate": 1.8323929841460178e-07,
-      "logits/chosen": -2.3207592964172363,
-      "logits/rejected": -2.2983639240264893,
-      "logps/chosen": -368.4107360839844,
-      "logps/rejected": -431.96209716796875,
-      "loss": 0.2684,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -1.168041467666626,
-      "rewards/margins": 0.7282370924949646,
-      "rewards/rejected": -1.896278738975525,
       "step": 300
     },
     {
       "epoch": 0.63,
-      "eval_logits/chosen": -2.2835628986358643,
-      "eval_logits/rejected": -2.2539806365966797,
-      "eval_logps/chosen": -377.4593505859375,
-      "eval_logps/rejected": -459.45916748046875,
-      "eval_loss": 0.26686665415763855,
-      "eval_rewards/accuracies": 0.7421875,
-      "eval_rewards/chosen": -1.2041971683502197,
-      "eval_rewards/margins": 0.8168618083000183,
-      "eval_rewards/rejected": -2.021059036254883,
-      "eval_runtime": 53.1986,
-      "eval_samples_per_second": 37.595,
-      "eval_steps_per_second": 0.602,
       "step": 300
     },
     {
       "epoch": 0.65,
       "learning_rate": 1.6583128063291573e-07,
-      "logits/chosen": -2.257838010787964,
-      "logits/rejected": -2.2076783180236816,
-      "logps/chosen": -403.1900329589844,
-      "logps/rejected": -454.09649658203125,
-      "loss": 0.2691,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -1.1548385620117188,
-      "rewards/margins": 0.8283940553665161,
-      "rewards/rejected": -1.9832324981689453,
       "step": 310
     },
     {
       "epoch": 0.67,
       "learning_rate": 1.488723393865766e-07,
-      "logits/chosen": -2.218254804611206,
-      "logits/rejected": -2.1774368286132812,
-      "logps/chosen": -386.1689147949219,
-      "logps/rejected": -453.9234924316406,
-      "loss": 0.2502,
       "rewards/accuracies": 0.78125,
-      "rewards/chosen": -1.003075361251831,
-      "rewards/margins": 0.8829510807991028,
-      "rewards/rejected": -1.886026382446289,
       "step": 320
     },
     {
       "epoch": 0.69,
       "learning_rate": 1.3245295796480788e-07,
-      "logits/chosen": -2.2131848335266113,
-      "logits/rejected": -2.1682944297790527,
-      "logps/chosen": -386.908203125,
-      "logps/rejected": -459.43939208984375,
-      "loss": 0.2736,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.1287882328033447,
-      "rewards/margins": 0.8232651948928833,
-      "rewards/rejected": -1.9520530700683594,
       "step": 330
     },
     {
       "epoch": 0.71,
       "learning_rate": 1.1666074087171627e-07,
-      "logits/chosen": -2.238731622695923,
-      "logits/rejected": -2.2161293029785156,
-      "logps/chosen": -358.34014892578125,
-      "logps/rejected": -442.72186279296875,
-      "loss": 0.2605,
       "rewards/accuracies": 0.75,
-      "rewards/chosen": -1.0374398231506348,
-      "rewards/margins": 0.860522449016571,
-      "rewards/rejected": -1.8979623317718506,
       "step": 340
     },
     {
       "epoch": 0.73,
       "learning_rate": 1.0157994641835734e-07,
-      "logits/chosen": -2.2104313373565674,
-      "logits/rejected": -2.178367853164673,
-      "logps/chosen": -402.49273681640625,
-      "logps/rejected": -467.699462890625,
-      "loss": 0.2795,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.2603912353515625,
-      "rewards/margins": 0.7859227061271667,
-      "rewards/rejected": -2.046314001083374,
       "step": 350
     },
     {
       "epoch": 0.75,
       "learning_rate": 8.729103716819111e-08,
-      "logits/chosen": -2.172868013381958,
-      "logits/rejected": -2.1350009441375732,
-      "logps/chosen": -366.4203796386719,
-      "logps/rejected": -455.3935546875,
-      "loss": 0.2549,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.0803582668304443,
-      "rewards/margins": 1.0399386882781982,
-      "rewards/rejected": -2.1202971935272217,
       "step": 360
     },
     {
       "epoch": 0.77,
       "learning_rate": 7.387025063449081e-08,
-      "logits/chosen": -2.226396322250366,
-      "logits/rejected": -2.206636905670166,
-      "logps/chosen": -384.2486572265625,
-      "logps/rejected": -450.4458923339844,
-      "loss": 0.2594,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -1.061886191368103,
-      "rewards/margins": 0.8060476183891296,
-      "rewards/rejected": -1.8679338693618774,
       "step": 370
     },
     {
       "epoch": 0.79,
       "learning_rate": 6.138919252022435e-08,
-      "logits/chosen": -2.1346209049224854,
-      "logits/rejected": -2.1192917823791504,
-      "logps/chosen": -359.8027038574219,
-      "logps/rejected": -446.1529235839844,
-      "loss": 0.2575,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.3696153163909912,
-      "rewards/margins": 0.6622845530509949,
-      "rewards/rejected": -2.031899929046631,
       "step": 380
     },
     {
       "epoch": 0.82,
       "learning_rate": 4.991445467064689e-08,
-      "logits/chosen": -2.193723440170288,
-      "logits/rejected": -2.1565771102905273,
-      "logps/chosen": -371.32269287109375,
-      "logps/rejected": -441.592041015625,
-      "loss": 0.2676,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.1976280212402344,
-      "rewards/margins": 0.8632476925849915,
-      "rewards/rejected": -2.060875654220581,
       "step": 390
     },
     {
       "epoch": 0.84,
       "learning_rate": 3.9507259776993954e-08,
-      "logits/chosen": -2.171326160430908,
-      "logits/rejected": -2.108442783355713,
-      "logps/chosen": -409.718994140625,
-      "logps/rejected": -448.8550720214844,
-      "loss": 0.2654,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -1.2401525974273682,
-      "rewards/margins": 0.7730957269668579,
-      "rewards/rejected": -2.0132482051849365,
       "step": 400
     },
     {
       "epoch": 0.84,
-      "eval_logits/chosen": -2.2167153358459473,
-      "eval_logits/rejected": -2.1810660362243652,
-      "eval_logps/chosen": -373.1811218261719,
-      "eval_logps/rejected": -460.23870849609375,
-      "eval_loss": 0.26106157898902893,
-      "eval_rewards/accuracies": 0.74609375,
-      "eval_rewards/chosen": -1.1614149808883667,
-      "eval_rewards/margins": 0.8674393892288208,
-      "eval_rewards/rejected": -2.0288543701171875,
-      "eval_runtime": 53.1796,
-      "eval_samples_per_second": 37.608,
-      "eval_steps_per_second": 0.602,
       "step": 400
     },
     {
       "epoch": 0.86,
       "learning_rate": 3.022313472693447e-08,
-      "logits/chosen": -2.215372085571289,
-      "logits/rejected": -2.137930393218994,
-      "logps/chosen": -390.9686279296875,
-      "logps/rejected": -485.49688720703125,
-      "loss": 0.2677,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.2737891674041748,
-      "rewards/margins": 0.7665437459945679,
-      "rewards/rejected": -2.0403332710266113,
       "step": 410
     },
     {
       "epoch": 0.88,
       "learning_rate": 2.2111614344599684e-08,
-      "logits/chosen": -2.21181058883667,
-      "logits/rejected": -2.1742496490478516,
-      "logps/chosen": -413.1441955566406,
-      "logps/rejected": -491.66424560546875,
-      "loss": 0.2569,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -1.263311505317688,
-      "rewards/margins": 0.7292413711547852,
-      "rewards/rejected": -1.9925527572631836,
       "step": 420
     },
     {
       "epoch": 0.9,
       "learning_rate": 1.521597710086439e-08,
-      "logits/chosen": -2.1671276092529297,
-      "logits/rejected": -2.1266417503356934,
-      "logps/chosen": -410.6739807128906,
-      "logps/rejected": -491.3251953125,
-      "loss": 0.2689,
       "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -1.2042081356048584,
-      "rewards/margins": 0.9651464223861694,
-      "rewards/rejected": -2.1693546772003174,
       "step": 430
     },
     {
       "epoch": 0.92,
       "learning_rate": 9.57301420397924e-09,
-      "logits/chosen": -2.2078280448913574,
-      "logits/rejected": -2.1698689460754395,
-      "logps/chosen": -446.28106689453125,
-      "logps/rejected": -456.0550231933594,
-      "loss": 0.2585,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -1.3123003244400024,
-      "rewards/margins": 0.5923169851303101,
-      "rewards/rejected": -1.9046173095703125,
       "step": 440
     },
     {
       "epoch": 0.94,
       "learning_rate": 5.212833302556258e-09,
-      "logits/chosen": -2.163405179977417,
-      "logits/rejected": -2.1259548664093018,
-      "logps/chosen": -396.20977783203125,
-      "logps/rejected": -447.4117126464844,
-      "loss": 0.2577,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -1.1535217761993408,
-      "rewards/margins": 0.8187162280082703,
-      "rewards/rejected": -1.9722381830215454,
       "step": 450
     },
     {
       "epoch": 0.96,
       "learning_rate": 2.158697848236607e-09,
-      "logits/chosen": -2.188662052154541,
-      "logits/rejected": -2.1400952339172363,
-      "logps/chosen": -417.8199157714844,
-      "logps/rejected": -463.55078125,
-      "loss": 0.2717,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -1.174331545829773,
-      "rewards/margins": 0.7548145055770874,
-      "rewards/rejected": -1.9291460514068604,
       "step": 460
     },
     {
       "epoch": 0.98,
       "learning_rate": 4.269029751107489e-10,
-      "logits/chosen": -2.211068630218506,
-      "logits/rejected": -2.1270031929016113,
-      "logps/chosen": -402.3449401855469,
-      "logps/rejected": -420.40814208984375,
-      "loss": 0.2596,
       "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -1.041385531425476,
-      "rewards/margins": 0.8322860598564148,
-      "rewards/rejected": -1.8736717700958252,
       "step": 470
     },
     {
       "epoch": 1.0,
       "step": 478,
       "total_flos": 0.0,
-      "train_loss": 0.28123937291580264,
-      "train_runtime": 4275.6877,
-      "train_samples_per_second": 14.298,
-      "train_steps_per_second": 0.112
     }
   ],
   "logging_steps": 10,

   "is_world_process_zero": true,
   "log_history": [
     {
+      "debug/losses": 0.34217238426208496,
+      "debug/policy_weights": 0.4936503767967224,
+      "debug/raw_losses": 0.6931471824645996,
       "epoch": 0.0,
       "learning_rate": 1.0416666666666666e-08,
       "logits/chosen": -2.8099329471588135,
       "logits/rejected": -2.7572641372680664,
       "logps/chosen": -241.48843383789062,
       "logps/rejected": -197.4517822265625,
+      "loss": 0.3561,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
       "step": 1
     },
     {
+      "debug/losses": 0.3613118529319763,
+      "debug/policy_weights": 0.5213115215301514,
+      "debug/raw_losses": 0.6931909918785095,
       "epoch": 0.02,
       "learning_rate": 1.0416666666666667e-07,
+      "logits/chosen": -2.8320045471191406,
+      "logits/rejected": -2.8085670471191406,
+      "logps/chosen": -292.685546875,
+      "logps/rejected": -278.5729064941406,
+      "loss": 0.3674,
+      "rewards/accuracies": 0.4236111044883728,
+      "rewards/chosen": 5.248460729490034e-05,
+      "rewards/margins": -7.99686458776705e-05,
+      "rewards/rejected": 0.00013245324953459203,
       "step": 10
     },
     {
+      "debug/losses": 0.3490375578403473,
+      "debug/policy_weights": 0.5044432878494263,
+      "debug/raw_losses": 0.6918557286262512,
       "epoch": 0.04,
       "learning_rate": 2.0833333333333333e-07,
+      "logits/chosen": -2.811972141265869,
+      "logits/rejected": -2.78340482711792,
+      "logps/chosen": -290.2806396484375,
+      "logps/rejected": -290.8512268066406,
+      "loss": 0.3549,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": 0.0011896035866811872,
+      "rewards/margins": 0.0026031401939690113,
+      "rewards/rejected": -0.0014135364908725023,
       "step": 20
     },
     {
+      "debug/losses": 0.3571945130825043,
+      "debug/policy_weights": 0.518287181854248,
+      "debug/raw_losses": 0.6891354322433472,
       "epoch": 0.06,
       "learning_rate": 3.1249999999999997e-07,
+      "logits/chosen": -2.759937047958374,
+      "logits/rejected": -2.7286112308502197,
+      "logps/chosen": -246.35159301757812,
+      "logps/rejected": -227.08651733398438,
+      "loss": 0.3602,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": 0.00010563675459707156,
+      "rewards/margins": 0.008171903900802135,
+      "rewards/rejected": -0.008066266775131226,
       "step": 30
     },
     {
+      "debug/losses": 0.3552504777908325,
+      "debug/policy_weights": 0.52684086561203,
+      "debug/raw_losses": 0.6755487322807312,
       "epoch": 0.08,
       "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": -2.7985873222351074,
+      "logits/rejected": -2.7698562145233154,
+      "logps/chosen": -298.9928283691406,
+      "logps/rejected": -264.44781494140625,
+      "loss": 0.3544,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": 0.005288169719278812,
+      "rewards/margins": 0.03713225945830345,
+      "rewards/rejected": -0.031844086945056915,
       "step": 40
     },
     {
+      "debug/losses": 0.3372410833835602,
+      "debug/policy_weights": 0.50788414478302,
+      "debug/raw_losses": 0.6635575890541077,
       "epoch": 0.1,
       "learning_rate": 4.999733114418725e-07,
+      "logits/chosen": -2.719874143600464,
+      "logits/rejected": -2.698538064956665,
+      "logps/chosen": -279.17694091796875,
+      "logps/rejected": -272.10687255859375,
+      "loss": 0.3418,
       "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.017464958131313324,
+      "rewards/margins": 0.06663360446691513,
+      "rewards/rejected": -0.08409856259822845,
       "step": 50
     },
     {
+      "debug/losses": 0.32032984495162964,
+      "debug/policy_weights": 0.49015456438064575,
+      "debug/raw_losses": 0.6468743085861206,
       "epoch": 0.13,
       "learning_rate": 4.990398100856366e-07,
+      "logits/chosen": -2.741781234741211,
+      "logits/rejected": -2.718924045562744,
+      "logps/chosen": -264.25994873046875,
+      "logps/rejected": -249.49978637695312,
+      "loss": 0.3195,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.05183681100606918,
+      "rewards/margins": 0.11701079457998276,
+      "rewards/rejected": -0.16884759068489075,
       "step": 60
     },
     {
+      "debug/losses": 0.2948753237724304,
+      "debug/policy_weights": 0.4617387652397156,
+      "debug/raw_losses": 0.6441112756729126,
       "epoch": 0.15,
       "learning_rate": 4.967775735898179e-07,
+      "logits/chosen": -2.7274184226989746,
+      "logits/rejected": -2.697922706604004,
+      "logps/chosen": -283.56719970703125,
+      "logps/rejected": -265.3944091796875,
+      "loss": 0.2944,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.15144629776477814,
+      "rewards/margins": 0.15366096794605255,
+      "rewards/rejected": -0.3051072657108307,
       "step": 70
     },
     {
+      "debug/losses": 0.24030272662639618,
+      "debug/policy_weights": 0.39300116896629333,
+      "debug/raw_losses": 0.61235511302948,
       "epoch": 0.17,
       "learning_rate": 4.931986719649298e-07,
+      "logits/chosen": -2.6943717002868652,
+      "logits/rejected": -2.6917672157287598,
+      "logps/chosen": -306.8209533691406,
+      "logps/rejected": -331.4168701171875,
+      "loss": 0.2366,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.36089134216308594,
+      "rewards/margins": 0.27803000807762146,
+      "rewards/rejected": -0.638921320438385,
       "step": 80
     },
     {
+      "debug/losses": 0.21284589171409607,
+      "debug/policy_weights": 0.36208364367485046,
+      "debug/raw_losses": 0.6084356307983398,
       "epoch": 0.19,
       "learning_rate": 4.883222001996351e-07,
+      "logits/chosen": -2.742755889892578,
+      "logits/rejected": -2.7089426517486572,
+      "logps/chosen": -306.11700439453125,
+      "logps/rejected": -313.5643005371094,
+      "loss": 0.2153,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.5115253925323486,
+      "rewards/margins": 0.27717387676239014,
+      "rewards/rejected": -0.7886992692947388,
       "step": 90
     },
     {
+      "debug/losses": 0.23982000350952148,
+      "debug/policy_weights": 0.39243510365486145,
+      "debug/raw_losses": 0.625305712223053,
       "epoch": 0.21,
       "learning_rate": 4.821741763807186e-07,
+      "logits/chosen": -2.754852533340454,
+      "logits/rejected": -2.7216262817382812,
+      "logps/chosen": -346.60498046875,
+      "logps/rejected": -359.0435485839844,
+      "loss": 0.2168,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.5716595649719238,
+      "rewards/margins": 0.3401753306388855,
+      "rewards/rejected": -0.9118350148200989,
       "step": 100
     },
     {
       "epoch": 0.21,
+      "eval_debug/losses": 0.2082262486219406,
+      "eval_debug/policy_weights": 0.37346428632736206,
+      "eval_debug/raw_losses": 0.5528886318206787,
+      "eval_logits/chosen": -2.697880268096924,
+      "eval_logits/rejected": -2.6826982498168945,
+      "eval_logps/chosen": -311.4377136230469,
+      "eval_logps/rejected": -363.1571350097656,
+      "eval_loss": 0.21503373980522156,
+      "eval_rewards/accuracies": 0.73828125,
+      "eval_rewards/chosen": -0.5439806580543518,
+      "eval_rewards/margins": 0.5140582323074341,
+      "eval_rewards/rejected": -1.0580389499664307,
+      "eval_runtime": 53.0291,
+      "eval_samples_per_second": 37.715,
+      "eval_steps_per_second": 0.603,
       "step": 100
     },
     {
+      "debug/losses": 0.1748097836971283,
+      "debug/policy_weights": 0.3250483572483063,
+      "debug/raw_losses": 0.5473231077194214,
       "epoch": 0.23,
       "learning_rate": 4.747874028753375e-07,
+      "logits/chosen": -2.5498530864715576,
+      "logits/rejected": -2.5195746421813965,
+      "logps/chosen": -338.24639892578125,
+      "logps/rejected": -351.0300598144531,
+      "loss": 0.2041,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.6814893484115601,
+      "rewards/margins": 0.6107165813446045,
+      "rewards/rejected": -1.292205810546875,
       "step": 110
     },
     {
+      "debug/losses": 0.1997809112071991,
+      "debug/policy_weights": 0.35038530826568604,
+      "debug/raw_losses": 0.5690494775772095,
       "epoch": 0.25,
       "learning_rate": 4.662012913161997e-07,
+      "logits/chosen": -2.6230885982513428,
+      "logits/rejected": -2.5906565189361572,
+      "logps/chosen": -337.9828186035156,
+      "logps/rejected": -383.8708801269531,
+      "loss": 0.1885,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.6913173794746399,
+      "rewards/margins": 0.5188819169998169,
+      "rewards/rejected": -1.2101994752883911,
       "step": 120
     },
     {
+      "debug/losses": 0.17902129888534546,
+      "debug/policy_weights": 0.3178775906562805,
+      "debug/raw_losses": 0.5685083866119385,
       "epoch": 0.27,
       "learning_rate": 4.5646165232345103e-07,
+      "logits/chosen": -2.591015100479126,
+      "logits/rejected": -2.576317548751831,
+      "logps/chosen": -350.18768310546875,
+      "logps/rejected": -370.1181640625,
+      "loss": 0.1792,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.7569286227226257,
+      "rewards/margins": 0.4377259314060211,
+      "rewards/rejected": -1.1946544647216797,
       "step": 130
     },
     {
+      "debug/losses": 0.18843333423137665,
+      "debug/policy_weights": 0.3299049437046051,
+      "debug/raw_losses": 0.550617516040802,
       "epoch": 0.29,
       "learning_rate": 4.456204510851956e-07,
+      "logits/chosen": -2.570383071899414,
+      "logits/rejected": -2.5405478477478027,
+      "logps/chosen": -350.4234924316406,
+      "logps/rejected": -398.32403564453125,
+      "loss": 0.1848,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.69789057970047,
+      "rewards/margins": 0.577714741230011,
+      "rewards/rejected": -1.275605320930481,
       "step": 140
     },
     {
+      "debug/losses": 0.18008050322532654,
+      "debug/policy_weights": 0.34716594219207764,
+      "debug/raw_losses": 0.5200980305671692,
       "epoch": 0.31,
       "learning_rate": 4.337355301007335e-07,
+      "logits/chosen": -2.520066738128662,
+      "logits/rejected": -2.5489494800567627,
+      "logps/chosen": -280.36163330078125,
+      "logps/rejected": -348.47869873046875,
+      "loss": 0.1859,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -0.5368272066116333,
+      "rewards/margins": 0.585098147392273,
+      "rewards/rejected": -1.1219253540039062,
       "step": 150
     },
     {
+      "debug/losses": 0.17896616458892822,
+      "debug/policy_weights": 0.3156106472015381,
+      "debug/raw_losses": 0.599802553653717,
       "epoch": 0.33,
       "learning_rate": 4.2087030056579986e-07,
+      "logits/chosen": -2.5032947063446045,
+      "logits/rejected": -2.476680278778076,
+      "logps/chosen": -341.430908203125,
+      "logps/rejected": -376.94244384765625,
+      "loss": 0.1759,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.8545902967453003,
+      "rewards/margins": 0.4560604691505432,
+      "rewards/rejected": -1.3106508255004883,
       "step": 160
     },
     {
+      "debug/losses": 0.12902560830116272,
+      "debug/policy_weights": 0.25470516085624695,
+      "debug/raw_losses": 0.5344475507736206,
       "epoch": 0.36,
       "learning_rate": 4.070934040463998e-07,
+      "logits/chosen": -2.3815720081329346,
+      "logits/rejected": -2.365286350250244,
+      "logps/chosen": -394.91192626953125,
+      "logps/rejected": -446.85321044921875,
+      "loss": 0.1496,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.1274508237838745,
+      "rewards/margins": 0.7393988966941833,
+      "rewards/rejected": -1.866849660873413,
       "step": 170
     },
     {
+      "debug/losses": 0.12488824129104614,
+      "debug/policy_weights": 0.24605941772460938,
+      "debug/raw_losses": 0.5098173022270203,
       "epoch": 0.38,
       "learning_rate": 3.9247834624635404e-07,
+      "logits/chosen": -2.3833303451538086,
+      "logits/rejected": -2.389314889907837,
+      "logps/chosen": -389.9188232421875,
+      "logps/rejected": -450.25140380859375,
+      "loss": 0.1436,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.2074089050292969,
+      "rewards/margins": 0.7412688136100769,
+      "rewards/rejected": -1.9486777782440186,
       "step": 180
     },
     {
+      "debug/losses": 0.1292407363653183,
+      "debug/policy_weights": 0.26770901679992676,
+      "debug/raw_losses": 0.48357778787612915,
       "epoch": 0.4,
       "learning_rate": 3.7710310482256523e-07,
+      "logits/chosen": -2.3599636554718018,
+      "logits/rejected": -2.3223559856414795,
+      "logps/chosen": -414.10699462890625,
+      "logps/rejected": -469.5603942871094,
+      "loss": 0.1421,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -1.227112054824829,
+      "rewards/margins": 0.8277386426925659,
+      "rewards/rejected": -2.0548505783081055,
       "step": 190
     },
     {
+      "debug/losses": 0.15382704138755798,
+      "debug/policy_weights": 0.2786335349082947,
+      "debug/raw_losses": 0.5533261299133301,
       "epoch": 0.42,
       "learning_rate": 3.610497133404795e-07,
+      "logits/chosen": -2.2979869842529297,
+      "logits/rejected": -2.312802791595459,
+      "logps/chosen": -419.5997009277344,
+      "logps/rejected": -456.7002868652344,
+      "loss": 0.1396,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.2343220710754395,
+      "rewards/margins": 0.6895232200622559,
+      "rewards/rejected": -1.9238452911376953,
       "step": 200
     },
     {
       "epoch": 0.42,
+      "eval_debug/losses": 0.13899114727973938,
+      "eval_debug/policy_weights": 0.2686985731124878,
+      "eval_debug/raw_losses": 0.5029721260070801,
+      "eval_logits/chosen": -2.2968499660491943,
+      "eval_logits/rejected": -2.273340940475464,
+      "eval_logps/chosen": -391.8349609375,
+      "eval_logps/rejected": -470.2158203125,
+      "eval_loss": 0.14160528779029846,
+      "eval_rewards/accuracies": 0.765625,
+      "eval_rewards/chosen": -1.3479530811309814,
+      "eval_rewards/margins": 0.7806724309921265,
+      "eval_rewards/rejected": -2.1286253929138184,
+      "eval_runtime": 52.9895,
+      "eval_samples_per_second": 37.743,
+      "eval_steps_per_second": 0.604,
       "step": 200
     },
     {
+      "debug/losses": 0.12412895262241364,
+      "debug/policy_weights": 0.26891231536865234,
+      "debug/raw_losses": 0.47236162424087524,
       "epoch": 0.44,
       "learning_rate": 3.4440382358952115e-07,
+      "logits/chosen": -2.2376811504364014,
+      "logits/rejected": -2.2135262489318848,
+      "logps/chosen": -395.38421630859375,
+      "logps/rejected": -459.84210205078125,
+      "loss": 0.1418,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.2235102653503418,
+      "rewards/margins": 0.8555533289909363,
+      "rewards/rejected": -2.0790634155273438,
       "step": 210
     },
     {
+      "debug/losses": 0.13483984768390656,
+      "debug/policy_weights": 0.2588108479976654,
+      "debug/raw_losses": 0.5093666911125183,
       "epoch": 0.46,
       "learning_rate": 3.272542485937368e-07,
+      "logits/chosen": -2.2282791137695312,
+      "logits/rejected": -2.1731905937194824,
+      "logps/chosen": -391.88104248046875,
+      "logps/rejected": -457.2334899902344,
+      "loss": 0.1418,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.1691535711288452,
+      "rewards/margins": 0.7801142930984497,
+      "rewards/rejected": -1.9492677450180054,
       "step": 220
     },
     {
+      "debug/losses": 0.14488555490970612,
+      "debug/policy_weights": 0.26247432827949524,
+      "debug/raw_losses": 0.5395208597183228,
       "epoch": 0.48,
       "learning_rate": 3.096924887558854e-07,
+      "logits/chosen": -2.2395882606506348,
+      "logits/rejected": -2.1690821647644043,
+      "logps/chosen": -417.9415588378906,
+      "logps/rejected": -489.2323303222656,
+      "loss": 0.1451,
       "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.433936595916748,
+      "rewards/margins": 0.758230984210968,
+      "rewards/rejected": -2.1921677589416504,
       "step": 230
     },
     {
+      "debug/losses": 0.1316806524991989,
+      "debug/policy_weights": 0.2545274794101715,
+      "debug/raw_losses": 0.5126517415046692,
       "epoch": 0.5,
       "learning_rate": 2.9181224366319943e-07,
+      "logits/chosen": -2.171607732772827,
+      "logits/rejected": -2.1234748363494873,
+      "logps/chosen": -426.31719970703125,
+      "logps/rejected": -475.4518127441406,
+      "loss": 0.1325,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.4014716148376465,
+      "rewards/margins": 0.8200809359550476,
+      "rewards/rejected": -2.2215523719787598,
       "step": 240
     },
     {
+      "debug/losses": 0.14006611704826355,
+      "debug/policy_weights": 0.2591710388660431,
+      "debug/raw_losses": 0.5314095616340637,
       "epoch": 0.52,
       "learning_rate": 2.7370891215954565e-07,
+      "logits/chosen": -2.1962928771972656,
+      "logits/rejected": -2.1328587532043457,
+      "logps/chosen": -403.8672790527344,
+      "logps/rejected": -458.2118225097656,
+      "loss": 0.1446,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.3229501247406006,
+      "rewards/margins": 0.7149368524551392,
+      "rewards/rejected": -2.03788685798645,
       "step": 250
     },
     {
+      "debug/losses": 0.14360225200653076,
+      "debug/policy_weights": 0.26045817136764526,
+      "debug/raw_losses": 0.5265286564826965,
       "epoch": 0.54,
       "learning_rate": 2.55479083351317e-07,
+      "logits/chosen": -2.1760964393615723,
+      "logits/rejected": -2.150712013244629,
+      "logps/chosen": -401.54754638671875,
+      "logps/rejected": -479.643310546875,
+      "loss": 0.1352,
       "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.4240009784698486,
+      "rewards/margins": 0.7899759411811829,
+      "rewards/rejected": -2.2139768600463867,
       "step": 260
     },
     {
+      "debug/losses": 0.11131677776575089,
+      "debug/policy_weights": 0.24807500839233398,
+      "debug/raw_losses": 0.47175589203834534,
       "epoch": 0.56,
       "learning_rate": 2.3722002126275822e-07,
+      "logits/chosen": -2.186707019805908,
+      "logits/rejected": -2.1590161323547363,
+      "logps/chosen": -427.5020446777344,
+      "logps/rejected": -495.8419494628906,
+      "loss": 0.1267,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.3904914855957031,
+      "rewards/margins": 0.9172846078872681,
+      "rewards/rejected": -2.3077759742736816,
       "step": 270
     },
     {
+      "debug/losses": 0.11321704089641571,
+      "debug/policy_weights": 0.24243195354938507,
+      "debug/raw_losses": 0.4841908812522888,
       "epoch": 0.59,
       "learning_rate": 2.19029145890313e-07,
+      "logits/chosen": -2.1000428199768066,
+      "logits/rejected": -2.089947462081909,
+      "logps/chosen": -469.45867919921875,
+      "logps/rejected": -520.9786987304688,
+      "loss": 0.1249,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -1.617157220840454,
+      "rewards/margins": 0.9369556307792664,
+      "rewards/rejected": -2.554112672805786,
       "step": 280
     },
     {
+      "debug/losses": 0.11086218059062958,
+      "debug/policy_weights": 0.22184400260448456,
+      "debug/raw_losses": 0.5123878717422485,
       "epoch": 0.61,
       "learning_rate": 2.0100351342479216e-07,
+      "logits/chosen": -2.1559338569641113,
+      "logits/rejected": -2.1183762550354004,
+      "logps/chosen": -447.17138671875,
+      "logps/rejected": -499.66143798828125,
+      "loss": 0.1214,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -1.6940768957138062,
+      "rewards/margins": 0.7695088386535645,
+      "rewards/rejected": -2.46358585357666,
       "step": 290
     },
     {
+      "debug/losses": 0.13476888835430145,
+      "debug/policy_weights": 0.23854057490825653,
+      "debug/raw_losses": 0.5516811013221741,
       "epoch": 0.63,
       "learning_rate": 1.8323929841460178e-07,
+      "logits/chosen": -2.199371099472046,
+      "logits/rejected": -2.178723096847534,
+      "logps/chosen": -422.80450439453125,
+      "logps/rejected": -485.37890625,
+      "loss": 0.1294,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.7119791507720947,
+      "rewards/margins": 0.7184675335884094,
+      "rewards/rejected": -2.4304463863372803,
       "step": 300
     },
     {
       "epoch": 0.63,
+      "eval_debug/losses": 0.12840886414051056,
+      "eval_debug/policy_weights": 0.25453710556030273,
+      "eval_debug/raw_losses": 0.4935261309146881,
+      "eval_logits/chosen": -2.1884968280792236,
+      "eval_logits/rejected": -2.158949851989746,
+      "eval_logps/chosen": -417.07135009765625,
+      "eval_logps/rejected": -502.21124267578125,
+      "eval_loss": 0.13086578249931335,
+      "eval_rewards/accuracies": 0.73828125,
+      "eval_rewards/chosen": -1.6003175973892212,
+      "eval_rewards/margins": 0.8482623100280762,
+      "eval_rewards/rejected": -2.448579788208008,
+      "eval_runtime": 53.0489,
+      "eval_samples_per_second": 37.701,
+      "eval_steps_per_second": 0.603,
       "step": 300
     },
     {
+      "debug/losses": 0.12721626460552216,
+      "debug/policy_weights": 0.25444597005844116,
+      "debug/raw_losses": 0.49146708846092224,
       "epoch": 0.65,
       "learning_rate": 1.6583128063291573e-07,
+      "logits/chosen": -2.169189453125,
+      "logits/rejected": -2.12001895904541,
+      "logps/chosen": -451.0543518066406,
+      "logps/rejected": -501.00830078125,
+      "loss": 0.1339,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.6334816217422485,
+      "rewards/margins": 0.8188700675964355,
+      "rewards/rejected": -2.4523518085479736,
       "step": 310
     },
     {
+      "debug/losses": 0.1101643294095993,
+      "debug/policy_weights": 0.24654574692249298,
+      "debug/raw_losses": 0.46620503067970276,
       "epoch": 0.67,
       "learning_rate": 1.488723393865766e-07,
+      "logits/chosen": -2.1372463703155518,
+      "logits/rejected": -2.0980920791625977,
+      "logps/chosen": -443.265625,
+      "logps/rejected": -513.0931396484375,
+      "loss": 0.1228,
       "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.5740420818328857,
+      "rewards/margins": 0.9036803245544434,
+      "rewards/rejected": -2.477722644805908,
       "step": 320
     },
     {
+      "debug/losses": 0.12689927220344543,
+      "debug/policy_weights": 0.25536665320396423,
+      "debug/raw_losses": 0.49713826179504395,
       "epoch": 0.69,
       "learning_rate": 1.3245295796480788e-07,
+      "logits/chosen": -2.1500933170318604,
+      "logits/rejected": -2.1095988750457764,
+      "logps/chosen": -424.4521484375,
+      "logps/rejected": -503.61163330078125,
+      "loss": 0.1324,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -1.5042273998260498,
+      "rewards/margins": 0.8895484805107117,
+      "rewards/rejected": -2.3937759399414062,
       "step": 330
     },
     {
+      "debug/losses": 0.11528172343969345,
+      "debug/policy_weights": 0.24339346587657928,
+      "debug/raw_losses": 0.48817843198776245,
       "epoch": 0.71,
       "learning_rate": 1.1666074087171627e-07,
+      "logits/chosen": -2.1724162101745605,
+      "logits/rejected": -2.1479129791259766,
+      "logps/chosen": -403.76806640625,
+      "logps/rejected": -496.89703369140625,
+      "loss": 0.1239,
       "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.4917190074920654,
+      "rewards/margins": 0.9479940533638,
+      "rewards/rejected": -2.4397130012512207,
       "step": 340
     },
     {
+      "debug/losses": 0.11798451095819473,
+      "debug/policy_weights": 0.23595662415027618,
+      "debug/raw_losses": 0.5302962064743042,
       "epoch": 0.73,
       "learning_rate": 1.0157994641835734e-07,
+      "logits/chosen": -2.148632526397705,
+      "logits/rejected": -2.1165192127227783,
+      "logps/chosen": -442.53057861328125,
+      "logps/rejected": -513.9363403320312,
+      "loss": 0.1374,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.6607694625854492,
+      "rewards/margins": 0.8479129672050476,
+      "rewards/rejected": -2.5086822509765625,
       "step": 350
     },
     {
+      "debug/losses": 0.10292885452508926,
+      "debug/policy_weights": 0.22015142440795898,
+      "debug/raw_losses": 0.4573485255241394,
       "epoch": 0.75,
       "learning_rate": 8.729103716819111e-08,
+      "logits/chosen": -2.1121697425842285,
+      "logits/rejected": -2.0813915729522705,
+      "logps/chosen": -401.754150390625,
+      "logps/rejected": -494.1514587402344,
+      "loss": 0.1311,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.4336955547332764,
+      "rewards/margins": 1.074181079864502,
+      "rewards/rejected": -2.5078768730163574,
       "step": 360
     },
     {
+      "debug/losses": 0.13746492564678192,
+      "debug/policy_weights": 0.25476521253585815,
+      "debug/raw_losses": 0.5358820557594299,
       "epoch": 0.77,
       "learning_rate": 7.387025063449081e-08,
+      "logits/chosen": -2.175912380218506,
+      "logits/rejected": -2.1576006412506104,
+      "logps/chosen": -416.6788024902344,
+      "logps/rejected": -477.13153076171875,
+      "loss": 0.1253,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.3861879110336304,
+      "rewards/margins": 0.7486017346382141,
+      "rewards/rejected": -2.1347897052764893,
       "step": 370
     },
     {
+      "debug/losses": 0.14446747303009033,
+      "debug/policy_weights": 0.2367408275604248,
+      "debug/raw_losses": 0.5707719326019287,
       "epoch": 0.79,
       "learning_rate": 6.138919252022435e-08,
+      "logits/chosen": -2.084808111190796,
+      "logits/rejected": -2.070844888687134,
+      "logps/chosen": -394.0305480957031,
+      "logps/rejected": -481.216552734375,
+      "loss": 0.1285,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.7118937969207764,
+      "rewards/margins": 0.6706421375274658,
+      "rewards/rejected": -2.3825364112854004,
       "step": 380
     },
     {
+      "debug/losses": 0.12546047568321228,
+      "debug/policy_weights": 0.24170584976673126,
+      "debug/raw_losses": 0.4937317967414856,
       "epoch": 0.82,
       "learning_rate": 4.991445467064689e-08,
+      "logits/chosen": -2.1555511951446533,
+      "logits/rejected": -2.1209189891815186,
+      "logps/chosen": -406.2367248535156,
+      "logps/rejected": -479.50567626953125,
+      "loss": 0.1302,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.5467679500579834,
+      "rewards/margins": 0.8932439684867859,
+      "rewards/rejected": -2.440011501312256,
       "step": 390
     },
     {
+      "debug/losses": 0.13418573141098022,
+      "debug/policy_weights": 0.24948246777057648,
+      "debug/raw_losses": 0.5159034132957458,
       "epoch": 0.84,
       "learning_rate": 3.9507259776993954e-08,
+      "logits/chosen": -2.1299073696136475,
+      "logits/rejected": -2.0702521800994873,
+      "logps/chosen": -448.74298095703125,
+      "logps/rejected": -487.4234313964844,
+      "loss": 0.1329,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.6303924322128296,
+      "rewards/margins": 0.7685388326644897,
+      "rewards/rejected": -2.3989315032958984,
       "step": 400
     },
     {
       "epoch": 0.84,
+      "eval_debug/losses": 0.12970629334449768,
+      "eval_debug/policy_weights": 0.25886857509613037,
+      "eval_debug/raw_losses": 0.48170554637908936,
+      "eval_logits/chosen": -2.18296217918396,
+      "eval_logits/rejected": -2.1507883071899414,
+      "eval_logps/chosen": -409.0387878417969,
+      "eval_logps/rejected": -500.7933654785156,
+      "eval_loss": 0.1314304769039154,
+      "eval_rewards/accuracies": 0.75,
+      "eval_rewards/chosen": -1.519991159439087,
+      "eval_rewards/margins": 0.9144098162651062,
+      "eval_rewards/rejected": -2.434401035308838,
+      "eval_runtime": 53.0316,
+      "eval_samples_per_second": 37.713,
+      "eval_steps_per_second": 0.603,
       "step": 400
     },
     {
+      "debug/losses": 0.13898980617523193,
+      "debug/policy_weights": 0.24470162391662598,
+      "debug/raw_losses": 0.5698193907737732,
       "epoch": 0.86,
       "learning_rate": 3.022313472693447e-08,
+      "logits/chosen": -2.1896605491638184,
+      "logits/rejected": -2.1111254692077637,
+      "logps/chosen": -431.5157165527344,
+      "logps/rejected": -519.735595703125,
+      "loss": 0.1335,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -1.67926025390625,
+      "rewards/margins": 0.7034608125686646,
+      "rewards/rejected": -2.382721185684204,
       "step": 410
     },
     {
+      "debug/losses": 0.13722026348114014,
+      "debug/policy_weights": 0.25542253255844116,
+      "debug/raw_losses": 0.553850531578064,
       "epoch": 0.88,
       "learning_rate": 2.2111614344599684e-08,
+      "logits/chosen": -2.1816725730895996,
+      "logits/rejected": -2.1436891555786133,
+      "logps/chosen": -450.2588806152344,
+      "logps/rejected": -532.4340209960938,
+      "loss": 0.132,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -1.6344585418701172,
+      "rewards/margins": 0.765791654586792,
+      "rewards/rejected": -2.40024995803833,
       "step": 420
     },
     {
+      "debug/losses": 0.11242847144603729,
+      "debug/policy_weights": 0.23566405475139618,
+      "debug/raw_losses": 0.474797785282135,
       "epoch": 0.9,
       "learning_rate": 1.521597710086439e-08,
+      "logits/chosen": -2.1367993354797363,
+      "logits/rejected": -2.101963520050049,
+      "logps/chosen": -447.2886657714844,
+      "logps/rejected": -528.4554443359375,
+      "loss": 0.135,
       "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.57035493850708,
+      "rewards/margins": 0.9703021049499512,
+      "rewards/rejected": -2.5406570434570312,
       "step": 430
     },
     {
+      "debug/losses": 0.14394986629486084,
+      "debug/policy_weights": 0.2594669461250305,
+      "debug/raw_losses": 0.551374614238739,
       "epoch": 0.92,
       "learning_rate": 9.57301420397924e-09,
+      "logits/chosen": -2.1795363426208496,
+      "logits/rejected": -2.1459131240844727,
+      "logps/chosen": -479.01873779296875,
+      "logps/rejected": -490.289794921875,
+      "loss": 0.128,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.6396774053573608,
+      "rewards/margins": 0.6072880625724792,
+      "rewards/rejected": -2.2469656467437744,
       "step": 440
     },
     {
+      "debug/losses": 0.12136085331439972,
+      "debug/policy_weights": 0.25487110018730164,
+      "debug/raw_losses": 0.5141120553016663,
       "epoch": 0.94,
       "learning_rate": 5.212833302556258e-09,
+      "logits/chosen": -2.131383180618286,
+      "logits/rejected": -2.101245880126953,
+      "logps/chosen": -428.8694763183594,
+      "logps/rejected": -482.65380859375,
+      "loss": 0.1317,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.4801188707351685,
+      "rewards/margins": 0.8445402383804321,
+      "rewards/rejected": -2.3246593475341797,
       "step": 450
     },
     {
+      "debug/losses": 0.13340520858764648,
+      "debug/policy_weights": 0.26456892490386963,
+      "debug/raw_losses": 0.5068139433860779,
       "epoch": 0.96,
       "learning_rate": 2.158697848236607e-09,
+      "logits/chosen": -2.1625778675079346,
+      "logits/rejected": -2.118445873260498,
+      "logps/chosen": -446.69012451171875,
+      "logps/rejected": -497.6316833496094,
+      "loss": 0.1415,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.46303391456604,
+      "rewards/margins": 0.8069203495979309,
+      "rewards/rejected": -2.2699544429779053,
       "step": 460
     },
     {
+      "debug/losses": 0.13318563997745514,
+      "debug/policy_weights": 0.2579984962940216,
+      "debug/raw_losses": 0.5174868702888489,
       "epoch": 0.98,
       "learning_rate": 4.269029751107489e-10,
+      "logits/chosen": -2.1812849044799805,
+      "logits/rejected": -2.100320816040039,
+      "logps/chosen": -435.08428955078125,
+      "logps/rejected": -452.8404235839844,
+      "loss": 0.1302,
       "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.3687784671783447,
+      "rewards/margins": 0.8292155265808105,
+      "rewards/rejected": -2.1979942321777344,
       "step": 470
     },
     {
       "epoch": 1.0,
       "step": 478,
       "total_flos": 0.0,
+      "train_loss": 0.17621936496331603,
+      "train_runtime": 4510.4366,
+      "train_samples_per_second": 13.554,
+      "train_steps_per_second": 0.106
     }
   ],
   "logging_steps": 10,