Training in progress, step 100

Browse files

Files changed (8) hide show

README.md +28 -19
all_results.json +5 -5
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +1798 -578
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -2,30 +2,31 @@
 license: mit
 base_model: HuggingFaceH4/mistral-7b-sft-beta
 tags:
-- trl
-- dpo
 - generated_from_trainer
 model-index:
-- name: zephyr-7b-dpo-full
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# zephyr-7b-dpo-full
-This model is a fine-tuned version of [HuggingFaceH4/mistral-7b-sft-beta](https://huggingface.co/HuggingFaceH4/mistral-7b-sft-beta) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0661
-- Rewards/chosen: -1.7413
-- Rewards/rejected: -2.4778
-- Rewards/accuracies: 0.7305
-- Rewards/margins: 0.7366
-- Logps/rejected: -505.1376
-- Logps/chosen: -431.1672
-- Logits/rejected: -2.2939
-- Logits/chosen: -2.3090
 ## Model description
@@ -47,7 +48,7 @@ The following hyperparameters were used during training:
 - learning_rate: 5e-07
 - train_batch_size: 8
 - eval_batch_size: 8
-- seed: 1
 - distributed_type: multi-GPU
 - num_devices: 8
 - gradient_accumulation_steps: 2
@@ -62,10 +63,18 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.1109        | 0.21  | 100  | 0.1123          | -0.6903        | -1.0462          | 0.6719             | 0.3559          | -361.9691      | -326.0703    | -2.7160         | -2.7308       |
-| 0.0827        | 0.42  | 200  | 0.0835          | -1.0444        | -1.6775          | 0.7109             | 0.6331          | -425.1063      | -361.4821    | -2.5293         | -2.5441       |
-| 0.0601        | 0.63  | 300  | 0.0637          | -1.7249        | -2.4416          | 0.7109             | 0.7167          | -501.5150      | -429.5333    | -2.3598         | -2.3751       |
-| 0.0701        | 0.84  | 400  | 0.0661          | -1.7413        | -2.4778          | 0.7305             | 0.7366          | -505.1376      | -431.1672    | -2.2939         | -2.3090       |
 ### Framework versions

 license: mit
 base_model: HuggingFaceH4/mistral-7b-sft-beta
 tags:
+- alignment-handbook
 - generated_from_trainer
+datasets:
+- HuggingFaceH4/hh-rlhf-h4
 model-index:
+- name: dpo_hh
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# dpo_hh
+This model is a fine-tuned version of [HuggingFaceH4/mistral-7b-sft-beta](https://huggingface.co/HuggingFaceH4/mistral-7b-sft-beta) on the HuggingFaceH4/hh-rlhf-h4 dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5440
+- Rewards/chosen: -2.2940
+- Rewards/rejected: -3.0054
+- Rewards/accuracies: 0.7090
+- Rewards/margins: 0.7114
+- Logps/rejected: -451.6765
+- Logps/chosen: -373.9785
+- Logits/rejected: 0.3244
+- Logits/chosen: 0.0742
 ## Model description
 - learning_rate: 5e-07
 - train_batch_size: 8
 - eval_batch_size: 8
+- seed: 42
 - distributed_type: multi-GPU
 - num_devices: 8
 - gradient_accumulation_steps: 2
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.6789        | 0.08  | 100  | 0.6770          | -0.1062        | -0.1422          | 0.5914             | 0.0360          | -165.3552      | -155.1927    | -2.7255         | -2.7337       |
+| 0.6062        | 0.16  | 200  | 0.6079          | -1.0212        | -1.3873          | 0.6670             | 0.3660          | -289.8622      | -246.6971    | -2.3696         | -2.3856       |
+| 0.5965        | 0.24  | 300  | 0.5907          | -1.3779        | -1.8008          | 0.6623             | 0.4229          | -331.2100      | -282.3621    | -2.2450         | -2.2656       |
+| 0.5729        | 0.32  | 400  | 0.5711          | -1.6763        | -2.2404          | 0.6828             | 0.5640          | -375.1720      | -312.2064    | -1.2920         | -1.3760       |
+| 0.5645        | 0.4   | 500  | 0.5639          | -2.0721        | -2.6869          | 0.6987             | 0.6147          | -419.8194      | -351.7883    | -0.6091         | -0.7860       |
+| 0.5513        | 0.48  | 600  | 0.5582          | -2.9237        | -3.5389          | 0.7108             | 0.6152          | -505.0223      | -436.9386    | 0.1224          | -0.1054       |
+| 0.5571        | 0.56  | 700  | 0.5559          | -2.7971        | -3.5456          | 0.7043             | 0.7485          | -505.6961      | -424.2823    | 0.2980          | 0.0356        |
+| 0.5609        | 0.64  | 800  | 0.5469          | -2.4314        | -3.0831          | 0.7108             | 0.6517          | -459.4439      | -387.7092    | 0.1922          | -0.0312       |
+| 0.5514        | 0.72  | 900  | 0.5474          | -2.4774        | -3.2082          | 0.6996             | 0.7308          | -471.9533      | -392.3096    | 0.5382          | 0.2860        |
+| 0.527         | 0.8   | 1000 | 0.5454          | -2.5040        | -3.2071          | 0.7080             | 0.7031          | -471.8454      | -394.9711    | 0.6372          | 0.3871        |
+| 0.5487        | 0.88  | 1100 | 0.5444          | -2.2851        | -2.9963          | 0.7090             | 0.7112          | -450.7599      | -373.0831    | 0.4336          | 0.1858        |
+| 0.5483        | 0.96  | 1200 | 0.5440          | -2.2940        | -3.0054          | 0.7090             | 0.7114          | -451.6765      | -373.9785    | 0.3244          | 0.0742        |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.10338684791800368,
-    "train_runtime": 4299.0388,
-    "train_samples": 61134,
-    "train_samples_per_second": 14.22,
-    "train_steps_per_second": 0.111
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.5712926928784438,
+    "train_runtime": 11573.5451,
+    "train_samples": 160800,
+    "train_samples_per_second": 13.894,
+    "train_steps_per_second": 0.109
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba1a3d72066b8e2017670b30cb4058f0bd42291966b8e257668e4ed088d401bc
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:18e1cec63bd40f863dc594533ae9ac02d7bcdd4f57a17c1ef5d63193122a0814
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65dcdcdcd7642926e0bbfb8247fa25f7818ae8eddaa49168012ccc29d3e7dca7
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:565d4244afeda54e7f62be9e162a16c6892085c081422f02c7a001ecce587eb6
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e593ee05279f18588d4e4de7a7bd5d86f252d826430b03e790949c03a9da9309
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:0debf1533b3a9f2ffea91ddec7f947ba3d1c43476aedcef3273235a227bb4ce5
 size 4540516344

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.10338684791800368,
-    "train_runtime": 4299.0388,
-    "train_samples": 61134,
-    "train_samples_per_second": 14.22,
-    "train_steps_per_second": 0.111
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.5712926928784438,
+    "train_runtime": 11573.5451,
+    "train_samples": 160800,
+    "train_samples_per_second": 13.894,
+    "train_steps_per_second": 0.109
 }

trainer_state.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 100,
-  "global_step": 478,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 1.0416666666666666e-08,
-      "logits/chosen": -2.847970962524414,
-      "logits/rejected": -2.79160213470459,
-      "logps/chosen": -284.9612731933594,
-      "logps/rejected": -276.45928955078125,
-      "loss": 0.2876,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -23,739 +23,1959 @@
       "step": 1
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 1.0416666666666667e-07,
-      "logits/chosen": -2.754615306854248,
-      "logits/rejected": -2.7527124881744385,
-      "logps/chosen": -249.91766357421875,
-      "logps/rejected": -223.03199768066406,
-      "loss": 0.2721,
-      "rewards/accuracies": 0.4305555522441864,
-      "rewards/chosen": 0.0003008719068020582,
-      "rewards/margins": 0.00014147440379019827,
-      "rewards/rejected": 0.00015939754666760564,
       "step": 10
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 2.0833333333333333e-07,
-      "logits/chosen": -2.744819164276123,
-      "logits/rejected": -2.7452425956726074,
-      "logps/chosen": -257.51922607421875,
-      "logps/rejected": -247.54443359375,
-      "loss": 0.2734,
       "rewards/accuracies": 0.550000011920929,
-      "rewards/chosen": -0.0006371424533426762,
-      "rewards/margins": 0.0005006588762626052,
-      "rewards/rejected": -0.0011378012131899595,
       "step": 20
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 3.1249999999999997e-07,
-      "logits/chosen": -2.800170421600342,
-      "logits/rejected": -2.75288987159729,
-      "logps/chosen": -300.58624267578125,
-      "logps/rejected": -261.947509765625,
-      "loss": 0.2748,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -9.172456339001656e-05,
-      "rewards/margins": 0.008465302176773548,
-      "rewards/rejected": -0.008557027205824852,
       "step": 30
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 4.1666666666666667e-07,
-      "logits/chosen": -2.7602672576904297,
-      "logits/rejected": -2.7481954097747803,
-      "logps/chosen": -256.8687744140625,
-      "logps/rejected": -274.7905578613281,
-      "loss": 0.2752,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.004348918329924345,
-      "rewards/margins": 0.022723417729139328,
-      "rewards/rejected": -0.02707233466207981,
       "step": 40
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 4.999733114418725e-07,
-      "logits/chosen": -2.7562196254730225,
-      "logits/rejected": -2.7283082008361816,
-      "logps/chosen": -286.0328063964844,
-      "logps/rejected": -257.0364685058594,
-      "loss": 0.2617,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -0.03953402116894722,
-      "rewards/margins": 0.05379838868975639,
-      "rewards/rejected": -0.09333241730928421,
       "step": 50
     },
     {
-      "epoch": 0.13,
-      "learning_rate": 4.990398100856366e-07,
-      "logits/chosen": -2.7137930393218994,
-      "logits/rejected": -2.7019810676574707,
-      "logps/chosen": -287.04071044921875,
-      "logps/rejected": -260.2994384765625,
-      "loss": 0.24,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -0.11156264692544937,
-      "rewards/margins": 0.09095317125320435,
-      "rewards/rejected": -0.20251581072807312,
       "step": 60
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 4.967775735898179e-07,
-      "logits/chosen": -2.7554192543029785,
-      "logits/rejected": -2.713547945022583,
-      "logps/chosen": -284.7712707519531,
-      "logps/rejected": -262.7787170410156,
-      "loss": 0.2083,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -0.17635884881019592,
-      "rewards/margins": 0.13202181458473206,
-      "rewards/rejected": -0.3083806335926056,
       "step": 70
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 4.931986719649298e-07,
-      "logits/chosen": -2.758901834487915,
-      "logits/rejected": -2.73246431350708,
-      "logps/chosen": -284.24505615234375,
-      "logps/rejected": -316.8401184082031,
-      "loss": 0.177,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -0.23892077803611755,
-      "rewards/margins": 0.20650558173656464,
-      "rewards/rejected": -0.4454263746738434,
       "step": 80
     },
     {
-      "epoch": 0.19,
-      "learning_rate": 4.883222001996351e-07,
-      "logits/chosen": -2.7833261489868164,
-      "logits/rejected": -2.758331775665283,
-      "logps/chosen": -321.96240234375,
-      "logps/rejected": -328.13006591796875,
-      "loss": 0.1305,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.46595558524131775,
-      "rewards/margins": 0.303358793258667,
-      "rewards/rejected": -0.7693144083023071,
       "step": 90
     },
     {
-      "epoch": 0.21,
-      "learning_rate": 4.821741763807186e-07,
-      "logits/chosen": -2.7671847343444824,
-      "logits/rejected": -2.734937906265259,
-      "logps/chosen": -354.911376953125,
-      "logps/rejected": -359.7698974609375,
-      "loss": 0.1109,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -0.6594639420509338,
-      "rewards/margins": 0.31608688831329346,
-      "rewards/rejected": -0.9755508303642273,
       "step": 100
     },
     {
-      "epoch": 0.21,
-      "eval_logits/chosen": -2.730799913406372,
-      "eval_logits/rejected": -2.7160255908966064,
-      "eval_logps/chosen": -326.0702819824219,
-      "eval_logps/rejected": -361.9690856933594,
-      "eval_loss": 0.11231164634227753,
-      "eval_rewards/accuracies": 0.671875,
-      "eval_rewards/chosen": -0.6903067827224731,
-      "eval_rewards/margins": 0.35585111379623413,
-      "eval_rewards/rejected": -1.046157956123352,
-      "eval_runtime": 53.5125,
-      "eval_samples_per_second": 37.374,
-      "eval_steps_per_second": 0.598,
       "step": 100
     },
     {
-      "epoch": 0.23,
-      "learning_rate": 4.747874028753375e-07,
-      "logits/chosen": -2.68900203704834,
-      "logits/rejected": -2.684034824371338,
-      "logps/chosen": -335.48516845703125,
-      "logps/rejected": -387.7432861328125,
-      "loss": 0.1034,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -0.7122184634208679,
-      "rewards/margins": 0.438101589679718,
-      "rewards/rejected": -1.1503199338912964,
       "step": 110
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 4.662012913161997e-07,
-      "logits/chosen": -2.680314302444458,
-      "logits/rejected": -2.647202968597412,
-      "logps/chosen": -352.63995361328125,
-      "logps/rejected": -367.2237854003906,
-      "loss": 0.0947,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -0.8510015606880188,
-      "rewards/margins": 0.3474428951740265,
-      "rewards/rejected": -1.1984443664550781,
       "step": 120
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 4.5646165232345103e-07,
-      "logits/chosen": -2.6463232040405273,
-      "logits/rejected": -2.61381459236145,
-      "logps/chosen": -380.47967529296875,
-      "logps/rejected": -365.9372253417969,
-      "loss": 0.0979,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -0.8834818601608276,
-      "rewards/margins": 0.3734584450721741,
-      "rewards/rejected": -1.256940245628357,
       "step": 130
     },
     {
-      "epoch": 0.29,
-      "learning_rate": 4.456204510851956e-07,
-      "logits/chosen": -2.554269313812256,
-      "logits/rejected": -2.5375049114227295,
-      "logps/chosen": -337.0314636230469,
-      "logps/rejected": -349.06658935546875,
-      "loss": 0.09,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": -0.8867238163948059,
-      "rewards/margins": 0.40632495284080505,
-      "rewards/rejected": -1.2930488586425781,
       "step": 140
     },
     {
-      "epoch": 0.31,
-      "learning_rate": 4.337355301007335e-07,
-      "logits/chosen": -2.604201078414917,
-      "logits/rejected": -2.5937697887420654,
-      "logps/chosen": -335.0273132324219,
-      "logps/rejected": -343.92254638671875,
-      "loss": 0.1096,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.6979407072067261,
-      "rewards/margins": 0.34163588285446167,
-      "rewards/rejected": -1.0395764112472534,
       "step": 150
     },
     {
-      "epoch": 0.33,
-      "learning_rate": 4.2087030056579986e-07,
-      "logits/chosen": -2.5900254249572754,
-      "logits/rejected": -2.5764124393463135,
-      "logps/chosen": -327.34246826171875,
-      "logps/rejected": -341.6199951171875,
-      "loss": 0.1042,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.6636267304420471,
-      "rewards/margins": 0.4372376501560211,
-      "rewards/rejected": -1.1008644104003906,
       "step": 160
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 4.070934040463998e-07,
-      "logits/chosen": -2.52565336227417,
-      "logits/rejected": -2.503875732421875,
-      "logps/chosen": -359.1436462402344,
-      "logps/rejected": -383.7198791503906,
-      "loss": 0.0909,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -0.9048717617988586,
-      "rewards/margins": 0.4260476231575012,
-      "rewards/rejected": -1.3309195041656494,
       "step": 170
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 3.9247834624635404e-07,
-      "logits/chosen": -2.578688621520996,
-      "logits/rejected": -2.5376152992248535,
-      "logps/chosen": -374.0743408203125,
-      "logps/rejected": -407.6534118652344,
-      "loss": 0.076,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.9762502908706665,
-      "rewards/margins": 0.6208353638648987,
-      "rewards/rejected": -1.59708571434021,
       "step": 180
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 3.7710310482256523e-07,
-      "logits/chosen": -2.4752392768859863,
-      "logits/rejected": -2.453946828842163,
-      "logps/chosen": -378.5819396972656,
-      "logps/rejected": -404.8907775878906,
-      "loss": 0.0797,
       "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -1.2136954069137573,
-      "rewards/margins": 0.46700143814086914,
-      "rewards/rejected": -1.6806968450546265,
       "step": 190
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 3.610497133404795e-07,
-      "logits/chosen": -2.585300922393799,
-      "logits/rejected": -2.5288150310516357,
-      "logps/chosen": -430.1705627441406,
-      "logps/rejected": -451.49359130859375,
-      "loss": 0.0827,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.9559403657913208,
-      "rewards/margins": 0.7599747776985168,
-      "rewards/rejected": -1.7159150838851929,
       "step": 200
     },
     {
-      "epoch": 0.42,
-      "eval_logits/chosen": -2.5441277027130127,
-      "eval_logits/rejected": -2.5292551517486572,
-      "eval_logps/chosen": -361.4820556640625,
-      "eval_logps/rejected": -425.10626220703125,
-      "eval_loss": 0.08351893723011017,
-      "eval_rewards/accuracies": 0.7109375,
-      "eval_rewards/chosen": -1.044424295425415,
-      "eval_rewards/margins": 0.633105993270874,
-      "eval_rewards/rejected": -1.677530288696289,
-      "eval_runtime": 53.489,
-      "eval_samples_per_second": 37.391,
-      "eval_steps_per_second": 0.598,
       "step": 200
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 3.4440382358952115e-07,
-      "logits/chosen": -2.5123326778411865,
-      "logits/rejected": -2.4670844078063965,
-      "logps/chosen": -397.2037353515625,
-      "logps/rejected": -422.181884765625,
-      "loss": 0.0742,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -1.2999712228775024,
-      "rewards/margins": 0.5175615549087524,
-      "rewards/rejected": -1.8175325393676758,
       "step": 210
     },
     {
-      "epoch": 0.46,
-      "learning_rate": 3.272542485937368e-07,
-      "logits/chosen": -2.4815120697021484,
-      "logits/rejected": -2.4709112644195557,
-      "logps/chosen": -422.6219787597656,
-      "logps/rejected": -436.00067138671875,
-      "loss": 0.075,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -1.2806153297424316,
-      "rewards/margins": 0.6690474152565002,
-      "rewards/rejected": -1.9496628046035767,
       "step": 220
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 3.096924887558854e-07,
-      "logits/chosen": -2.4899134635925293,
-      "logits/rejected": -2.489028215408325,
-      "logps/chosen": -406.87542724609375,
-      "logps/rejected": -466.6827087402344,
-      "loss": 0.0783,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -1.2506535053253174,
-      "rewards/margins": 0.5075139999389648,
-      "rewards/rejected": -1.7581675052642822,
       "step": 230
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 2.9181224366319943e-07,
-      "logits/chosen": -2.4825503826141357,
-      "logits/rejected": -2.456381320953369,
-      "logps/chosen": -408.4953918457031,
-      "logps/rejected": -474.0255432128906,
-      "loss": 0.0705,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -1.5479252338409424,
-      "rewards/margins": 0.6070561408996582,
-      "rewards/rejected": -2.1549811363220215,
       "step": 240
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 2.7370891215954565e-07,
-      "logits/chosen": -2.4535536766052246,
-      "logits/rejected": -2.406754970550537,
-      "logps/chosen": -436.6791076660156,
-      "logps/rejected": -475.4485778808594,
-      "loss": 0.0585,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -1.7775382995605469,
-      "rewards/margins": 0.622700035572052,
-      "rewards/rejected": -2.400238513946533,
       "step": 250
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 2.55479083351317e-07,
-      "logits/chosen": -2.4295785427093506,
-      "logits/rejected": -2.4286041259765625,
-      "logps/chosen": -431.3194885253906,
-      "logps/rejected": -464.6298828125,
-      "loss": 0.0681,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": -1.62710702419281,
-      "rewards/margins": 0.5344988107681274,
-      "rewards/rejected": -2.1616060733795166,
       "step": 260
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 2.3722002126275822e-07,
-      "logits/chosen": -2.3905882835388184,
-      "logits/rejected": -2.3859236240386963,
-      "logps/chosen": -435.57080078125,
-      "logps/rejected": -483.0503845214844,
-      "loss": 0.0651,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.6071735620498657,
-      "rewards/margins": 0.6677204370498657,
-      "rewards/rejected": -2.2748939990997314,
       "step": 270
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 2.19029145890313e-07,
-      "logits/chosen": -2.3883347511291504,
-      "logits/rejected": -2.3608126640319824,
-      "logps/chosen": -406.9722595214844,
-      "logps/rejected": -451.4954528808594,
-      "loss": 0.0707,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -1.6556665897369385,
-      "rewards/margins": 0.557217001914978,
-      "rewards/rejected": -2.212883710861206,
       "step": 280
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 2.0100351342479216e-07,
-      "logits/chosen": -2.364060878753662,
-      "logits/rejected": -2.3262579441070557,
-      "logps/chosen": -398.1853942871094,
-      "logps/rejected": -441.4693298339844,
-      "loss": 0.0688,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -1.5157417058944702,
-      "rewards/margins": 0.5565241575241089,
-      "rewards/rejected": -2.072266101837158,
       "step": 290
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 1.8323929841460178e-07,
-      "logits/chosen": -2.3597569465637207,
-      "logits/rejected": -2.330319881439209,
-      "logps/chosen": -429.59063720703125,
-      "logps/rejected": -486.83929443359375,
-      "loss": 0.0601,
       "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -1.7332206964492798,
-      "rewards/margins": 0.5616604089736938,
-      "rewards/rejected": -2.2948808670043945,
       "step": 300
     },
     {
-      "epoch": 0.63,
-      "eval_logits/chosen": -2.3750576972961426,
-      "eval_logits/rejected": -2.359818458557129,
-      "eval_logps/chosen": -429.5332946777344,
-      "eval_logps/rejected": -501.5149841308594,
-      "eval_loss": 0.06369224935770035,
-      "eval_rewards/accuracies": 0.7109375,
-      "eval_rewards/chosen": -1.724936604499817,
-      "eval_rewards/margins": 0.7166807055473328,
-      "eval_rewards/rejected": -2.441617012023926,
-      "eval_runtime": 53.5184,
-      "eval_samples_per_second": 37.37,
-      "eval_steps_per_second": 0.598,
       "step": 300
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 1.6583128063291573e-07,
-      "logits/chosen": -2.2923548221588135,
-      "logits/rejected": -2.233915090560913,
-      "logps/chosen": -446.2679138183594,
-      "logps/rejected": -486.3494567871094,
-      "loss": 0.0655,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -1.7308906316757202,
-      "rewards/margins": 0.6609010696411133,
-      "rewards/rejected": -2.391791820526123,
       "step": 310
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 1.488723393865766e-07,
-      "logits/chosen": -2.3038582801818848,
-      "logits/rejected": -2.288447856903076,
-      "logps/chosen": -475.36456298828125,
-      "logps/rejected": -467.66064453125,
-      "loss": 0.0603,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -1.7898223400115967,
-      "rewards/margins": 0.5327185988426208,
-      "rewards/rejected": -2.3225409984588623,
       "step": 320
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 1.3245295796480788e-07,
-      "logits/chosen": -2.321782350540161,
-      "logits/rejected": -2.2884280681610107,
-      "logps/chosen": -426.6319274902344,
-      "logps/rejected": -461.34979248046875,
-      "loss": 0.0575,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -1.7441871166229248,
-      "rewards/margins": 0.5330021977424622,
-      "rewards/rejected": -2.277189254760742,
       "step": 330
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 1.1666074087171627e-07,
-      "logits/chosen": -2.2620673179626465,
-      "logits/rejected": -2.2464137077331543,
-      "logps/chosen": -426.872314453125,
-      "logps/rejected": -481.943359375,
-      "loss": 0.0663,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -1.7562898397445679,
-      "rewards/margins": 0.6439149379730225,
-      "rewards/rejected": -2.40020489692688,
       "step": 340
     },
     {
       "epoch": 0.73,
-      "learning_rate": 1.0157994641835734e-07,
-      "logits/chosen": -2.2721340656280518,
-      "logits/rejected": -2.2429938316345215,
-      "logps/chosen": -405.68780517578125,
-      "logps/rejected": -483.6551818847656,
-      "loss": 0.0576,
       "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -1.797376275062561,
-      "rewards/margins": 0.6322047114372253,
-      "rewards/rejected": -2.4295811653137207,
-      "step": 350
     },
     {
       "epoch": 0.75,
-      "learning_rate": 8.729103716819111e-08,
-      "logits/chosen": -2.2564642429351807,
-      "logits/rejected": -2.211012363433838,
-      "logps/chosen": -451.98260498046875,
-      "logps/rejected": -491.70574951171875,
-      "loss": 0.0561,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -1.8471438884735107,
-      "rewards/margins": 0.67652827501297,
-      "rewards/rejected": -2.523672103881836,
-      "step": 360
     },
     {
       "epoch": 0.77,
-      "learning_rate": 7.387025063449081e-08,
-      "logits/chosen": -2.2304282188415527,
-      "logits/rejected": -2.2320969104766846,
-      "logps/chosen": -433.58587646484375,
-      "logps/rejected": -507.2215270996094,
-      "loss": 0.0572,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -1.7833837270736694,
-      "rewards/margins": 0.7461522817611694,
-      "rewards/rejected": -2.529536008834839,
-      "step": 370
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 6.138919252022435e-08,
-      "logits/chosen": -2.2689669132232666,
-      "logits/rejected": -2.256394624710083,
-      "logps/chosen": -455.39208984375,
-      "logps/rejected": -486.22259521484375,
-      "loss": 0.0575,
       "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.8956279754638672,
-      "rewards/margins": 0.5983321070671082,
-      "rewards/rejected": -2.49396014213562,
-      "step": 380
     },
     {
       "epoch": 0.82,
-      "learning_rate": 4.991445467064689e-08,
-      "logits/chosen": -2.255570888519287,
-      "logits/rejected": -2.2443959712982178,
-      "logps/chosen": -428.5765075683594,
-      "logps/rejected": -491.9400329589844,
-      "loss": 0.056,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -1.713770866394043,
-      "rewards/margins": 0.7859703898429871,
-      "rewards/rejected": -2.499741315841675,
-      "step": 390
     },
     {
       "epoch": 0.84,
-      "learning_rate": 3.9507259776993954e-08,
-      "logits/chosen": -2.2936933040618896,
-      "logits/rejected": -2.2854199409484863,
-      "logps/chosen": -480.1207580566406,
-      "logps/rejected": -513.3378295898438,
-      "loss": 0.0701,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -1.799607515335083,
-      "rewards/margins": 0.6046558618545532,
-      "rewards/rejected": -2.4042632579803467,
-      "step": 400
     },
     {
       "epoch": 0.84,
-      "eval_logits/chosen": -2.308962821960449,
-      "eval_logits/rejected": -2.293874502182007,
-      "eval_logps/chosen": -431.1672058105469,
-      "eval_logps/rejected": -505.13763427734375,
-      "eval_loss": 0.066147580742836,
-      "eval_rewards/accuracies": 0.73046875,
-      "eval_rewards/chosen": -1.7412760257720947,
-      "eval_rewards/margins": 0.736567497253418,
-      "eval_rewards/rejected": -2.4778432846069336,
-      "eval_runtime": 53.4825,
-      "eval_samples_per_second": 37.395,
-      "eval_steps_per_second": 0.598,
-      "step": 400
     },
     {
       "epoch": 0.86,
-      "learning_rate": 3.022313472693447e-08,
-      "logits/chosen": -2.277277946472168,
-      "logits/rejected": -2.2767410278320312,
-      "logps/chosen": -435.16455078125,
-      "logps/rejected": -461.2994079589844,
-      "loss": 0.0603,
-      "rewards/accuracies": 0.6187499761581421,
-      "rewards/chosen": -1.804751992225647,
-      "rewards/margins": 0.48358744382858276,
-      "rewards/rejected": -2.288339614868164,
-      "step": 410
     },
     {
       "epoch": 0.88,
-      "learning_rate": 2.2111614344599684e-08,
-      "logits/chosen": -2.3244240283966064,
-      "logits/rejected": -2.284036159515381,
-      "logps/chosen": -450.06219482421875,
-      "logps/rejected": -500.8892517089844,
-      "loss": 0.0618,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -1.7236359119415283,
-      "rewards/margins": 0.7886275053024292,
-      "rewards/rejected": -2.512263298034668,
-      "step": 420
     },
     {
       "epoch": 0.9,
-      "learning_rate": 1.521597710086439e-08,
-      "logits/chosen": -2.3295137882232666,
-      "logits/rejected": -2.302218437194824,
-      "logps/chosen": -444.0304260253906,
-      "logps/rejected": -474.77142333984375,
-      "loss": 0.0673,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -1.6907730102539062,
-      "rewards/margins": 0.6004166007041931,
-      "rewards/rejected": -2.291189670562744,
-      "step": 430
     },
     {
       "epoch": 0.92,
-      "learning_rate": 9.57301420397924e-09,
-      "logits/chosen": -2.259145975112915,
-      "logits/rejected": -2.2596850395202637,
-      "logps/chosen": -454.61846923828125,
-      "logps/rejected": -476.06268310546875,
-      "loss": 0.0659,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -1.7635284662246704,
-      "rewards/margins": 0.5943344831466675,
-      "rewards/rejected": -2.357862949371338,
-      "step": 440
     },
     {
-      "epoch": 0.94,
-      "learning_rate": 5.212833302556258e-09,
-      "logits/chosen": -2.273402452468872,
-      "logits/rejected": -2.2525851726531982,
-      "logps/chosen": -453.6072692871094,
-      "logps/rejected": -517.5804443359375,
-      "loss": 0.0617,
       "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -1.7698967456817627,
-      "rewards/margins": 0.757228672504425,
-      "rewards/rejected": -2.527125597000122,
-      "step": 450
     },
     {
       "epoch": 0.96,
-      "learning_rate": 2.158697848236607e-09,
-      "logits/chosen": -2.247382640838623,
-      "logits/rejected": -2.2428948879241943,
-      "logps/chosen": -438.15875244140625,
-      "logps/rejected": -479.6883239746094,
-      "loss": 0.0574,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -1.7285677194595337,
-      "rewards/margins": 0.598854124546051,
-      "rewards/rejected": -2.3274219036102295,
-      "step": 460
     },
     {
       "epoch": 0.98,
-      "learning_rate": 4.269029751107489e-10,
-      "logits/chosen": -2.2946290969848633,
-      "logits/rejected": -2.2678565979003906,
-      "logps/chosen": -454.8968200683594,
-      "logps/rejected": -476.1648864746094,
-      "loss": 0.0635,
       "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.6903413534164429,
-      "rewards/margins": 0.714078962802887,
-      "rewards/rejected": -2.4044203758239746,
-      "step": 470
     },
     {
       "epoch": 1.0,
-      "step": 478,
       "total_flos": 0.0,
-      "train_loss": 0.10338684791800368,
-      "train_runtime": 4299.0388,
-      "train_samples_per_second": 14.22,
-      "train_steps_per_second": 0.111
     }
   ],
   "logging_steps": 10,
-  "max_steps": 478,
   "num_train_epochs": 1,
   "save_steps": 100,
   "total_flos": 0.0,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9996020692399522,
   "eval_steps": 100,
+  "global_step": 1256,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 3.968253968253968e-09,
+      "logits/chosen": -2.7193620204925537,
+      "logits/rejected": -2.698728084564209,
+      "logps/chosen": -182.0961456298828,
+      "logps/rejected": -172.47128295898438,
+      "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
       "step": 1
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 3.968253968253968e-08,
+      "logits/chosen": -2.7041964530944824,
+      "logits/rejected": -2.6794540882110596,
+      "logps/chosen": -162.45831298828125,
+      "logps/rejected": -140.5693359375,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.5486111044883728,
+      "rewards/chosen": 0.00032037965138442814,
+      "rewards/margins": 0.0004935775068588555,
+      "rewards/rejected": -0.00017319784092251211,
       "step": 10
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 7.936507936507936e-08,
+      "logits/chosen": -2.7177577018737793,
+      "logits/rejected": -2.7136425971984863,
+      "logps/chosen": -134.47242736816406,
+      "logps/rejected": -143.55604553222656,
+      "loss": 0.6931,
       "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": 8.780837379163131e-05,
+      "rewards/margins": 0.00010721785656642169,
+      "rewards/rejected": -1.940951551659964e-05,
       "step": 20
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.1904761904761903e-07,
+      "logits/chosen": -2.6898293495178223,
+      "logits/rejected": -2.676154613494873,
+      "logps/chosen": -140.94692993164062,
+      "logps/rejected": -136.50369262695312,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": 0.0005466601578518748,
+      "rewards/margins": -0.00021456097601912916,
+      "rewards/rejected": 0.0007612211629748344,
       "step": 30
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 1.5873015873015872e-07,
+      "logits/chosen": -2.6958394050598145,
+      "logits/rejected": -2.686532974243164,
+      "logps/chosen": -134.98963928222656,
+      "logps/rejected": -144.46652221679688,
+      "loss": 0.6928,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": 0.0015748919686302543,
+      "rewards/margins": 0.0009769219905138016,
+      "rewards/rejected": 0.0005979698617011309,
       "step": 40
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 1.984126984126984e-07,
+      "logits/chosen": -2.7042899131774902,
+      "logits/rejected": -2.6861345767974854,
+      "logps/chosen": -149.71768188476562,
+      "logps/rejected": -145.0757293701172,
+      "loss": 0.6921,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": 0.005199921317398548,
+      "rewards/margins": 0.0022330707870423794,
+      "rewards/rejected": 0.0029668500646948814,
       "step": 50
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 2.3809523809523806e-07,
+      "logits/chosen": -2.705153703689575,
+      "logits/rejected": -2.685439348220825,
+      "logps/chosen": -154.3783416748047,
+      "logps/rejected": -151.54519653320312,
+      "loss": 0.6912,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": 0.00569504126906395,
+      "rewards/margins": 0.0022000311873853207,
+      "rewards/rejected": 0.003495010081678629,
       "step": 60
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 2.7777777777777776e-07,
+      "logits/chosen": -2.7017154693603516,
+      "logits/rejected": -2.6924962997436523,
+      "logps/chosen": -146.3284149169922,
+      "logps/rejected": -138.79405212402344,
+      "loss": 0.6885,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": 0.010588793084025383,
+      "rewards/margins": 0.010192448273301125,
+      "rewards/rejected": 0.00039634370477870107,
       "step": 70
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 3.1746031746031743e-07,
+      "logits/chosen": -2.7155232429504395,
+      "logits/rejected": -2.696071147918701,
+      "logps/chosen": -141.80067443847656,
+      "logps/rejected": -147.0068817138672,
+      "loss": 0.6867,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": 0.0049073463305830956,
+      "rewards/margins": 0.013599385507404804,
+      "rewards/rejected": -0.008692039176821709,
       "step": 80
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 3.5714285714285716e-07,
+      "logits/chosen": -2.7175304889678955,
+      "logits/rejected": -2.7080624103546143,
+      "logps/chosen": -153.12509155273438,
+      "logps/rejected": -146.53590393066406,
+      "loss": 0.6847,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.028871387243270874,
+      "rewards/margins": 0.017175236716866493,
+      "rewards/rejected": -0.046046625822782516,
       "step": 90
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 3.968253968253968e-07,
+      "logits/chosen": -2.7524733543395996,
+      "logits/rejected": -2.7452526092529297,
+      "logps/chosen": -163.88070678710938,
+      "logps/rejected": -163.61032104492188,
+      "loss": 0.6789,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.0662173330783844,
+      "rewards/margins": 0.02977912127971649,
+      "rewards/rejected": -0.09599645435810089,
       "step": 100
     },
     {
+      "epoch": 0.08,
+      "eval_logits/chosen": -2.7336502075195312,
+      "eval_logits/rejected": -2.7255024909973145,
+      "eval_logps/chosen": -155.19271850585938,
+      "eval_logps/rejected": -165.35523986816406,
+      "eval_loss": 0.6769910454750061,
+      "eval_rewards/accuracies": 0.5914179086685181,
+      "eval_rewards/chosen": -0.10619194805622101,
+      "eval_rewards/margins": 0.03601696714758873,
+      "eval_rewards/rejected": -0.14220890402793884,
+      "eval_runtime": 184.3291,
+      "eval_samples_per_second": 46.395,
+      "eval_steps_per_second": 0.727,
       "step": 100
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 4.365079365079365e-07,
+      "logits/chosen": -2.738532543182373,
+      "logits/rejected": -2.7273170948028564,
+      "logps/chosen": -164.2928009033203,
+      "logps/rejected": -160.19398498535156,
+      "loss": 0.6738,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.16211798787117004,
+      "rewards/margins": 0.03163355216383934,
+      "rewards/rejected": -0.19375154376029968,
       "step": 110
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 4.761904761904761e-07,
+      "logits/chosen": -2.7289297580718994,
+      "logits/rejected": -2.705962657928467,
+      "logps/chosen": -196.69662475585938,
+      "logps/rejected": -197.2833251953125,
+      "loss": 0.661,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.2917623221874237,
+      "rewards/margins": 0.08966299891471863,
+      "rewards/rejected": -0.38142532110214233,
       "step": 120
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 4.999845414634076e-07,
+      "logits/chosen": -2.658005475997925,
+      "logits/rejected": -2.6317684650421143,
+      "logps/chosen": -187.4532928466797,
+      "logps/rejected": -188.37689208984375,
+      "loss": 0.6542,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.3956056833267212,
+      "rewards/margins": 0.12092368304729462,
+      "rewards/rejected": -0.5165294408798218,
       "step": 130
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 4.998106548810311e-07,
+      "logits/chosen": -2.6906683444976807,
+      "logits/rejected": -2.6913747787475586,
+      "logps/chosen": -199.67568969726562,
+      "logps/rejected": -253.02487182617188,
+      "loss": 0.6171,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.4227059781551361,
+      "rewards/margins": 0.27536457777023315,
+      "rewards/rejected": -0.6980706453323364,
       "step": 140
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 4.994436933879359e-07,
+      "logits/chosen": -2.6662166118621826,
+      "logits/rejected": -2.644784927368164,
+      "logps/chosen": -197.07180786132812,
+      "logps/rejected": -198.4012908935547,
+      "loss": 0.6395,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.3597154915332794,
+      "rewards/margins": 0.13716872036457062,
+      "rewards/rejected": -0.49688419699668884,
       "step": 150
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 4.988839406031596e-07,
+      "logits/chosen": -2.647681474685669,
+      "logits/rejected": -2.6395888328552246,
+      "logps/chosen": -182.04420471191406,
+      "logps/rejected": -206.59780883789062,
+      "loss": 0.629,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.3573477864265442,
+      "rewards/margins": 0.2222837507724762,
+      "rewards/rejected": -0.579631507396698,
       "step": 160
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 4.981318291512395e-07,
+      "logits/chosen": -2.619232654571533,
+      "logits/rejected": -2.598362684249878,
+      "logps/chosen": -227.0933380126953,
+      "logps/rejected": -230.9747772216797,
+      "loss": 0.6242,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.7434185743331909,
+      "rewards/margins": 0.21749505400657654,
+      "rewards/rejected": -0.9609137773513794,
       "step": 170
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 4.971879403278432e-07,
+      "logits/chosen": -2.5654754638671875,
+      "logits/rejected": -2.5364232063293457,
+      "logps/chosen": -241.6617431640625,
+      "logps/rejected": -245.66268920898438,
+      "loss": 0.6151,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.7342535257339478,
+      "rewards/margins": 0.23685339093208313,
+      "rewards/rejected": -0.9711068868637085,
       "step": 180
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 4.960530036504941e-07,
+      "logits/chosen": -2.5271048545837402,
+      "logits/rejected": -2.486818790435791,
+      "logps/chosen": -235.6089630126953,
+      "logps/rejected": -251.17758178710938,
+      "loss": 0.6215,
       "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.807177722454071,
+      "rewards/margins": 0.28561535477638245,
+      "rewards/rejected": -1.0927931070327759,
       "step": 190
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 4.947278962947386e-07,
+      "logits/chosen": -2.4217896461486816,
+      "logits/rejected": -2.413295269012451,
+      "logps/chosen": -251.0736083984375,
+      "logps/rejected": -268.6098937988281,
+      "loss": 0.6062,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -1.086307406425476,
+      "rewards/margins": 0.24874301254749298,
+      "rewards/rejected": -1.3350504636764526,
       "step": 200
     },
     {
+      "epoch": 0.16,
+      "eval_logits/chosen": -2.3855514526367188,
+      "eval_logits/rejected": -2.369593858718872,
+      "eval_logps/chosen": -246.6970672607422,
+      "eval_logps/rejected": -289.8621826171875,
+      "eval_loss": 0.6079375743865967,
+      "eval_rewards/accuracies": 0.66697758436203,
+      "eval_rewards/chosen": -1.021235704421997,
+      "eval_rewards/margins": 0.3660426437854767,
+      "eval_rewards/rejected": -1.3872781991958618,
+      "eval_runtime": 184.172,
+      "eval_samples_per_second": 46.435,
+      "eval_steps_per_second": 0.728,
       "step": 200
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 4.932136424161899e-07,
+      "logits/chosen": -2.3366785049438477,
+      "logits/rejected": -2.3228511810302734,
+      "logps/chosen": -266.292236328125,
+      "logps/rejected": -300.22894287109375,
+      "loss": 0.5893,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -1.2130026817321777,
+      "rewards/margins": 0.3487839996814728,
+      "rewards/rejected": -1.5617868900299072,
       "step": 210
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 4.915114123589732e-07,
+      "logits/chosen": -2.321228504180908,
+      "logits/rejected": -2.3033699989318848,
+      "logps/chosen": -336.34161376953125,
+      "logps/rejected": -373.39935302734375,
+      "loss": 0.612,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -1.9529145956039429,
+      "rewards/margins": 0.2863468527793884,
+      "rewards/rejected": -2.2392613887786865,
       "step": 220
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 4.896225217511849e-07,
+      "logits/chosen": -2.4310107231140137,
+      "logits/rejected": -2.422048568725586,
+      "logps/chosen": -291.1025695800781,
+      "logps/rejected": -328.18963623046875,
+      "loss": 0.6079,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -1.4314143657684326,
+      "rewards/margins": 0.3364001214504242,
+      "rewards/rejected": -1.7678143978118896,
       "step": 230
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 4.875484304880629e-07,
+      "logits/chosen": -2.3412394523620605,
+      "logits/rejected": -2.309183120727539,
+      "logps/chosen": -280.8785705566406,
+      "logps/rejected": -308.54132080078125,
+      "loss": 0.613,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -1.309309482574463,
+      "rewards/margins": 0.3731766939163208,
+      "rewards/rejected": -1.6824861764907837,
       "step": 240
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 4.852907416036558e-07,
+      "logits/chosen": -2.415271282196045,
+      "logits/rejected": -2.4072234630584717,
+      "logps/chosen": -243.56332397460938,
+      "logps/rejected": -298.7532043457031,
+      "loss": 0.591,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.967076301574707,
+      "rewards/margins": 0.4581146240234375,
+      "rewards/rejected": -1.4251911640167236,
       "step": 250
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 4.828512000318616e-07,
+      "logits/chosen": -2.3924427032470703,
+      "logits/rejected": -2.3613152503967285,
+      "logps/chosen": -266.86572265625,
+      "logps/rejected": -304.2983093261719,
+      "loss": 0.5986,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -1.2214807271957397,
+      "rewards/margins": 0.4553411602973938,
+      "rewards/rejected": -1.6768219470977783,
       "step": 260
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 4.802316912577946e-07,
+      "logits/chosen": -2.4108529090881348,
+      "logits/rejected": -2.3902478218078613,
+      "logps/chosen": -252.7959442138672,
+      "logps/rejected": -295.266357421875,
+      "loss": 0.5917,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.0824626684188843,
+      "rewards/margins": 0.39643940329551697,
+      "rewards/rejected": -1.4789022207260132,
       "step": 270
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 4.774342398605221e-07,
+      "logits/chosen": -2.3505263328552246,
+      "logits/rejected": -2.2942967414855957,
+      "logps/chosen": -279.871337890625,
+      "logps/rejected": -300.4220886230469,
+      "loss": 0.5979,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -1.1787078380584717,
+      "rewards/margins": 0.430286169052124,
+      "rewards/rejected": -1.6089938879013062,
       "step": 280
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 4.744610079482978e-07,
+      "logits/chosen": -2.3269264698028564,
+      "logits/rejected": -2.2910802364349365,
+      "logps/chosen": -255.27706909179688,
+      "logps/rejected": -281.60137939453125,
+      "loss": 0.5853,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.1753785610198975,
+      "rewards/margins": 0.3495523929595947,
+      "rewards/rejected": -1.5249310731887817,
       "step": 290
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 4.713142934875005e-07,
+      "logits/chosen": -2.2868428230285645,
+      "logits/rejected": -2.2631592750549316,
+      "logps/chosen": -284.2200012207031,
+      "logps/rejected": -322.45269775390625,
+      "loss": 0.5965,
       "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -1.336501955986023,
+      "rewards/margins": 0.3968800902366638,
+      "rewards/rejected": -1.733382225036621,
       "step": 300
     },
     {
+      "epoch": 0.24,
+      "eval_logits/chosen": -2.265592098236084,
+      "eval_logits/rejected": -2.244987964630127,
+      "eval_logps/chosen": -282.3620910644531,
+      "eval_logps/rejected": -331.2099609375,
+      "eval_loss": 0.5907339453697205,
+      "eval_rewards/accuracies": 0.6623134613037109,
+      "eval_rewards/chosen": -1.3778856992721558,
+      "eval_rewards/margins": 0.42287060618400574,
+      "eval_rewards/rejected": -1.8007562160491943,
+      "eval_runtime": 184.1739,
+      "eval_samples_per_second": 46.434,
+      "eval_steps_per_second": 0.728,
       "step": 300
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 4.679965285265706e-07,
+      "logits/chosen": -2.2354235649108887,
+      "logits/rejected": -2.23685884475708,
+      "logps/chosen": -277.09283447265625,
+      "logps/rejected": -347.7145080566406,
+      "loss": 0.5612,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.3514426946640015,
+      "rewards/margins": 0.4907970428466797,
+      "rewards/rejected": -1.8422397375106812,
       "step": 310
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 4.64510277316316e-07,
+      "logits/chosen": -2.2262344360351562,
+      "logits/rejected": -2.226029634475708,
+      "logps/chosen": -271.74212646484375,
+      "logps/rejected": -332.5010986328125,
+      "loss": 0.5903,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -1.3337775468826294,
+      "rewards/margins": 0.39512914419174194,
+      "rewards/rejected": -1.7289068698883057,
       "step": 320
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 4.6085823432804137e-07,
+      "logits/chosen": -2.2451891899108887,
+      "logits/rejected": -2.2502384185791016,
+      "logps/chosen": -250.6347198486328,
+      "logps/rejected": -333.8939208984375,
+      "loss": 0.5722,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.1326004266738892,
+      "rewards/margins": 0.5066065192222595,
+      "rewards/rejected": -1.639206886291504,
       "step": 330
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 4.570432221710314e-07,
+      "logits/chosen": -2.0656931400299072,
+      "logits/rejected": -2.0213730335235596,
+      "logps/chosen": -318.232177734375,
+      "logps/rejected": -369.13311767578125,
+      "loss": 0.5766,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.584176778793335,
+      "rewards/margins": 0.5901076197624207,
+      "rewards/rejected": -2.1742844581604004,
       "step": 340
     },
+    {
+      "epoch": 0.28,
+      "learning_rate": 4.5306818941099866e-07,
+      "logits/chosen": -1.9084612131118774,
+      "logits/rejected": -1.8514792919158936,
+      "logps/chosen": -316.9821472167969,
+      "logps/rejected": -352.9412841796875,
+      "loss": 0.5825,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -1.5627154111862183,
+      "rewards/margins": 0.5152220726013184,
+      "rewards/rejected": -2.077937364578247,
+      "step": 350
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.4893620829118124e-07,
+      "logits/chosen": -1.8860156536102295,
+      "logits/rejected": -1.8301204442977905,
+      "logps/chosen": -309.8200378417969,
+      "logps/rejected": -362.0408935546875,
+      "loss": 0.5755,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -1.5869390964508057,
+      "rewards/margins": 0.49348369240760803,
+      "rewards/rejected": -2.080422878265381,
+      "step": 360
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.4465047235785185e-07,
+      "logits/chosen": -1.6610889434814453,
+      "logits/rejected": -1.585129737854004,
+      "logps/chosen": -321.8608703613281,
+      "logps/rejected": -380.31036376953125,
+      "loss": 0.5697,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.774713158607483,
+      "rewards/margins": 0.6593302488327026,
+      "rewards/rejected": -2.4340434074401855,
+      "step": 370
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.40214293992074e-07,
+      "logits/chosen": -1.385825753211975,
+      "logits/rejected": -1.31913161277771,
+      "logps/chosen": -377.07269287109375,
+      "logps/rejected": -459.5557556152344,
+      "loss": 0.5818,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -2.1890993118286133,
+      "rewards/margins": 0.7521292567253113,
+      "rewards/rejected": -2.9412286281585693,
+      "step": 380
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 4.3563110184961234e-07,
+      "logits/chosen": -1.5089499950408936,
+      "logits/rejected": -1.4075387716293335,
+      "logps/chosen": -338.3626708984375,
+      "logps/rejected": -396.67578125,
+      "loss": 0.5584,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.9042552709579468,
+      "rewards/margins": 0.5932050347328186,
+      "rewards/rejected": -2.49746036529541,
+      "step": 390
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.3090443821097566e-07,
+      "logits/chosen": -1.2587625980377197,
+      "logits/rejected": -1.2017955780029297,
+      "logps/chosen": -309.43377685546875,
+      "logps/rejected": -372.00531005859375,
+      "loss": 0.5729,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -1.9031288623809814,
+      "rewards/margins": 0.5602144598960876,
+      "rewards/rejected": -2.4633431434631348,
+      "step": 400
+    },
+    {
+      "epoch": 0.32,
+      "eval_logits/chosen": -1.3760210275650024,
+      "eval_logits/rejected": -1.2920024394989014,
+      "eval_logps/chosen": -312.20635986328125,
+      "eval_logps/rejected": -375.1720275878906,
+      "eval_loss": 0.5711147785186768,
+      "eval_rewards/accuracies": 0.6828358173370361,
+      "eval_rewards/chosen": -1.676328182220459,
+      "eval_rewards/margins": 0.5640482306480408,
+      "eval_rewards/rejected": -2.2403764724731445,
+      "eval_runtime": 184.465,
+      "eval_samples_per_second": 46.361,
+      "eval_steps_per_second": 0.726,
+      "step": 400
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.2603795624364195e-07,
+      "logits/chosen": -1.2894772291183472,
+      "logits/rejected": -1.23129141330719,
+      "logps/chosen": -299.457275390625,
+      "logps/rejected": -370.8555908203125,
+      "loss": 0.5666,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.6054102182388306,
+      "rewards/margins": 0.5984233021736145,
+      "rewards/rejected": -2.203833818435669,
+      "step": 410
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.210354171785795e-07,
+      "logits/chosen": -1.022984266281128,
+      "logits/rejected": -0.9285897016525269,
+      "logps/chosen": -324.4284973144531,
+      "logps/rejected": -385.0074157714844,
+      "loss": 0.5596,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.921677589416504,
+      "rewards/margins": 0.5404387712478638,
+      "rewards/rejected": -2.4621164798736572,
+      "step": 420
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.15900687403248e-07,
+      "logits/chosen": -0.8059805631637573,
+      "logits/rejected": -0.7196700572967529,
+      "logps/chosen": -353.788330078125,
+      "logps/rejected": -411.4853515625,
+      "loss": 0.5865,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -2.1321234703063965,
+      "rewards/margins": 0.463266521692276,
+      "rewards/rejected": -2.5953898429870605,
+      "step": 430
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.1063773547332584e-07,
+      "logits/chosen": -0.9645301699638367,
+      "logits/rejected": -0.7601315975189209,
+      "logps/chosen": -346.8272705078125,
+      "logps/rejected": -392.2935791015625,
+      "loss": 0.5591,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.9153356552124023,
+      "rewards/margins": 0.5891679525375366,
+      "rewards/rejected": -2.5045037269592285,
+      "step": 440
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 4.0525062904547276e-07,
+      "logits/chosen": -0.608537495136261,
+      "logits/rejected": -0.47767123579978943,
+      "logps/chosen": -341.55364990234375,
+      "logps/rejected": -434.1073303222656,
+      "loss": 0.5687,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.105318069458008,
+      "rewards/margins": 0.6994394659996033,
+      "rewards/rejected": -2.8047571182250977,
+      "step": 450
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 3.997435317334988e-07,
+      "logits/chosen": -0.6356207132339478,
+      "logits/rejected": -0.25634175539016724,
+      "logps/chosen": -384.43780517578125,
+      "logps/rejected": -419.24176025390625,
+      "loss": 0.5608,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.2970900535583496,
+      "rewards/margins": 0.6535100340843201,
+      "rewards/rejected": -2.9506001472473145,
+      "step": 460
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 3.941206998903701e-07,
+      "logits/chosen": -1.0318920612335205,
+      "logits/rejected": -0.7451022267341614,
+      "logps/chosen": -338.9430236816406,
+      "logps/rejected": -384.64111328125,
+      "loss": 0.5678,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.9643396139144897,
+      "rewards/margins": 0.5402536392211914,
+      "rewards/rejected": -2.5045928955078125,
+      "step": 470
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.8838647931853684e-07,
+      "logits/chosen": -0.6847028732299805,
+      "logits/rejected": -0.5548251867294312,
+      "logps/chosen": -339.61456298828125,
+      "logps/rejected": -435.32061767578125,
+      "loss": 0.5814,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -2.1349122524261475,
+      "rewards/margins": 0.7573872804641724,
+      "rewards/rejected": -2.8923001289367676,
+      "step": 480
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 3.825453019111281e-07,
+      "logits/chosen": -0.5378957986831665,
+      "logits/rejected": -0.28533270955085754,
+      "logps/chosen": -363.78570556640625,
+      "logps/rejected": -430.11749267578125,
+      "loss": 0.5327,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -2.134934425354004,
+      "rewards/margins": 0.6089809536933899,
+      "rewards/rejected": -2.743915319442749,
+      "step": 490
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 3.7660168222660824e-07,
+      "logits/chosen": -0.6318235397338867,
+      "logits/rejected": -0.5071814656257629,
+      "logps/chosen": -350.5252380371094,
+      "logps/rejected": -421.93353271484375,
+      "loss": 0.5645,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -2.062009572982788,
+      "rewards/margins": 0.5333147048950195,
+      "rewards/rejected": -2.5953242778778076,
+      "step": 500
+    },
+    {
+      "epoch": 0.4,
+      "eval_logits/chosen": -0.7860146760940552,
+      "eval_logits/rejected": -0.6090859770774841,
+      "eval_logps/chosen": -351.7882995605469,
+      "eval_logps/rejected": -419.81939697265625,
+      "eval_loss": 0.5639454126358032,
+      "eval_rewards/accuracies": 0.6986940503120422,
+      "eval_rewards/chosen": -2.0721471309661865,
+      "eval_rewards/margins": 0.6147031188011169,
+      "eval_rewards/rejected": -2.6868505477905273,
+      "eval_runtime": 184.5772,
+      "eval_samples_per_second": 46.333,
+      "eval_steps_per_second": 0.726,
+      "step": 500
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 3.705602139995416e-07,
+      "logits/chosen": -0.7258490920066833,
+      "logits/rejected": -0.4828409254550934,
+      "logps/chosen": -388.1371154785156,
+      "logps/rejected": -422.11181640625,
+      "loss": 0.574,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -2.290266513824463,
+      "rewards/margins": 0.4104091227054596,
+      "rewards/rejected": -2.7006754875183105,
+      "step": 510
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 3.6442556659016475e-07,
+      "logits/chosen": -0.5335447192192078,
+      "logits/rejected": -0.33706527948379517,
+      "logps/chosen": -378.86492919921875,
+      "logps/rejected": -429.67724609375,
+      "loss": 0.5608,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.236337423324585,
+      "rewards/margins": 0.556148886680603,
+      "rewards/rejected": -2.7924864292144775,
+      "step": 520
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 3.582024813755076e-07,
+      "logits/chosen": -0.39548322558403015,
+      "logits/rejected": -0.10662730038166046,
+      "logps/chosen": -368.8847961425781,
+      "logps/rejected": -473.3500061035156,
+      "loss": 0.5485,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.3263449668884277,
+      "rewards/margins": 0.8236624598503113,
+      "rewards/rejected": -3.150007724761963,
+      "step": 530
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 3.5189576808485404e-07,
+      "logits/chosen": 0.15742243826389313,
+      "logits/rejected": 0.31491726636886597,
+      "logps/chosen": -394.34930419921875,
+      "logps/rejected": -492.82232666015625,
+      "loss": 0.5478,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -2.6109700202941895,
+      "rewards/margins": 0.8250136375427246,
+      "rewards/rejected": -3.435983657836914,
+      "step": 540
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 3.4551030108237433e-07,
+      "logits/chosen": -0.2550584375858307,
+      "logits/rejected": -0.06936412304639816,
+      "logps/chosen": -406.5508728027344,
+      "logps/rejected": -448.47576904296875,
+      "loss": 0.5562,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -2.5152666568756104,
+      "rewards/margins": 0.4819938540458679,
+      "rewards/rejected": -2.997260332107544,
+      "step": 550
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 3.390510155998023e-07,
+      "logits/chosen": -0.5292027592658997,
+      "logits/rejected": -0.2619571387767792,
+      "logps/chosen": -371.6798095703125,
+      "logps/rejected": -420.7915954589844,
+      "loss": 0.5492,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -2.1147050857543945,
+      "rewards/margins": 0.6524336338043213,
+      "rewards/rejected": -2.7671384811401367,
+      "step": 560
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 3.325229039220684e-07,
+      "logits/chosen": -0.5881962776184082,
+      "logits/rejected": -0.4658876061439514,
+      "logps/chosen": -343.7039794921875,
+      "logps/rejected": -406.14178466796875,
+      "loss": 0.57,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -2.0860273838043213,
+      "rewards/margins": 0.498068630695343,
+      "rewards/rejected": -2.5840957164764404,
+      "step": 570
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 3.2593101152883795e-07,
+      "logits/chosen": -0.6565806269645691,
+      "logits/rejected": -0.2549567222595215,
+      "logps/chosen": -374.8047180175781,
+      "logps/rejected": -430.33221435546875,
+      "loss": 0.5512,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -2.2211391925811768,
+      "rewards/margins": 0.6813799142837524,
+      "rewards/rejected": -2.9025187492370605,
+      "step": 580
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 3.192804331949349e-07,
+      "logits/chosen": -0.07184700667858124,
+      "logits/rejected": 0.1699156016111374,
+      "logps/chosen": -422.27081298828125,
+      "logps/rejected": -490.69134521484375,
+      "loss": 0.535,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.730973720550537,
+      "rewards/margins": 0.7726518511772156,
+      "rewards/rejected": -3.5036251544952393,
+      "step": 590
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 3.125763090526674e-07,
+      "logits/chosen": -0.029465889558196068,
+      "logits/rejected": 0.15842057764530182,
+      "logps/chosen": -417.373046875,
+      "logps/rejected": -478.73291015625,
+      "loss": 0.5513,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -2.8006317615509033,
+      "rewards/margins": 0.6451797485351562,
+      "rewards/rejected": -3.4458115100860596,
+      "step": 600
+    },
+    {
+      "epoch": 0.48,
+      "eval_logits/chosen": -0.10542195290327072,
+      "eval_logits/rejected": 0.12242482602596283,
+      "eval_logps/chosen": -436.9386291503906,
+      "eval_logps/rejected": -505.02227783203125,
+      "eval_loss": 0.5582411885261536,
+      "eval_rewards/accuracies": 0.7108209133148193,
+      "eval_rewards/chosen": -2.9236514568328857,
+      "eval_rewards/margins": 0.6152271032333374,
+      "eval_rewards/rejected": -3.5388784408569336,
+      "eval_runtime": 184.6013,
+      "eval_samples_per_second": 46.327,
+      "eval_steps_per_second": 0.726,
+      "step": 600
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 3.0582382061909623e-07,
+      "logits/chosen": -0.2445104569196701,
+      "logits/rejected": -0.018268002197146416,
+      "logps/chosen": -441.7857971191406,
+      "logps/rejected": -502.60791015625,
+      "loss": 0.5594,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -2.858261823654175,
+      "rewards/margins": 0.5510683655738831,
+      "rewards/rejected": -3.409330368041992,
+      "step": 610
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 2.9902818679131775e-07,
+      "logits/chosen": -0.4190225601196289,
+      "logits/rejected": -0.22823679447174072,
+      "logps/chosen": -399.03924560546875,
+      "logps/rejected": -498.6724548339844,
+      "loss": 0.5499,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -2.650449275970459,
+      "rewards/margins": 0.7673205137252808,
+      "rewards/rejected": -3.4177703857421875,
+      "step": 620
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.921946598128571e-07,
+      "logits/chosen": -0.43653860688209534,
+      "logits/rejected": -0.20837187767028809,
+      "logps/chosen": -402.82781982421875,
+      "logps/rejected": -485.4117736816406,
+      "loss": 0.5739,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -2.573000192642212,
+      "rewards/margins": 0.7478531002998352,
+      "rewards/rejected": -3.3208529949188232,
+      "step": 630
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 2.8532852121428733e-07,
+      "logits/chosen": -0.43430274724960327,
+      "logits/rejected": -0.13240045309066772,
+      "logps/chosen": -397.2491149902344,
+      "logps/rejected": -442.12384033203125,
+      "loss": 0.5462,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -2.4125733375549316,
+      "rewards/margins": 0.5821372866630554,
+      "rewards/rejected": -2.9947104454040527,
+      "step": 640
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 2.7843507773121414e-07,
+      "logits/chosen": -0.4247920513153076,
+      "logits/rejected": -0.21372787654399872,
+      "logps/chosen": -389.4237976074219,
+      "logps/rejected": -458.3169860839844,
+      "loss": 0.5373,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -2.444688320159912,
+      "rewards/margins": 0.7236617207527161,
+      "rewards/rejected": -3.1683506965637207,
+      "step": 650
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.715196572027789e-07,
+      "logits/chosen": -0.6697942614555359,
+      "logits/rejected": -0.4933086931705475,
+      "logps/chosen": -387.529296875,
+      "logps/rejected": -472.73944091796875,
+      "loss": 0.5685,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -2.3496451377868652,
+      "rewards/margins": 0.7728831171989441,
+      "rewards/rejected": -3.122528314590454,
+      "step": 660
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.645876044538521e-07,
+      "logits/chosen": -1.0338900089263916,
+      "logits/rejected": -0.8813627362251282,
+      "logps/chosen": -372.53118896484375,
+      "logps/rejected": -426.54241943359375,
+      "loss": 0.5725,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -2.201908588409424,
+      "rewards/margins": 0.5010865926742554,
+      "rewards/rejected": -2.7029950618743896,
+      "step": 670
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 2.5764427716409815e-07,
+      "logits/chosen": -0.9278701543807983,
+      "logits/rejected": -0.7282145023345947,
+      "logps/chosen": -347.2828674316406,
+      "logps/rejected": -416.9349060058594,
+      "loss": 0.5479,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -2.0276436805725098,
+      "rewards/margins": 0.743033230304718,
+      "rewards/rejected": -2.770677089691162,
+      "step": 680
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 2.5069504172710494e-07,
+      "logits/chosen": -0.5008482336997986,
+      "logits/rejected": -0.34875133633613586,
+      "logps/chosen": -373.7621154785156,
+      "logps/rejected": -485.12884521484375,
+      "loss": 0.5217,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.347053050994873,
+      "rewards/margins": 0.9024646878242493,
+      "rewards/rejected": -3.2495174407958984,
+      "step": 690
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 2.4374526910277886e-07,
+      "logits/chosen": 0.06850005686283112,
+      "logits/rejected": 0.41385045647621155,
+      "logps/chosen": -411.46246337890625,
+      "logps/rejected": -476.6162109375,
+      "loss": 0.5571,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -2.6757898330688477,
+      "rewards/margins": 0.8085702657699585,
+      "rewards/rejected": -3.4843602180480957,
+      "step": 700
+    },
+    {
+      "epoch": 0.56,
+      "eval_logits/chosen": 0.035554468631744385,
+      "eval_logits/rejected": 0.2980235815048218,
+      "eval_logps/chosen": -424.2823486328125,
+      "eval_logps/rejected": -505.6960754394531,
+      "eval_loss": 0.5558871626853943,
+      "eval_rewards/accuracies": 0.704291045665741,
+      "eval_rewards/chosen": -2.797088146209717,
+      "eval_rewards/margins": 0.748529314994812,
+      "eval_rewards/rejected": -3.5456173419952393,
+      "eval_runtime": 184.3728,
+      "eval_samples_per_second": 46.384,
+      "eval_steps_per_second": 0.727,
+      "step": 700
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 2.368003306662104e-07,
+      "logits/chosen": 0.07857178151607513,
+      "logits/rejected": 0.3302653729915619,
+      "logps/chosen": -413.8836975097656,
+      "logps/rejected": -535.0875244140625,
+      "loss": 0.5287,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.7193782329559326,
+      "rewards/margins": 1.0089346170425415,
+      "rewards/rejected": -3.7283127307891846,
+      "step": 710
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 2.2986559405621886e-07,
+      "logits/chosen": 0.2789291739463806,
+      "logits/rejected": 0.4242584705352783,
+      "logps/chosen": -422.7801818847656,
+      "logps/rejected": -522.7840576171875,
+      "loss": 0.5551,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.925621509552002,
+      "rewards/margins": 0.8043605089187622,
+      "rewards/rejected": -3.729982376098633,
+      "step": 720
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.2294641902678443e-07,
+      "logits/chosen": -0.19327735900878906,
+      "logits/rejected": 0.043265581130981445,
+      "logps/chosen": -363.1488342285156,
+      "logps/rejected": -470.94970703125,
+      "loss": 0.5284,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -2.39530873298645,
+      "rewards/margins": 0.908363938331604,
+      "rewards/rejected": -3.3036727905273438,
+      "step": 730
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 2.160481533045751e-07,
+      "logits/chosen": -0.37412697076797485,
+      "logits/rejected": -0.17320053279399872,
+      "logps/chosen": -390.2896423339844,
+      "logps/rejected": -428.08099365234375,
+      "loss": 0.5572,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -2.3005330562591553,
+      "rewards/margins": 0.48462891578674316,
+      "rewards/rejected": -2.7851624488830566,
+      "step": 740
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 2.0917612845576882e-07,
+      "logits/chosen": -0.26352375745773315,
+      "logits/rejected": -0.0010178961092606187,
+      "logps/chosen": -373.3875427246094,
+      "logps/rejected": -440.09442138671875,
+      "loss": 0.5534,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -2.3315823078155518,
+      "rewards/margins": 0.6843063235282898,
+      "rewards/rejected": -3.0158886909484863,
+      "step": 750
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 2.0233565576536564e-07,
+      "logits/chosen": -0.3354080021381378,
+      "logits/rejected": -0.006600166670978069,
+      "logps/chosen": -360.56463623046875,
+      "logps/rejected": -440.66961669921875,
+      "loss": 0.5328,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -2.1626803874969482,
+      "rewards/margins": 0.8473829030990601,
+      "rewards/rejected": -3.010063409805298,
+      "step": 760
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.9553202213217537e-07,
+      "logits/chosen": -0.021420275792479515,
+      "logits/rejected": 0.19946305453777313,
+      "logps/chosen": -389.1043395996094,
+      "logps/rejected": -448.04998779296875,
+      "loss": 0.5523,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.391838788986206,
+      "rewards/margins": 0.6678962707519531,
+      "rewards/rejected": -3.059735059738159,
+      "step": 770
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.887704859826528e-07,
+      "logits/chosen": -0.15253478288650513,
+      "logits/rejected": -0.00011998042464256287,
+      "logps/chosen": -394.9501953125,
+      "logps/rejected": -462.32843017578125,
+      "loss": 0.5443,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -2.476644992828369,
+      "rewards/margins": 0.566824734210968,
+      "rewards/rejected": -3.0434699058532715,
+      "step": 780
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 1.8205627320673836e-07,
+      "logits/chosen": -0.17955633997917175,
+      "logits/rejected": 0.18167546391487122,
+      "logps/chosen": -390.32244873046875,
+      "logps/rejected": -444.895263671875,
+      "loss": 0.5566,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -2.4376220703125,
+      "rewards/margins": 0.7008293271064758,
+      "rewards/rejected": -3.138451099395752,
+      "step": 790
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.7539457311884675e-07,
+      "logits/chosen": -0.09838727861642838,
+      "logits/rejected": 0.11829495429992676,
+      "logps/chosen": -402.4017333984375,
+      "logps/rejected": -451.49346923828125,
+      "loss": 0.5609,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -2.4441986083984375,
+      "rewards/margins": 0.5067789554595947,
+      "rewards/rejected": -2.9509775638580322,
+      "step": 800
+    },
+    {
+      "epoch": 0.64,
+      "eval_logits/chosen": -0.03116540051996708,
+      "eval_logits/rejected": 0.1922437697649002,
+      "eval_logps/chosen": -387.7091979980469,
+      "eval_logps/rejected": -459.44390869140625,
+      "eval_loss": 0.5468714833259583,
+      "eval_rewards/accuracies": 0.7108209133148193,
+      "eval_rewards/chosen": -2.431356430053711,
+      "eval_rewards/margins": 0.6517390012741089,
+      "eval_rewards/rejected": -3.0830955505371094,
+      "eval_runtime": 184.5893,
+      "eval_samples_per_second": 46.33,
+      "eval_steps_per_second": 0.726,
+      "step": 800
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.687905344471226e-07,
+      "logits/chosen": 0.07735608518123627,
+      "logits/rejected": 0.3973601460456848,
+      "logps/chosen": -408.05999755859375,
+      "logps/rejected": -459.011474609375,
+      "loss": 0.5384,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -2.5008435249328613,
+      "rewards/margins": 0.6535352468490601,
+      "rewards/rejected": -3.154379367828369,
+      "step": 810
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.6224926135406693e-07,
+      "logits/chosen": 0.1125444769859314,
+      "logits/rejected": 0.3865428566932678,
+      "logps/chosen": -404.16058349609375,
+      "logps/rejected": -484.68621826171875,
+      "loss": 0.5448,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -2.4405789375305176,
+      "rewards/margins": 0.718208909034729,
+      "rewards/rejected": -3.158787727355957,
+      "step": 820
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.557758094916053e-07,
+      "logits/chosen": 0.11989516019821167,
+      "logits/rejected": 0.30926594138145447,
+      "logps/chosen": -370.29876708984375,
+      "logps/rejected": -452.27911376953125,
+      "loss": 0.5418,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.3860089778900146,
+      "rewards/margins": 0.7260924577713013,
+      "rewards/rejected": -3.1121015548706055,
+      "step": 830
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.4937518209365108e-07,
+      "logits/chosen": -0.14239154756069183,
+      "logits/rejected": 0.14250756800174713,
+      "logps/chosen": -395.55755615234375,
+      "logps/rejected": -447.6368713378906,
+      "loss": 0.5573,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -2.378154754638672,
+      "rewards/margins": 0.6160937547683716,
+      "rewards/rejected": -2.994248390197754,
+      "step": 840
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.4305232610918045e-07,
+      "logits/chosen": -0.16526366770267487,
+      "logits/rejected": 0.16432161629199982,
+      "logps/chosen": -373.45330810546875,
+      "logps/rejected": -436.6773376464844,
+      "loss": 0.5415,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.3134028911590576,
+      "rewards/margins": 0.774810791015625,
+      "rewards/rejected": -3.0882136821746826,
+      "step": 850
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.3681212837880977e-07,
+      "logits/chosen": -0.1321481615304947,
+      "logits/rejected": 0.23287932574748993,
+      "logps/chosen": -364.96990966796875,
+      "logps/rejected": -447.7923278808594,
+      "loss": 0.5396,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -2.176964282989502,
+      "rewards/margins": 0.8955341577529907,
+      "rewards/rejected": -3.0724985599517822,
+      "step": 860
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.3065941185782977e-07,
+      "logits/chosen": 0.05437428876757622,
+      "logits/rejected": 0.2819867432117462,
+      "logps/chosen": -383.08599853515625,
+      "logps/rejected": -439.3629455566406,
+      "loss": 0.5505,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -2.405247211456299,
+      "rewards/margins": 0.5403125882148743,
+      "rewards/rejected": -2.9455599784851074,
+      "step": 870
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.2459893188861613e-07,
+      "logits/chosen": -0.12052659690380096,
+      "logits/rejected": 0.12284734100103378,
+      "logps/chosen": -367.1181640625,
+      "logps/rejected": -468.1044921875,
+      "loss": 0.5185,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -2.39152455329895,
+      "rewards/margins": 0.9137696027755737,
+      "rewards/rejected": -3.3052947521209717,
+      "step": 880
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1.1863537252529548e-07,
+      "logits/chosen": 0.14598000049591064,
+      "logits/rejected": 0.38815659284591675,
+      "logps/chosen": -397.891357421875,
+      "logps/rejected": -472.38677978515625,
+      "loss": 0.5323,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.512676239013672,
+      "rewards/margins": 0.7713057994842529,
+      "rewards/rejected": -3.2839818000793457,
+      "step": 890
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1.1277334291351145e-07,
+      "logits/chosen": 0.15319526195526123,
+      "logits/rejected": 0.35974830389022827,
+      "logps/chosen": -380.77783203125,
+      "logps/rejected": -449.54315185546875,
+      "loss": 0.5514,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -2.3706305027008057,
+      "rewards/margins": 0.6724039912223816,
+      "rewards/rejected": -3.043034076690674,
+      "step": 900
+    },
+    {
+      "epoch": 0.72,
+      "eval_logits/chosen": 0.28598034381866455,
+      "eval_logits/rejected": 0.5382024645805359,
+      "eval_logps/chosen": -392.3096008300781,
+      "eval_logps/rejected": -471.95330810546875,
+      "eval_loss": 0.5473664402961731,
+      "eval_rewards/accuracies": 0.6996268630027771,
+      "eval_rewards/chosen": -2.4773612022399902,
+      "eval_rewards/margins": 0.7308279275894165,
+      "eval_rewards/rejected": -3.2081892490386963,
+      "eval_runtime": 184.5275,
+      "eval_samples_per_second": 46.345,
+      "eval_steps_per_second": 0.726,
+      "step": 900
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1.0701737372808431e-07,
+      "logits/chosen": 0.15951867401599884,
+      "logits/rejected": 0.46630391478538513,
+      "logps/chosen": -383.52850341796875,
+      "logps/rejected": -467.2303771972656,
+      "loss": 0.5362,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -2.2782187461853027,
+      "rewards/margins": 0.8473943471908569,
+      "rewards/rejected": -3.125612735748291,
+      "step": 910
+    },
     {
       "epoch": 0.73,
+      "learning_rate": 1.0137191367132078e-07,
+      "logits/chosen": 0.2791319191455841,
+      "logits/rejected": 0.45174160599708557,
+      "logps/chosen": -372.1945495605469,
+      "logps/rejected": -446.6507263183594,
+      "loss": 0.5458,
       "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -2.3160648345947266,
+      "rewards/margins": 0.68004310131073,
+      "rewards/rejected": -2.996107816696167,
+      "step": 920
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 9.584132603467827e-08,
+      "logits/chosen": -0.12192128598690033,
+      "logits/rejected": 0.1477951854467392,
+      "logps/chosen": -366.48321533203125,
+      "logps/rejected": -453.130126953125,
+      "loss": 0.5467,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -2.200005531311035,
+      "rewards/margins": 0.7978888750076294,
+      "rewards/rejected": -2.997894287109375,
+      "step": 930
     },
     {
       "epoch": 0.75,
+      "learning_rate": 9.042988532644249e-08,
+      "logits/chosen": -0.03106372058391571,
+      "logits/rejected": 0.07721444219350815,
+      "logps/chosen": -344.21270751953125,
+      "logps/rejected": -438.11077880859375,
+      "loss": 0.5161,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -2.149094581604004,
+      "rewards/margins": 0.7353444695472717,
+      "rewards/rejected": -2.884438991546631,
+      "step": 940
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 8.514177396802428e-08,
+      "logits/chosen": 0.006801058538258076,
+      "logits/rejected": 0.20282092690467834,
+      "logps/chosen": -358.15167236328125,
+      "logps/rejected": -436.4964294433594,
+      "loss": 0.5385,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -2.2220425605773926,
+      "rewards/margins": 0.7004804611206055,
+      "rewards/rejected": -2.922523260116577,
+      "step": 950
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 7.998107906142839e-08,
+      "logits/chosen": 0.41448846459388733,
+      "logits/rejected": 0.705254852771759,
+      "logps/chosen": -371.27801513671875,
+      "logps/rejected": -434.56866455078125,
+      "loss": 0.5236,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -2.2166616916656494,
+      "rewards/margins": 0.6714047193527222,
+      "rewards/rejected": -2.888066530227661,
+      "step": 960
     },
     {
       "epoch": 0.77,
+      "learning_rate": 7.495178923039396e-08,
+      "logits/chosen": 0.23847150802612305,
+      "logits/rejected": 0.48661884665489197,
+      "logps/chosen": -366.28179931640625,
+      "logps/rejected": -462.679443359375,
+      "loss": 0.5459,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -2.1916985511779785,
+      "rewards/margins": 0.8472123146057129,
+      "rewards/rejected": -3.038910388946533,
+      "step": 970
     },
     {
+      "epoch": 0.78,
+      "learning_rate": 7.005779153764682e-08,
+      "logits/chosen": 0.41438961029052734,
+      "logits/rejected": 0.6912784576416016,
+      "logps/chosen": -382.70123291015625,
+      "logps/rejected": -461.8614807128906,
+      "loss": 0.5453,
       "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.4304287433624268,
+      "rewards/margins": 0.7116767764091492,
+      "rewards/rejected": -3.1421055793762207,
+      "step": 980
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.530286848064698e-08,
+      "logits/chosen": 0.36573725938796997,
+      "logits/rejected": 0.5834362506866455,
+      "logps/chosen": -384.49749755859375,
+      "logps/rejected": -466.30096435546875,
+      "loss": 0.5528,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -2.5111565589904785,
+      "rewards/margins": 0.7234699130058289,
+      "rewards/rejected": -3.234626054763794,
+      "step": 990
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 6.069069506815325e-08,
+      "logits/chosen": 0.45530566573143005,
+      "logits/rejected": 0.5909157991409302,
+      "logps/chosen": -379.1433410644531,
+      "logps/rejected": -468.88458251953125,
+      "loss": 0.527,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.5361268520355225,
+      "rewards/margins": 0.7407721281051636,
+      "rewards/rejected": -3.2768986225128174,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8,
+      "eval_logits/chosen": 0.3871051073074341,
+      "eval_logits/rejected": 0.6372014284133911,
+      "eval_logps/chosen": -394.97113037109375,
+      "eval_logps/rejected": -471.8453674316406,
+      "eval_loss": 0.5453863739967346,
+      "eval_rewards/accuracies": 0.70802241563797,
+      "eval_rewards/chosen": -2.503976345062256,
+      "eval_rewards/margins": 0.7031334638595581,
+      "eval_rewards/rejected": -3.2071101665496826,
+      "eval_runtime": 184.4226,
+      "eval_samples_per_second": 46.372,
+      "eval_steps_per_second": 0.727,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 5.6224835979863714e-08,
+      "logits/chosen": 0.31174296140670776,
+      "logits/rejected": 0.6193565130233765,
+      "logps/chosen": -390.387451171875,
+      "logps/rejected": -468.4959411621094,
+      "loss": 0.5568,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -2.32766056060791,
+      "rewards/margins": 0.68747878074646,
+      "rewards/rejected": -3.015139102935791,
+      "step": 1010
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 5.190874281132851e-08,
+      "logits/chosen": 0.22277125716209412,
+      "logits/rejected": 0.6487134099006653,
+      "logps/chosen": -402.0958557128906,
+      "logps/rejected": -448.5992736816406,
+      "loss": 0.5408,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -2.359062671661377,
+      "rewards/margins": 0.6533006429672241,
+      "rewards/rejected": -3.0123631954193115,
+      "step": 1020
     },
     {
       "epoch": 0.82,
+      "learning_rate": 4.774575140626316e-08,
+      "logits/chosen": 0.23170511424541473,
+      "logits/rejected": 0.47184085845947266,
+      "logps/chosen": -363.46917724609375,
+      "logps/rejected": -442.47918701171875,
+      "loss": 0.5309,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -2.142770290374756,
+      "rewards/margins": 0.7513145208358765,
+      "rewards/rejected": -2.894084930419922,
+      "step": 1030
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.373907927832513e-08,
+      "logits/chosen": 0.07573021948337555,
+      "logits/rejected": 0.32997313141822815,
+      "logps/chosen": -381.45599365234375,
+      "logps/rejected": -443.0684509277344,
+      "loss": 0.5407,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -2.2033116817474365,
+      "rewards/margins": 0.710732638835907,
+      "rewards/rejected": -2.914044141769409,
+      "step": 1040
     },
     {
       "epoch": 0.84,
+      "learning_rate": 3.9891823124345665e-08,
+      "logits/chosen": 0.23884686827659607,
+      "logits/rejected": 0.6128005385398865,
+      "logps/chosen": -364.00567626953125,
+      "logps/rejected": -433.3273010253906,
+      "loss": 0.5471,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.2081527709960938,
+      "rewards/margins": 0.7639263868331909,
+      "rewards/rejected": -2.972079038619995,
+      "step": 1050
     },
     {
       "epoch": 0.84,
+      "learning_rate": 3.620695643093924e-08,
+      "logits/chosen": 0.21963253617286682,
+      "logits/rejected": 0.6894062757492065,
+      "logps/chosen": -399.5767517089844,
+      "logps/rejected": -452.88909912109375,
+      "loss": 0.5154,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -2.3384335041046143,
+      "rewards/margins": 0.7010769844055176,
+      "rewards/rejected": -3.0395102500915527,
+      "step": 1060
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.268732717634032e-08,
+      "logits/chosen": 0.3474286198616028,
+      "logits/rejected": 0.695271372795105,
+      "logps/chosen": -368.0654602050781,
+      "logps/rejected": -431.47222900390625,
+      "loss": 0.5499,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.1910276412963867,
+      "rewards/margins": 0.7267633080482483,
+      "rewards/rejected": -2.9177908897399902,
+      "step": 1070
     },
     {
       "epoch": 0.86,
+      "learning_rate": 2.9335655629243645e-08,
+      "logits/chosen": 0.2347393035888672,
+      "logits/rejected": 0.5894696712493896,
+      "logps/chosen": -388.94757080078125,
+      "logps/rejected": -447.3855895996094,
+      "loss": 0.525,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -2.254683017730713,
+      "rewards/margins": 0.7334609031677246,
+      "rewards/rejected": -2.9881439208984375,
+      "step": 1080
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 2.6154532246349476e-08,
+      "logits/chosen": 0.25378522276878357,
+      "logits/rejected": 0.5771256685256958,
+      "logps/chosen": -358.50640869140625,
+      "logps/rejected": -431.145751953125,
+      "loss": 0.5462,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -2.1666626930236816,
+      "rewards/margins": 0.756801426410675,
+      "rewards/rejected": -2.923464059829712,
+      "step": 1090
     },
     {
       "epoch": 0.88,
+      "learning_rate": 2.31464156702382e-08,
+      "logits/chosen": 0.35370689630508423,
+      "logits/rejected": 0.5671936273574829,
+      "logps/chosen": -363.0,
+      "logps/rejected": -438.209228515625,
+      "loss": 0.5487,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -2.2130119800567627,
+      "rewards/margins": 0.7499077916145325,
+      "rewards/rejected": -2.9629194736480713,
+      "step": 1100
+    },
+    {
+      "epoch": 0.88,
+      "eval_logits/chosen": 0.1857856959104538,
+      "eval_logits/rejected": 0.43363669514656067,
+      "eval_logps/chosen": -373.08306884765625,
+      "eval_logps/rejected": -450.7598876953125,
+      "eval_loss": 0.5444055199623108,
+      "eval_rewards/accuracies": 0.7089552283287048,
+      "eval_rewards/chosen": -2.285095453262329,
+      "eval_rewards/margins": 0.711159884929657,
+      "eval_rewards/rejected": -2.996255397796631,
+      "eval_runtime": 184.462,
+      "eval_samples_per_second": 46.362,
+      "eval_steps_per_second": 0.726,
+      "step": 1100
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 2.031363082912252e-08,
+      "logits/chosen": 0.070524200797081,
+      "logits/rejected": 0.4635602533817291,
+      "logps/chosen": -373.29327392578125,
+      "logps/rejected": -426.85552978515625,
+      "loss": 0.5513,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -2.2541089057922363,
+      "rewards/margins": 0.6198171973228455,
+      "rewards/rejected": -2.8739261627197266,
+      "step": 1110
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1.7658367139945228e-08,
+      "logits/chosen": 0.2600646913051605,
+      "logits/rejected": 0.5517584681510925,
+      "logps/chosen": -390.8568115234375,
+      "logps/rejected": -462.80828857421875,
+      "loss": 0.5471,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -2.377396821975708,
+      "rewards/margins": 0.6719989776611328,
+      "rewards/rejected": -3.049395799636841,
+      "step": 1120
     },
     {
       "epoch": 0.9,
+      "learning_rate": 1.5182676816211632e-08,
+      "logits/chosen": 0.04413030296564102,
+      "logits/rejected": 0.30151715874671936,
+      "logps/chosen": -382.0662536621094,
+      "logps/rejected": -447.08673095703125,
+      "loss": 0.5431,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -2.228654384613037,
+      "rewards/margins": 0.6926024556159973,
+      "rewards/rejected": -2.9212570190429688,
+      "step": 1130
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.2888473281864597e-08,
+      "logits/chosen": 0.14212054014205933,
+      "logits/rejected": 0.47429710626602173,
+      "logps/chosen": -367.8409729003906,
+      "logps/rejected": -435.02764892578125,
+      "loss": 0.5369,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -2.2534115314483643,
+      "rewards/margins": 0.7273036241531372,
+      "rewards/rejected": -2.980715274810791,
+      "step": 1140
     },
     {
       "epoch": 0.92,
+      "learning_rate": 1.0777529692427679e-08,
+      "logits/chosen": 0.04115242511034012,
+      "logits/rejected": 0.28970104455947876,
+      "logps/chosen": -372.7949523925781,
+      "logps/rejected": -456.10675048828125,
+      "loss": 0.5265,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.300356388092041,
+      "rewards/margins": 0.8059718012809753,
+      "rewards/rejected": -3.106328248977661,
+      "step": 1150
     },
     {
+      "epoch": 0.92,
+      "learning_rate": 8.851477564560061e-09,
+      "logits/chosen": 0.0867738351225853,
+      "logits/rejected": 0.4068300127983093,
+      "logps/chosen": -372.08636474609375,
+      "logps/rejected": -426.42388916015625,
+      "loss": 0.5342,
       "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -2.331385850906372,
+      "rewards/margins": 0.6490964293479919,
+      "rewards/rejected": -2.9804821014404297,
+      "step": 1160
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 7.111805515081531e-09,
+      "logits/chosen": 0.02022993005812168,
+      "logits/rejected": 0.41968393325805664,
+      "logps/chosen": -363.818603515625,
+      "logps/rejected": -447.7919006347656,
+      "loss": 0.5312,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -2.2372307777404785,
+      "rewards/margins": 0.8540315628051758,
+      "rewards/rejected": -3.0912623405456543,
+      "step": 1170
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 5.559858110443016e-09,
+      "logits/chosen": 0.29695388674736023,
+      "logits/rejected": 0.714096188545227,
+      "logps/chosen": -372.5519714355469,
+      "logps/rejected": -442.5354919433594,
+      "loss": 0.5383,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -2.3107995986938477,
+      "rewards/margins": 0.8070123791694641,
+      "rewards/rejected": -3.117811918258667,
+      "step": 1180
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 4.196834827531276e-09,
+      "logits/chosen": 0.140055850148201,
+      "logits/rejected": 0.3409932255744934,
+      "logps/chosen": -355.64324951171875,
+      "logps/rejected": -447.585693359375,
+      "loss": 0.5152,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.149151563644409,
+      "rewards/margins": 0.7904965877532959,
+      "rewards/rejected": -2.939648151397705,
+      "step": 1190
     },
     {
       "epoch": 0.96,
+      "learning_rate": 3.023789126611137e-09,
+      "logits/chosen": 0.03294936567544937,
+      "logits/rejected": 0.2933207154273987,
+      "logps/chosen": -363.29290771484375,
+      "logps/rejected": -435.640380859375,
+      "loss": 0.5483,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -2.281057357788086,
+      "rewards/margins": 0.7091296911239624,
+      "rewards/rejected": -2.990186929702759,
+      "step": 1200
+    },
+    {
+      "epoch": 0.96,
+      "eval_logits/chosen": 0.07418080419301987,
+      "eval_logits/rejected": 0.32435521483421326,
+      "eval_logps/chosen": -373.978515625,
+      "eval_logps/rejected": -451.6764831542969,
+      "eval_loss": 0.5440130829811096,
+      "eval_rewards/accuracies": 0.7089552283287048,
+      "eval_rewards/chosen": -2.2940499782562256,
+      "eval_rewards/margins": 0.7113713622093201,
+      "eval_rewards/rejected": -3.0054211616516113,
+      "eval_runtime": 184.3589,
+      "eval_samples_per_second": 46.388,
+      "eval_steps_per_second": 0.727,
+      "step": 1200
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.041627637121929e-09,
+      "logits/chosen": 0.10010697692632675,
+      "logits/rejected": 0.3795483410358429,
+      "logps/chosen": -348.8675231933594,
+      "logps/rejected": -437.20361328125,
+      "loss": 0.5398,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -2.087364673614502,
+      "rewards/margins": 0.828387439250946,
+      "rewards/rejected": -2.9157521724700928,
+      "step": 1210
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.2511094569571668e-09,
+      "logits/chosen": 0.09991980344057083,
+      "logits/rejected": 0.4467397630214691,
+      "logps/chosen": -380.14520263671875,
+      "logps/rejected": -440.24658203125,
+      "loss": 0.5345,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.253425121307373,
+      "rewards/margins": 0.702509880065918,
+      "rewards/rejected": -2.955935001373291,
+      "step": 1220
     },
     {
       "epoch": 0.98,
+      "learning_rate": 6.528455657691112e-10,
+      "logits/chosen": 0.11626466363668442,
+      "logits/rejected": 0.41348797082901,
+      "logps/chosen": -372.7298889160156,
+      "logps/rejected": -427.22576904296875,
+      "loss": 0.549,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.2800345420837402,
+      "rewards/margins": 0.6291176080703735,
+      "rewards/rejected": -2.909151792526245,
+      "step": 1230
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 2.4729835275189016e-10,
+      "logits/chosen": 0.06715863198041916,
+      "logits/rejected": 0.29241910576820374,
+      "logps/chosen": -393.8903503417969,
+      "logps/rejected": -477.9420471191406,
+      "loss": 0.5462,
       "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.323488473892212,
+      "rewards/margins": 0.8067766427993774,
+      "rewards/rejected": -3.1302647590637207,
+      "step": 1240
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3.478125926756337e-11,
+      "logits/chosen": 0.25983649492263794,
+      "logits/rejected": 0.4905417561531067,
+      "logps/chosen": -364.73431396484375,
+      "logps/rejected": -443.79296875,
+      "loss": 0.5474,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -2.2353272438049316,
+      "rewards/margins": 0.771331787109375,
+      "rewards/rejected": -3.0066590309143066,
+      "step": 1250
     },
     {
       "epoch": 1.0,
+      "step": 1256,
       "total_flos": 0.0,
+      "train_loss": 0.5712926928784438,
+      "train_runtime": 11573.5451,
+      "train_samples_per_second": 13.894,
+      "train_steps_per_second": 0.109
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1256,
   "num_train_epochs": 1,
   "save_steps": 100,
   "total_flos": 0.0,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0e3f09acb1cc4b4969cdf21f39838bc5f635d5367987afa424e1b13da3f9e86
 size 5944

 version https://git-lfs.github.com/spec/v1
+oid sha256:b0a380877b07afc91f8cd53d271781e6ac2fa02e9d60a2c1c357997bd753b437
 size 5944