Model save

Browse files

Files changed (9) hide show

README.md +24 -3
all_results.json +5 -5
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +1265 -785
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -14,6 +14,16 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-dpo-full
 This model was trained from scratch on the None dataset.
 ## Model description
@@ -33,12 +43,12 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 1e-06
-- train_batch_size: 2
 - eval_batch_size: 8
-- seed: 3
 - distributed_type: multi-GPU
 - num_devices: 8
-- gradient_accumulation_steps: 8
 - total_train_batch_size: 128
 - total_eval_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
@@ -48,6 +58,17 @@ The following hyperparameters were used during training:
 ### Training results
 ### Framework versions

 # zephyr-7b-dpo-full
 This model was trained from scratch on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.0216
+- Rewards/chosen: -2.0018
+- Rewards/rejected: -3.2655
+- Rewards/accuracies: 0.7344
+- Rewards/margins: 1.2637
+- Logps/rejected: -638.1763
+- Logps/chosen: -503.7670
+- Logits/rejected: 0.7139
+- Logits/chosen: 0.6104
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 1e-06
+- train_batch_size: 4
 - eval_batch_size: 8
+- seed: 2
 - distributed_type: multi-GPU
 - num_devices: 8
+- gradient_accumulation_steps: 4
 - total_train_batch_size: 128
 - total_eval_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.1135        | 0.21  | 100  | 0.1060          | -0.4112        | -0.7633          | 0.7070             | 0.3521          | -387.9543      | -344.7048    | 0.5669          | 0.5124        |
+| 0.0648        | 0.42  | 200  | 0.0664          | -0.6849        | -1.3101          | 0.7188             | 0.6252          | -442.6332      | -372.0718    | 0.3867          | 0.3105        |
+| 0.0565        | 0.63  | 300  | 0.0585          | -0.7598        | -1.4962          | 0.7305             | 0.7364          | -461.2486      | -379.5646    | 0.3625          | 0.2834        |
+| 0.0643        | 0.84  | 400  | 0.0623          | -0.6660        | -1.4002          | 0.7305             | 0.7341          | -451.6428      | -370.1878    | 0.2607          | 0.1862        |
+| 0.0214        | 1.05  | 500  | 0.0310          | -1.5688        | -2.7542          | 0.7422             | 1.1854          | -587.0469      | -460.4668    | 0.5000          | 0.4214        |
+| 0.0145        | 1.26  | 600  | 0.0245          | -1.7918        | -3.0398          | 0.7344             | 1.2481          | -615.6083      | -482.7609    | 0.6354          | 0.5416        |
+| 0.0098        | 1.47  | 700  | 0.0210          | -2.0363        | -3.3488          | 0.7305             | 1.3125          | -646.5033      | -507.2101    | 0.6871          | 0.5851        |
+| 0.0101        | 1.67  | 800  | 0.0218          | -1.9924        | -3.2641          | 0.7344             | 1.2718          | -638.0398      | -502.8234    | 0.6981          | 0.5937        |
+| 0.0103        | 1.88  | 900  | 0.0216          | -2.0018        | -3.2655          | 0.7344             | 1.2637          | -638.1763      | -503.7670    | 0.7139          | 0.6104        |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.0,
-    "train_loss": 0.5404887232981938,
-    "train_runtime": 10311.708,
-    "train_samples": 45548,
-    "train_samples_per_second": 8.834,
-    "train_steps_per_second": 0.069
 }

 {
     "epoch": 2.0,
+    "train_loss": 0.048426837674039463,
+    "train_runtime": 8860.0868,
+    "train_samples": 61134,
+    "train_samples_per_second": 13.8,
+    "train_steps_per_second": 0.108
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3cd3351c8331062bae69b46bc0804efec02c12fd75944f9045883abff8e57b6
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:1bbf762dfc95b30382f7d12aa322403420f2fedeb1f40de707e07a41b4b65a74
 size 4976698672

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a931312f99fe5f4b2631ae9aa1fc7f81268b9fa95ebb926e75a830682f8928d
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b360ad3bfe2c13ef13d8ec3499feb010e9e772efbcd73344a4fa33c853c08df
 size 4999802720

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6aa78ee69f94dbd8e186941a2a9c579298da19fd105f213673ccf6b84054f08a
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:611e09fdf80d346d40d4790f93b01096529390ec9de8882089baa707b39f1a31
 size 4915916176

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6332d4723c96e33137a7da5429fa279dfb34f1b9495d5f52212ae0ee0071dff2
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:c34cb68b36e33fe3b029cc36b78c1729aa55f897d89fb8a7def6c059f706b100
 size 1168138808

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.0,
-    "train_loss": 0.5404887232981938,
-    "train_runtime": 10311.708,
-    "train_samples": 45548,
-    "train_samples_per_second": 8.834,
-    "train_steps_per_second": 0.069
 }

 {
     "epoch": 2.0,
+    "train_loss": 0.048426837674039463,
+    "train_runtime": 8860.0868,
+    "train_samples": 61134,
+    "train_samples_per_second": 13.8,
+    "train_steps_per_second": 0.108
 }

trainer_state.json CHANGED Viewed

@@ -1,1021 +1,1501 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9950825430277486,
-  "eval_steps": 10000,
-  "global_step": 710,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.03,
-      "learning_rate": 1.4084507042253522e-07,
-      "logits/chosen": 0.0574692003428936,
-      "logits/rejected": 0.12386391311883926,
-      "logps/chosen": -288.4106750488281,
-      "logps/rejected": -175.04660034179688,
-      "loss": 0.693,
-      "rewards/accuracies": 0.4312500059604645,
-      "rewards/chosen": 0.0008653248660266399,
-      "rewards/margins": 0.0010372042888775468,
-      "rewards/rejected": -0.00017187921912409365,
       "step": 10
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 2.8169014084507043e-07,
-      "logits/chosen": -0.014562537893652916,
-      "logits/rejected": 0.04636811465024948,
-      "logps/chosen": -338.0233459472656,
-      "logps/rejected": -208.924072265625,
-      "loss": 0.6919,
-      "rewards/accuracies": 0.5874999761581421,
-      "rewards/chosen": 0.0008858361397869885,
-      "rewards/margins": 0.0037706121802330017,
-      "rewards/rejected": -0.0028847763314843178,
       "step": 20
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 4.225352112676056e-07,
-      "logits/chosen": 0.02482067607343197,
-      "logits/rejected": 0.06645798683166504,
-      "logps/chosen": -306.4239807128906,
-      "logps/rejected": -219.2429656982422,
-      "loss": 0.6837,
-      "rewards/accuracies": 0.5625,
-      "rewards/chosen": -0.0015881704166531563,
-      "rewards/margins": 0.016226306557655334,
-      "rewards/rejected": -0.017814476042985916,
       "step": 30
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 5.633802816901409e-07,
-      "logits/chosen": 0.0009495698031969368,
-      "logits/rejected": 0.0765490010380745,
-      "logps/chosen": -330.74530029296875,
-      "logps/rejected": -178.29818725585938,
-      "loss": 0.6675,
-      "rewards/accuracies": 0.581250011920929,
-      "rewards/chosen": -0.01821247674524784,
-      "rewards/margins": 0.0645570456981659,
-      "rewards/rejected": -0.08276952803134918,
       "step": 40
     },
     {
-      "epoch": 0.14,
-      "learning_rate": 7.04225352112676e-07,
-      "logits/chosen": 0.01187724806368351,
-      "logits/rejected": 0.08773528039455414,
-      "logps/chosen": -301.0223388671875,
-      "logps/rejected": -228.15811157226562,
-      "loss": 0.6645,
-      "rewards/accuracies": 0.5687500238418579,
-      "rewards/chosen": -0.09605728834867477,
-      "rewards/margins": 0.06634153425693512,
-      "rewards/rejected": -0.1623987853527069,
       "step": 50
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 8.450704225352112e-07,
-      "logits/chosen": 0.02179504930973053,
-      "logits/rejected": 0.07427159696817398,
-      "logps/chosen": -256.24114990234375,
-      "logps/rejected": -218.9158172607422,
-      "loss": 0.6712,
-      "rewards/accuracies": 0.5625,
-      "rewards/chosen": -0.1422603577375412,
-      "rewards/margins": 0.04028792306780815,
-      "rewards/rejected": -0.18254826962947845,
       "step": 60
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 9.859154929577465e-07,
-      "logits/chosen": -0.002741412725299597,
-      "logits/rejected": 0.05075908452272415,
-      "logps/chosen": -271.7894592285156,
-      "logps/rejected": -188.0336151123047,
-      "loss": 0.6566,
-      "rewards/accuracies": 0.581250011920929,
-      "rewards/chosen": -0.05592440813779831,
-      "rewards/margins": 0.14531628787517548,
-      "rewards/rejected": -0.20124070346355438,
       "step": 70
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 9.995106132599868e-07,
-      "logits/chosen": -0.05782483145594597,
-      "logits/rejected": -0.012342329137027264,
-      "logps/chosen": -280.80706787109375,
-      "logps/rejected": -225.5968780517578,
-      "loss": 0.6571,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": 0.023747101426124573,
-      "rewards/margins": 0.10267762094736099,
-      "rewards/rejected": -0.07893051207065582,
       "step": 80
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 9.978201358980644e-07,
-      "logits/chosen": -0.10983926057815552,
-      "logits/rejected": -0.07465547323226929,
-      "logps/chosen": -325.27691650390625,
-      "logps/rejected": -267.84490966796875,
-      "loss": 0.6463,
       "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": 0.015023261308670044,
-      "rewards/margins": 0.11942987143993378,
-      "rewards/rejected": -0.10440661758184433,
       "step": 90
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 9.949266103908894e-07,
-      "logits/chosen": -0.05497773736715317,
-      "logits/rejected": -0.03728542476892471,
-      "logps/chosen": -289.1542663574219,
-      "logps/rejected": -233.5535125732422,
-      "loss": 0.6482,
-      "rewards/accuracies": 0.5562499761581421,
-      "rewards/chosen": -0.01219288818538189,
-      "rewards/margins": 0.09877597540616989,
-      "rewards/rejected": -0.11096885055303574,
       "step": 100
     },
     {
-      "epoch": 0.31,
-      "learning_rate": 9.908370293252287e-07,
-      "logits/chosen": -0.054286569356918335,
-      "logits/rejected": -0.005184811539947987,
-      "logps/chosen": -342.5756530761719,
-      "logps/rejected": -236.8831024169922,
-      "loss": 0.6515,
       "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": 0.10483624786138535,
-      "rewards/margins": 0.19732977449893951,
-      "rewards/rejected": -0.09249352663755417,
       "step": 110
     },
     {
-      "epoch": 0.34,
-      "learning_rate": 9.855612757141654e-07,
-      "logits/chosen": -0.14657270908355713,
-      "logits/rejected": -0.11683551967144012,
-      "logps/chosen": -331.3316955566406,
-      "logps/rejected": -226.4019775390625,
-      "loss": 0.6455,
       "rewards/accuracies": 0.65625,
-      "rewards/chosen": 0.06472930312156677,
-      "rewards/margins": 0.20564159750938416,
-      "rewards/rejected": -0.1409122794866562,
       "step": 120
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 9.791120991134902e-07,
-      "logits/chosen": -0.08803490549325943,
-      "logits/rejected": -0.08352796733379364,
-      "logps/chosen": -283.9063415527344,
-      "logps/rejected": -205.9207763671875,
-      "loss": 0.6322,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.004054681863635778,
-      "rewards/margins": 0.19041410088539124,
-      "rewards/rejected": -0.19446878135204315,
       "step": 130
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 9.715050848107168e-07,
-      "logits/chosen": -0.16173450648784637,
-      "logits/rejected": -0.09525154531002045,
-      "logps/chosen": -335.1710510253906,
-      "logps/rejected": -247.1131591796875,
-      "loss": 0.6478,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": -0.09146922826766968,
-      "rewards/margins": 0.12531065940856934,
-      "rewards/rejected": -0.21677987277507782,
       "step": 140
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 9.627586161611731e-07,
-      "logits/chosen": -0.14197686314582825,
-      "logits/rejected": -0.08699794858694077,
-      "logps/chosen": -288.25115966796875,
-      "logps/rejected": -214.3753662109375,
-      "loss": 0.6436,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -0.08372734487056732,
-      "rewards/margins": 0.19719448685646057,
-      "rewards/rejected": -0.2809218168258667,
       "step": 150
     },
     {
-      "epoch": 0.45,
-      "learning_rate": 9.528938301621955e-07,
-      "logits/chosen": -0.13937319815158844,
-      "logits/rejected": -0.09105530381202698,
-      "logps/chosen": -363.445068359375,
-      "logps/rejected": -252.1674041748047,
-      "loss": 0.6272,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -0.020376842468976974,
-      "rewards/margins": 0.228114053606987,
-      "rewards/rejected": -0.24849089980125427,
       "step": 160
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 9.419345663727804e-07,
-      "logits/chosen": -0.19675788283348083,
-      "logits/rejected": -0.16029223799705505,
-      "logps/chosen": -301.0903015136719,
-      "logps/rejected": -235.623046875,
-      "loss": 0.6457,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.08953143656253815,
-      "rewards/margins": 0.13867953419685364,
-      "rewards/rejected": -0.2282109558582306,
       "step": 170
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 9.299073093021404e-07,
-      "logits/chosen": -0.1577579230070114,
-      "logits/rejected": -0.05155598372220993,
-      "logps/chosen": -398.83056640625,
-      "logps/rejected": -260.51861572265625,
-      "loss": 0.6282,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": 0.019022580236196518,
-      "rewards/margins": 0.2788359522819519,
-      "rewards/rejected": -0.2598133981227875,
       "step": 180
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 9.168411244063861e-07,
-      "logits/chosen": -0.16214406490325928,
-      "logits/rejected": -0.10108447074890137,
-      "logps/chosen": -381.76336669921875,
-      "logps/rejected": -257.84796142578125,
-      "loss": 0.6314,
       "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.04972154274582863,
-      "rewards/margins": 0.2558901011943817,
-      "rewards/rejected": -0.30561167001724243,
       "step": 190
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 9.02767587848013e-07,
-      "logits/chosen": -0.1767871081829071,
-      "logits/rejected": -0.1328190267086029,
-      "logps/chosen": -393.65460205078125,
-      "logps/rejected": -280.05828857421875,
-      "loss": 0.6318,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": -0.1811768114566803,
-      "rewards/margins": 0.23713836073875427,
-      "rewards/rejected": -0.41831517219543457,
       "step": 200
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 8.877207101879301e-07,
-      "logits/chosen": -0.1020452231168747,
-      "logits/rejected": -0.084984190762043,
-      "logps/chosen": -305.2144775390625,
-      "logps/rejected": -242.00448608398438,
-      "loss": 0.6286,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.1669018417596817,
-      "rewards/margins": 0.23508021235466003,
-      "rewards/rejected": -0.40198206901550293,
       "step": 210
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 8.717368541944452e-07,
-      "logits/chosen": -0.13268283009529114,
-      "logits/rejected": -0.11535456031560898,
-      "logps/chosen": -300.7691955566406,
-      "logps/rejected": -237.262939453125,
-      "loss": 0.6291,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.19283142685890198,
-      "rewards/margins": 0.21657586097717285,
-      "rewards/rejected": -0.40940728783607483,
       "step": 220
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 8.54854646967831e-07,
-      "logits/chosen": -0.1747787892818451,
-      "logits/rejected": -0.09181876480579376,
-      "logps/chosen": -344.40167236328125,
-      "logps/rejected": -276.8890075683594,
-      "loss": 0.6234,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.19419854879379272,
-      "rewards/margins": 0.23525135219097137,
-      "rewards/rejected": -0.4294498860836029,
       "step": 230
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 8.371148865928318e-07,
-      "logits/chosen": -0.08827530592679977,
-      "logits/rejected": -0.04222024604678154,
-      "logps/chosen": -282.3198547363281,
-      "logps/rejected": -212.68212890625,
-      "loss": 0.6208,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": -0.22124627232551575,
-      "rewards/margins": 0.24424293637275696,
-      "rewards/rejected": -0.46548914909362793,
       "step": 240
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 8.185604435447001e-07,
-      "logits/chosen": -0.16139154136180878,
-      "logits/rejected": -0.058478884398937225,
-      "logps/chosen": -352.06488037109375,
-      "logps/rejected": -263.8894348144531,
-      "loss": 0.6253,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -0.2667580246925354,
-      "rewards/margins": 0.3037096858024597,
-      "rewards/rejected": -0.5704677700996399,
       "step": 250
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 7.992361570870287e-07,
-      "logits/chosen": -0.13269548118114471,
-      "logits/rejected": -0.07164184004068375,
-      "logps/chosen": -341.27972412109375,
-      "logps/rejected": -228.34188842773438,
-      "loss": 0.6181,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -0.28348395228385925,
-      "rewards/margins": 0.28166964650154114,
-      "rewards/rejected": -0.5651535391807556,
       "step": 260
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 7.791887269117441e-07,
-      "logits/chosen": -0.15285693109035492,
-      "logits/rejected": -0.11663047224283218,
-      "logps/chosen": -371.17303466796875,
-      "logps/rejected": -294.937744140625,
-      "loss": 0.6244,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -0.389064222574234,
-      "rewards/margins": 0.2993304133415222,
-      "rewards/rejected": -0.6883946657180786,
       "step": 270
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 7.584666002831294e-07,
-      "logits/chosen": -0.1729583591222763,
-      "logits/rejected": -0.11131374537944794,
-      "logps/chosen": -396.6099548339844,
-      "logps/rejected": -274.72296142578125,
-      "loss": 0.6034,
-      "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": -0.306185781955719,
-      "rewards/margins": 0.33628392219543457,
-      "rewards/rejected": -0.6424697041511536,
       "step": 280
     },
     {
-      "epoch": 0.81,
-      "learning_rate": 7.37119854958609e-07,
-      "logits/chosen": -0.1607353240251541,
-      "logits/rejected": -0.08277767896652222,
-      "logps/chosen": -342.7881164550781,
-      "logps/rejected": -283.78045654296875,
-      "loss": 0.621,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.3834126591682434,
-      "rewards/margins": 0.35785117745399475,
-      "rewards/rejected": -0.7412638068199158,
       "step": 290
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 7.152000781692285e-07,
-      "logits/chosen": -0.21418114006519318,
-      "logits/rejected": -0.1372450888156891,
-      "logps/chosen": -373.311767578125,
-      "logps/rejected": -275.16497802734375,
-      "loss": 0.6045,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.3124952018260956,
-      "rewards/margins": 0.40538614988327026,
-      "rewards/rejected": -0.7178813219070435,
       "step": 300
     },
     {
-      "epoch": 0.87,
-      "learning_rate": 6.927602419522946e-07,
-      "logits/chosen": -0.1877022236585617,
-      "logits/rejected": -0.13365814089775085,
-      "logps/chosen": -379.8697509765625,
-      "logps/rejected": -294.24212646484375,
-      "loss": 0.611,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -0.36330702900886536,
-      "rewards/margins": 0.3341967463493347,
-      "rewards/rejected": -0.6975037455558777,
       "step": 310
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 6.698545751374463e-07,
-      "logits/chosen": -0.2028748095035553,
-      "logits/rejected": -0.14244171977043152,
-      "logps/chosen": -311.5303955078125,
-      "logps/rejected": -288.56719970703125,
-      "loss": 0.6179,
       "rewards/accuracies": 0.625,
-      "rewards/chosen": -0.4628111720085144,
-      "rewards/margins": 0.18885299563407898,
-      "rewards/rejected": -0.651664137840271,
       "step": 320
     },
     {
-      "epoch": 0.93,
-      "learning_rate": 6.465384322955224e-07,
-      "logits/chosen": -0.2255275696516037,
-      "logits/rejected": -0.14702108502388,
-      "logps/chosen": -342.5117492675781,
-      "logps/rejected": -276.21197509765625,
-      "loss": 0.6148,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.4330762028694153,
-      "rewards/margins": 0.2775336503982544,
-      "rewards/rejected": -0.7106099128723145,
       "step": 330
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 6.228681599669248e-07,
-      "logits/chosen": -0.27844735980033875,
-      "logits/rejected": -0.19588637351989746,
-      "logps/chosen": -344.0874938964844,
-      "logps/rejected": -308.6099548339844,
-      "loss": 0.6232,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": -0.4884147644042969,
-      "rewards/margins": 0.17546243965625763,
-      "rewards/rejected": -0.6638772487640381,
       "step": 340
     },
     {
-      "epoch": 0.98,
-      "learning_rate": 5.989009604927586e-07,
-      "logits/chosen": -0.23747125267982483,
-      "logits/rejected": -0.16959340870380402,
-      "logps/chosen": -387.63623046875,
-      "logps/rejected": -266.96258544921875,
-      "loss": 0.6037,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -0.3368917405605316,
-      "rewards/margins": 0.36082369089126587,
-      "rewards/rejected": -0.6977154016494751,
       "step": 350
     },
     {
-      "epoch": 1.01,
-      "learning_rate": 5.74694753777815e-07,
-      "logits/chosen": -0.31367436051368713,
-      "logits/rejected": -0.21515583992004395,
-      "logps/chosen": -368.69970703125,
-      "logps/rejected": -282.2240295410156,
-      "loss": 0.5698,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -0.3673818111419678,
-      "rewards/margins": 0.3864114284515381,
-      "rewards/rejected": -0.7537932395935059,
       "step": 360
     },
     {
-      "epoch": 1.04,
-      "learning_rate": 5.503080373194666e-07,
-      "logits/chosen": -0.3336055278778076,
-      "logits/rejected": -0.21274812519550323,
-      "logps/chosen": -336.03314208984375,
-      "logps/rejected": -297.82733154296875,
-      "loss": 0.5035,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -0.33112579584121704,
-      "rewards/margins": 0.6125229001045227,
-      "rewards/rejected": -0.943648636341095,
       "step": 370
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 5.257997448407366e-07,
-      "logits/chosen": -0.23712444305419922,
-      "logits/rejected": -0.20684747397899628,
-      "logps/chosen": -384.50604248046875,
-      "logps/rejected": -319.8245544433594,
-      "loss": 0.4751,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -0.42848914861679077,
-      "rewards/margins": 0.7426242828369141,
-      "rewards/rejected": -1.17111337184906,
       "step": 380
     },
     {
-      "epoch": 1.1,
-      "learning_rate": 5.012291038691665e-07,
-      "logits/chosen": -0.11202068626880646,
-      "logits/rejected": -0.05614033341407776,
-      "logps/chosen": -359.5730285644531,
-      "logps/rejected": -312.46942138671875,
-      "loss": 0.4794,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -0.7731301784515381,
-      "rewards/margins": 0.7004681825637817,
-      "rewards/rejected": -1.4735982418060303,
       "step": 390
     },
     {
-      "epoch": 1.12,
-      "learning_rate": 4.7665549260567063e-07,
-      "logits/chosen": -0.18886379897594452,
-      "logits/rejected": -0.14062359929084778,
-      "logps/chosen": -383.01373291015625,
-      "logps/rejected": -331.54925537109375,
-      "loss": 0.4691,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -0.6923019289970398,
-      "rewards/margins": 0.6816664934158325,
-      "rewards/rejected": -1.3739683628082275,
       "step": 400
     },
     {
-      "epoch": 1.15,
-      "learning_rate": 4.521382964292663e-07,
-      "logits/chosen": -0.27892133593559265,
-      "logits/rejected": -0.14412526786327362,
-      "logps/chosen": -394.75970458984375,
-      "logps/rejected": -378.1414489746094,
-      "loss": 0.4639,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -0.7302940487861633,
-      "rewards/margins": 0.679794192314148,
-      "rewards/rejected": -1.410088300704956,
       "step": 410
     },
     {
-      "epoch": 1.18,
-      "learning_rate": 4.277367643844574e-07,
-      "logits/chosen": -0.1998869627714157,
-      "logits/rejected": -0.10725042968988419,
-      "logps/chosen": -408.393798828125,
-      "logps/rejected": -352.1543884277344,
-      "loss": 0.4635,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -0.8734973073005676,
-      "rewards/margins": 0.6438977122306824,
-      "rewards/rejected": -1.51739501953125,
       "step": 420
     },
     {
-      "epoch": 1.21,
-      "learning_rate": 4.035098659980891e-07,
-      "logits/chosen": -0.12958061695098877,
-      "logits/rejected": -0.1245465874671936,
-      "logps/chosen": -398.2342834472656,
-      "logps/rejected": -353.9339904785156,
-      "loss": 0.4649,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -0.8678234815597534,
-      "rewards/margins": 0.7205562591552734,
-      "rewards/rejected": -1.5883797407150269,
       "step": 430
     },
     {
-      "epoch": 1.24,
-      "learning_rate": 3.795161487716928e-07,
-      "logits/chosen": -0.08392539620399475,
-      "logits/rejected": -0.03619948774576187,
-      "logps/chosen": -365.19781494140625,
-      "logps/rejected": -361.42938232421875,
-      "loss": 0.4678,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -0.9831995964050293,
-      "rewards/margins": 0.6340848803520203,
-      "rewards/rejected": -1.6172844171524048,
       "step": 440
     },
     {
-      "epoch": 1.26,
-      "learning_rate": 3.5581359669371223e-07,
-      "logits/chosen": -0.07149242609739304,
-      "logits/rejected": -0.03161284700036049,
-      "logps/chosen": -394.33538818359375,
-      "logps/rejected": -399.26434326171875,
-      "loss": 0.442,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -0.9683377146720886,
-      "rewards/margins": 0.7974370718002319,
-      "rewards/rejected": -1.7657749652862549,
       "step": 450
     },
     {
-      "epoch": 1.29,
-      "learning_rate": 3.324594901135326e-07,
-      "logits/chosen": -0.09706771373748779,
-      "logits/rejected": -0.036641813814640045,
-      "logps/chosen": -410.4488830566406,
-      "logps/rejected": -366.1763000488281,
-      "loss": 0.4621,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -1.0220680236816406,
-      "rewards/margins": 0.7040417790412903,
-      "rewards/rejected": -1.7261097431182861,
       "step": 460
     },
     {
-      "epoch": 1.32,
-      "learning_rate": 3.095102673159463e-07,
-      "logits/chosen": -0.15957535803318024,
-      "logits/rejected": -0.02334430068731308,
-      "logps/chosen": -452.0826110839844,
-      "logps/rejected": -420.08001708984375,
-      "loss": 0.449,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -1.107664704322815,
-      "rewards/margins": 0.82676762342453,
-      "rewards/rejected": -1.9344326257705688,
       "step": 470
     },
     {
-      "epoch": 1.35,
-      "learning_rate": 2.870213881305802e-07,
-      "logits/chosen": 0.006658580154180527,
-      "logits/rejected": 0.08748787641525269,
-      "logps/chosen": -412.2818298339844,
-      "logps/rejected": -410.6326599121094,
-      "loss": 0.4557,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -1.1337535381317139,
-      "rewards/margins": 0.7357211709022522,
-      "rewards/rejected": -1.8694744110107422,
       "step": 480
     },
     {
-      "epoch": 1.38,
-      "learning_rate": 2.6504719990588745e-07,
-      "logits/chosen": -0.01384669542312622,
-      "logits/rejected": 0.0136095080524683,
-      "logps/chosen": -423.8350524902344,
-      "logps/rejected": -421.7970275878906,
-      "loss": 0.444,
-      "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": -1.1789019107818604,
-      "rewards/margins": 0.8433148264884949,
-      "rewards/rejected": -2.022217035293579,
       "step": 490
     },
     {
-      "epoch": 1.4,
-      "learning_rate": 2.436408061715988e-07,
-      "logits/chosen": 0.06090901046991348,
-      "logits/rejected": 0.20043042302131653,
-      "logps/chosen": -443.0829162597656,
-      "logps/rejected": -434.91973876953125,
-      "loss": 0.4382,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -1.218750238418579,
-      "rewards/margins": 0.8278664350509644,
-      "rewards/rejected": -2.046616792678833,
       "step": 500
     },
     {
-      "epoch": 1.43,
-      "learning_rate": 2.22853938307025e-07,
-      "logits/chosen": -0.013336491771042347,
-      "logits/rejected": 0.08844296634197235,
-      "logps/chosen": -461.01116943359375,
-      "logps/rejected": -419.5613708496094,
-      "loss": 0.439,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -1.0366140604019165,
-      "rewards/margins": 0.9471963047981262,
-      "rewards/rejected": -1.9838101863861084,
       "step": 510
     },
     {
-      "epoch": 1.46,
-      "learning_rate": 2.0273683052534173e-07,
-      "logits/chosen": -0.08675620704889297,
-      "logits/rejected": 0.18537646532058716,
-      "logps/chosen": -385.2346496582031,
-      "logps/rejected": -412.39874267578125,
-      "loss": 0.4367,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -1.0960122346878052,
-      "rewards/margins": 0.8978063464164734,
-      "rewards/rejected": -1.9938186407089233,
       "step": 520
     },
     {
-      "epoch": 1.49,
-      "learning_rate": 1.833380984759764e-07,
-      "logits/chosen": -0.0771380215883255,
-      "logits/rejected": -0.06751350313425064,
-      "logps/chosen": -487.01300048828125,
-      "logps/rejected": -452.53515625,
-      "loss": 0.4154,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -1.2069343328475952,
-      "rewards/margins": 1.0104467868804932,
-      "rewards/rejected": -2.217381238937378,
       "step": 530
     },
     {
-      "epoch": 1.52,
-      "learning_rate": 1.6470462175846606e-07,
-      "logits/chosen": -0.03199737146496773,
-      "logits/rejected": 0.0661589577794075,
-      "logps/chosen": -514.4771728515625,
-      "logps/rejected": -456.63653564453125,
-      "loss": 0.4287,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -1.3112976551055908,
-      "rewards/margins": 1.0303752422332764,
-      "rewards/rejected": -2.341672897338867,
       "step": 540
     },
     {
-      "epoch": 1.55,
-      "learning_rate": 1.468814306317092e-07,
-      "logits/chosen": 0.0007705002790316939,
-      "logits/rejected": 0.061629198491573334,
-      "logps/chosen": -490.34979248046875,
-      "logps/rejected": -451.4480895996094,
-      "loss": 0.4258,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -1.4775030612945557,
-      "rewards/margins": 0.874045193195343,
-      "rewards/rejected": -2.351548194885254,
       "step": 550
     },
     {
-      "epoch": 1.57,
-      "learning_rate": 1.299115971923958e-07,
-      "logits/chosen": 0.015290578827261925,
-      "logits/rejected": 0.16401197016239166,
-      "logps/chosen": -452.81072998046875,
-      "logps/rejected": -438.05767822265625,
-      "loss": 0.416,
       "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -1.4604284763336182,
-      "rewards/margins": 0.8240534663200378,
-      "rewards/rejected": -2.284482002258301,
       "step": 560
     },
     {
-      "epoch": 1.6,
-      "learning_rate": 1.1383613128559305e-07,
-      "logits/chosen": 0.12204132974147797,
-      "logits/rejected": 0.20324596762657166,
-      "logps/chosen": -481.38177490234375,
-      "logps/rejected": -460.2315979003906,
-      "loss": 0.4338,
-      "rewards/accuracies": 0.887499988079071,
-      "rewards/chosen": -1.5525413751602173,
-      "rewards/margins": 1.0427912473678589,
-      "rewards/rejected": -2.595332622528076,
       "step": 570
     },
     {
-      "epoch": 1.63,
-      "learning_rate": 9.869388139903495e-08,
-      "logits/chosen": 0.10782919079065323,
-      "logits/rejected": 0.24453851580619812,
-      "logps/chosen": -450.1046447753906,
-      "logps/rejected": -441.09423828125,
-      "loss": 0.4365,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -1.4769065380096436,
-      "rewards/margins": 0.961212158203125,
-      "rewards/rejected": -2.4381186962127686,
       "step": 580
     },
     {
-      "epoch": 1.66,
-      "learning_rate": 8.452144078061818e-08,
-      "logits/chosen": 0.11311250925064087,
-      "logits/rejected": 0.20588190853595734,
-      "logps/chosen": -456.86651611328125,
-      "logps/rejected": -440.79522705078125,
-      "loss": 0.421,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -1.3025306463241577,
-      "rewards/margins": 1.0000852346420288,
-      "rewards/rejected": -2.3026156425476074,
       "step": 590
     },
     {
-      "epoch": 1.69,
-      "learning_rate": 7.135305900598321e-08,
-      "logits/chosen": 0.098525270819664,
-      "logits/rejected": 0.130577951669693,
-      "logps/chosen": -482.8675231933594,
-      "logps/rejected": -454.3839416503906,
-      "loss": 0.425,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -1.3758327960968018,
-      "rewards/margins": 1.0098109245300293,
-      "rewards/rejected": -2.385643482208252,
       "step": 600
     },
     {
-      "epoch": 1.71,
-      "learning_rate": 5.9220559209888166e-08,
-      "logits/chosen": 0.12863394618034363,
-      "logits/rejected": 0.2220972329378128,
-      "logps/chosen": -452.0274963378906,
-      "logps/rejected": -440.5245056152344,
-      "loss": 0.4298,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -1.3830971717834473,
-      "rewards/margins": 0.8341871500015259,
-      "rewards/rejected": -2.2172844409942627,
       "step": 610
     },
     {
-      "epoch": 1.74,
-      "learning_rate": 4.815326118139812e-08,
-      "logits/chosen": 0.14287936687469482,
-      "logits/rejected": 0.13712283968925476,
-      "logps/chosen": -474.3755798339844,
-      "logps/rejected": -486.14990234375,
-      "loss": 0.4246,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -1.4315396547317505,
-      "rewards/margins": 1.0544227361679077,
-      "rewards/rejected": -2.485962152481079,
       "step": 620
     },
     {
-      "epoch": 1.77,
-      "learning_rate": 3.81779105087407e-08,
-      "logits/chosen": 0.14620047807693481,
-      "logits/rejected": 0.21817556023597717,
-      "logps/chosen": -451.8016662597656,
-      "logps/rejected": -432.9596252441406,
-      "loss": 0.4295,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -1.2709461450576782,
-      "rewards/margins": 0.9339249730110168,
-      "rewards/rejected": -2.204871416091919,
       "step": 630
     },
     {
-      "epoch": 1.8,
-      "learning_rate": 2.9318613945057637e-08,
-      "logits/chosen": 0.0016353667015209794,
-      "logits/rejected": 0.23649592697620392,
-      "logps/chosen": -477.099365234375,
-      "logps/rejected": -415.2720642089844,
-      "loss": 0.4428,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -1.344804286956787,
-      "rewards/margins": 0.9026709794998169,
-      "rewards/rejected": -2.2474751472473145,
       "step": 640
     },
     {
-      "epoch": 1.83,
-      "learning_rate": 2.1596781151249523e-08,
-      "logits/chosen": -0.06956810504198074,
-      "logits/rejected": -0.0018444955348968506,
-      "logps/chosen": -468.0699157714844,
-      "logps/rejected": -474.00836181640625,
-      "loss": 0.4289,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -1.4303033351898193,
-      "rewards/margins": 0.9660947918891907,
-      "rewards/rejected": -2.3963983058929443,
       "step": 650
     },
     {
-      "epoch": 1.85,
-      "learning_rate": 1.5031072956701695e-08,
-      "logits/chosen": 0.042386557906866074,
-      "logits/rejected": 0.15546925365924835,
-      "logps/chosen": -449.479248046875,
-      "logps/rejected": -451.030029296875,
-      "loss": 0.4098,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -1.3264482021331787,
-      "rewards/margins": 1.013242483139038,
-      "rewards/rejected": -2.339690685272217,
       "step": 660
     },
     {
-      "epoch": 1.88,
-      "learning_rate": 9.637356262923723e-09,
-      "logits/chosen": 0.19987715780735016,
-      "logits/rejected": 0.2147083580493927,
-      "logps/chosen": -442.2478942871094,
-      "logps/rejected": -498.5135803222656,
-      "loss": 0.4366,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -1.4089267253875732,
-      "rewards/margins": 0.8173344731330872,
-      "rewards/rejected": -2.2262613773345947,
       "step": 670
     },
     {
-      "epoch": 1.91,
-      "learning_rate": 5.428665699084789e-09,
-      "logits/chosen": 0.07416690140962601,
-      "logits/rejected": 0.22547590732574463,
-      "logps/chosen": -502.95697021484375,
-      "logps/rejected": -450.96240234375,
-      "loss": 0.4242,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -1.4106862545013428,
-      "rewards/margins": 1.1577404737472534,
-      "rewards/rejected": -2.5684268474578857,
       "step": 680
     },
     {
-      "epoch": 1.94,
-      "learning_rate": 2.415172122110343e-09,
-      "logits/chosen": -0.00970786064863205,
-      "logits/rejected": 0.05405278131365776,
-      "logps/chosen": -458.316162109375,
-      "logps/rejected": -453.9439392089844,
-      "loss": 0.4181,
-      "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": -1.323976755142212,
-      "rewards/margins": 1.0404564142227173,
-      "rewards/rejected": -2.3644330501556396,
       "step": 690
     },
     {
-      "epoch": 1.97,
-      "learning_rate": 6.041580374618327e-10,
-      "logits/chosen": 0.12609393894672394,
-      "logits/rejected": 0.2315949946641922,
-      "logps/chosen": -495.66131591796875,
-      "logps/rejected": -441.9322814941406,
-      "loss": 0.4258,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -1.3327795267105103,
-      "rewards/margins": 0.9337853193283081,
-      "rewards/rejected": -2.2665648460388184,
       "step": 700
     },
     {
-      "epoch": 2.0,
-      "learning_rate": 0.0,
-      "logits/chosen": 0.14247271418571472,
-      "logits/rejected": 0.29050010442733765,
-      "logps/chosen": -489.2774353027344,
-      "logps/rejected": -482.40673828125,
-      "loss": 0.4449,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -1.5219498872756958,
-      "rewards/margins": 0.960778534412384,
-      "rewards/rejected": -2.4827284812927246,
       "step": 710
     },
     {
       "epoch": 2.0,
-      "step": 710,
       "total_flos": 0.0,
-      "train_loss": 0.5404887232981938,
-      "train_runtime": 10311.708,
-      "train_samples_per_second": 8.834,
-      "train_steps_per_second": 0.069
     }
   ],
   "logging_steps": 10,
-  "max_steps": 710,
   "num_train_epochs": 2,
-  "save_steps": 10000,
   "total_flos": 0.0,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9968602825745683,
+  "eval_steps": 100,
+  "global_step": 954,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.02,
+      "learning_rate": 1.0416666666666667e-07,
+      "logits/chosen": 0.294111967086792,
+      "logits/rejected": 0.3186231553554535,
+      "logps/chosen": -295.23431396484375,
+      "logps/rejected": -290.9120178222656,
+      "loss": 0.1859,
+      "rewards/accuracies": 0.44999998807907104,
+      "rewards/chosen": 6.947966903680936e-05,
+      "rewards/margins": 0.0006955973221920431,
+      "rewards/rejected": -0.0006261176313273609,
       "step": 10
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 2.0833333333333333e-07,
+      "logits/chosen": 0.2527770400047302,
+      "logits/rejected": 0.3252316415309906,
+      "logps/chosen": -318.26434326171875,
+      "logps/rejected": -289.712158203125,
+      "loss": 0.1867,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.0002512992941774428,
+      "rewards/margins": 0.0006638198392465711,
+      "rewards/rejected": -0.0009151192498393357,
       "step": 20
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 3.1249999999999997e-07,
+      "logits/chosen": 0.33200520277023315,
+      "logits/rejected": 0.386562705039978,
+      "logps/chosen": -296.428466796875,
+      "logps/rejected": -283.0581970214844,
+      "loss": 0.1751,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.0013968495186418295,
+      "rewards/margins": 0.002019281964749098,
+      "rewards/rejected": -0.003416131716221571,
       "step": 30
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": 0.22856274247169495,
+      "logits/rejected": 0.32988241314888,
+      "logps/chosen": -305.99603271484375,
+      "logps/rejected": -293.2794189453125,
+      "loss": 0.1853,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.0037044710479676723,
+      "rewards/margins": 0.006597139872610569,
+      "rewards/rejected": -0.010301610454916954,
       "step": 40
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 5.208333333333334e-07,
+      "logits/chosen": 0.2711636424064636,
+      "logits/rejected": 0.3201292157173157,
+      "logps/chosen": -314.5457458496094,
+      "logps/rejected": -306.9486083984375,
+      "loss": 0.1804,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.008643127046525478,
+      "rewards/margins": 0.0160285122692585,
+      "rewards/rejected": -0.024671640247106552,
       "step": 50
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 6.249999999999999e-07,
+      "logits/chosen": 0.318474680185318,
+      "logits/rejected": 0.4364282488822937,
+      "logps/chosen": -294.63751220703125,
+      "logps/rejected": -272.2162780761719,
+      "loss": 0.1829,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.02497897669672966,
+      "rewards/margins": 0.03536849468946457,
+      "rewards/rejected": -0.06034746766090393,
       "step": 60
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 7.291666666666666e-07,
+      "logits/chosen": 0.3239240050315857,
+      "logits/rejected": 0.3422989249229431,
+      "logps/chosen": -304.72418212890625,
+      "logps/rejected": -310.6500549316406,
+      "loss": 0.1733,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.05714759975671768,
+      "rewards/margins": 0.04348129406571388,
+      "rewards/rejected": -0.10062889009714127,
       "step": 70
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 8.333333333333333e-07,
+      "logits/chosen": 0.35590413212776184,
+      "logits/rejected": 0.4268670678138733,
+      "logps/chosen": -306.149169921875,
+      "logps/rejected": -279.54949951171875,
+      "loss": 0.1565,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.10662279278039932,
+      "rewards/margins": 0.10379795730113983,
+      "rewards/rejected": -0.21042077243328094,
       "step": 80
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 9.374999999999999e-07,
+      "logits/chosen": 0.35440078377723694,
+      "logits/rejected": 0.46889105439186096,
+      "logps/chosen": -340.5415954589844,
+      "logps/rejected": -296.3750915527344,
+      "loss": 0.1275,
       "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.2491822987794876,
+      "rewards/margins": 0.09365006536245346,
+      "rewards/rejected": -0.34283238649368286,
       "step": 90
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 9.999463737538052e-07,
+      "logits/chosen": 0.4465979039669037,
+      "logits/rejected": 0.4796988070011139,
+      "logps/chosen": -326.7769470214844,
+      "logps/rejected": -353.57916259765625,
+      "loss": 0.1135,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.39248064160346985,
+      "rewards/margins": 0.1683400571346283,
+      "rewards/rejected": -0.5608206987380981,
       "step": 100
     },
     {
+      "epoch": 0.21,
+      "eval_logits/chosen": 0.5124487280845642,
+      "eval_logits/rejected": 0.5669243931770325,
+      "eval_logps/chosen": -344.704833984375,
+      "eval_logps/rejected": -387.95428466796875,
+      "eval_loss": 0.10603953152894974,
+      "eval_rewards/accuracies": 0.70703125,
+      "eval_rewards/chosen": -0.4112018942832947,
+      "eval_rewards/margins": 0.35208994150161743,
+      "eval_rewards/rejected": -0.7632918357849121,
+      "eval_runtime": 72.7637,
+      "eval_samples_per_second": 27.486,
+      "eval_steps_per_second": 0.44,
+      "step": 100
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 9.993432105822034e-07,
+      "logits/chosen": 0.46603718400001526,
+      "logits/rejected": 0.5153345465660095,
+      "logps/chosen": -368.1249694824219,
+      "logps/rejected": -372.76104736328125,
+      "loss": 0.0948,
       "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.546645998954773,
+      "rewards/margins": 0.3340264856815338,
+      "rewards/rejected": -0.8806723356246948,
       "step": 110
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 9.980706626858607e-07,
+      "logits/chosen": 0.3831257224082947,
+      "logits/rejected": 0.4766886830329895,
+      "logps/chosen": -413.6620178222656,
+      "logps/rejected": -443.69097900390625,
+      "loss": 0.0872,
       "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.6011692881584167,
+      "rewards/margins": 0.3687607944011688,
+      "rewards/rejected": -0.9699299931526184,
       "step": 120
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 9.961304359538434e-07,
+      "logits/chosen": 0.2602660059928894,
+      "logits/rejected": 0.38597235083580017,
+      "logps/chosen": -382.05316162109375,
+      "logps/rejected": -372.43804931640625,
+      "loss": 0.088,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.5223852396011353,
+      "rewards/margins": 0.23098063468933105,
+      "rewards/rejected": -0.7533659338951111,
       "step": 130
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 9.935251313189563e-07,
+      "logits/chosen": 0.30170053243637085,
+      "logits/rejected": 0.34471625089645386,
+      "logps/chosen": -358.23101806640625,
+      "logps/rejected": -367.53643798828125,
+      "loss": 0.0912,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.44500336050987244,
+      "rewards/margins": 0.29020196199417114,
+      "rewards/rejected": -0.7352052927017212,
       "step": 140
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 9.902582412711118e-07,
+      "logits/chosen": 0.2502862811088562,
+      "logits/rejected": 0.41286569833755493,
+      "logps/chosen": -331.702392578125,
+      "logps/rejected": -343.1724548339844,
+      "loss": 0.0805,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.5062417984008789,
+      "rewards/margins": 0.3571576774120331,
+      "rewards/rejected": -0.8633993864059448,
       "step": 150
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 9.86334145175542e-07,
+      "logits/chosen": 0.2876195013523102,
+      "logits/rejected": 0.40448102355003357,
+      "logps/chosen": -360.23065185546875,
+      "logps/rejected": -405.818603515625,
+      "loss": 0.0739,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.6673613786697388,
+      "rewards/margins": 0.4857359826564789,
+      "rewards/rejected": -1.15309739112854,
       "step": 160
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 9.817581034021272e-07,
+      "logits/chosen": 0.2106766402721405,
+      "logits/rejected": 0.3229225277900696,
+      "logps/chosen": -428.03643798828125,
+      "logps/rejected": -429.11322021484375,
+      "loss": 0.0617,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.6919075846672058,
+      "rewards/margins": 0.339050829410553,
+      "rewards/rejected": -1.0309584140777588,
       "step": 170
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 9.765362502737097e-07,
+      "logits/chosen": 0.2592887878417969,
+      "logits/rejected": 0.32125118374824524,
+      "logps/chosen": -373.13519287109375,
+      "logps/rejected": -411.79132080078125,
+      "loss": 0.0567,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.795512855052948,
+      "rewards/margins": 0.5069063901901245,
+      "rewards/rejected": -1.3024193048477173,
       "step": 180
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 9.706755858428485e-07,
+      "logits/chosen": 0.3405285179615021,
+      "logits/rejected": 0.4521329998970032,
+      "logps/chosen": -348.65020751953125,
+      "logps/rejected": -362.8314208984375,
+      "loss": 0.0642,
       "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.8077024221420288,
+      "rewards/margins": 0.4007204473018646,
+      "rewards/rejected": -1.2084228992462158,
       "step": 190
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 9.641839665080363e-07,
+      "logits/chosen": 0.2780831456184387,
+      "logits/rejected": 0.38184481859207153,
+      "logps/chosen": -348.57135009765625,
+      "logps/rejected": -405.402099609375,
+      "loss": 0.0648,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.730074405670166,
+      "rewards/margins": 0.5448073148727417,
+      "rewards/rejected": -1.2748818397521973,
       "step": 200
     },
     {
+      "epoch": 0.42,
+      "eval_logits/chosen": 0.31048065423965454,
+      "eval_logits/rejected": 0.3866545557975769,
+      "eval_logps/chosen": -372.07177734375,
+      "eval_logps/rejected": -442.6331787109375,
+      "eval_loss": 0.06636561453342438,
+      "eval_rewards/accuracies": 0.71875,
+      "eval_rewards/chosen": -0.6848713755607605,
+      "eval_rewards/margins": 0.6252094507217407,
+      "eval_rewards/rejected": -1.3100807666778564,
+      "eval_runtime": 74.8918,
+      "eval_samples_per_second": 26.705,
+      "eval_steps_per_second": 0.427,
+      "step": 200
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 9.570700944819582e-07,
+      "logits/chosen": 0.23630718886852264,
+      "logits/rejected": 0.31974127888679504,
+      "logps/chosen": -394.2319641113281,
+      "logps/rejected": -433.3797912597656,
+      "loss": 0.0565,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.7185484170913696,
+      "rewards/margins": 0.5530284643173218,
+      "rewards/rejected": -1.271577000617981,
       "step": 210
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 9.493435061259129e-07,
+      "logits/chosen": 0.13368266820907593,
+      "logits/rejected": 0.32444554567337036,
+      "logps/chosen": -409.3749084472656,
+      "logps/rejected": -413.44097900390625,
+      "loss": 0.0558,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.8843868374824524,
+      "rewards/margins": 0.42033252120018005,
+      "rewards/rejected": -1.3047194480895996,
       "step": 220
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 9.4101455916603e-07,
+      "logits/chosen": 0.23291189968585968,
+      "logits/rejected": 0.3359973430633545,
+      "logps/chosen": -385.23681640625,
+      "logps/rejected": -439.33294677734375,
+      "loss": 0.0557,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -1.0321977138519287,
+      "rewards/margins": 0.5443316102027893,
+      "rewards/rejected": -1.5765292644500732,
       "step": 230
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 9.320944188084241e-07,
+      "logits/chosen": 0.1577446311712265,
+      "logits/rejected": 0.2382678985595703,
+      "logps/chosen": -437.01275634765625,
+      "logps/rejected": -492.4737243652344,
+      "loss": 0.0618,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.8377536535263062,
+      "rewards/margins": 0.61639404296875,
+      "rewards/rejected": -1.4541476964950562,
       "step": 240
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 9.225950427718974e-07,
+      "logits/chosen": 0.19211766123771667,
+      "logits/rejected": 0.27316194772720337,
+      "logps/chosen": -396.7606201171875,
+      "logps/rejected": -429.4735412597656,
+      "loss": 0.0599,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.8097313046455383,
+      "rewards/margins": 0.5714440941810608,
+      "rewards/rejected": -1.3811752796173096,
       "step": 250
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 9.125291652582547e-07,
+      "logits/chosen": 0.2013740837574005,
+      "logits/rejected": 0.3595736622810364,
+      "logps/chosen": -440.74432373046875,
+      "logps/rejected": -463.736572265625,
+      "loss": 0.0633,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.9895216822624207,
+      "rewards/margins": 0.7094276547431946,
+      "rewards/rejected": -1.6989490985870361,
       "step": 260
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 9.019102798817195e-07,
+      "logits/chosen": 0.2775947153568268,
+      "logits/rejected": 0.3985646963119507,
+      "logps/chosen": -395.5704345703125,
+      "logps/rejected": -408.7200622558594,
+      "loss": 0.0775,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.6699169874191284,
+      "rewards/margins": 0.4529454708099365,
+      "rewards/rejected": -1.122862458229065,
       "step": 270
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 8.90752621580335e-07,
+      "logits/chosen": 0.25832900404930115,
+      "logits/rejected": 0.3815799355506897,
+      "logps/chosen": -392.74462890625,
+      "logps/rejected": -462.65399169921875,
+      "loss": 0.0621,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.8548792004585266,
+      "rewards/margins": 0.5883964896202087,
+      "rewards/rejected": -1.4432756900787354,
       "step": 280
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 8.79071147533597e-07,
+      "logits/chosen": 0.27000856399536133,
+      "logits/rejected": 0.3684462904930115,
+      "logps/chosen": -373.5545654296875,
+      "logps/rejected": -402.52203369140625,
+      "loss": 0.0565,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.7661363482475281,
+      "rewards/margins": 0.4899563789367676,
+      "rewards/rejected": -1.2560927867889404,
       "step": 290
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 8.668815171119019e-07,
+      "logits/chosen": 0.20499548316001892,
+      "logits/rejected": 0.4121769070625305,
+      "logps/chosen": -405.9000549316406,
+      "logps/rejected": -392.7608337402344,
+      "loss": 0.0565,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.9424744844436646,
+      "rewards/margins": 0.392583429813385,
+      "rewards/rejected": -1.3350577354431152,
       "step": 300
     },
     {
+      "epoch": 0.63,
+      "eval_logits/chosen": 0.28342685103416443,
+      "eval_logits/rejected": 0.3624545931816101,
+      "eval_logps/chosen": -379.5645751953125,
+      "eval_logps/rejected": -461.2485656738281,
+      "eval_loss": 0.05852030962705612,
+      "eval_rewards/accuracies": 0.73046875,
+      "eval_rewards/chosen": -0.7597990036010742,
+      "eval_rewards/margins": 0.7364358305931091,
+      "eval_rewards/rejected": -1.4962347745895386,
+      "eval_runtime": 74.348,
+      "eval_samples_per_second": 26.901,
+      "eval_steps_per_second": 0.43,
+      "step": 300
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 8.54200070884685e-07,
+      "logits/chosen": 0.2647777199745178,
+      "logits/rejected": 0.28958767652511597,
+      "logps/chosen": -424.25604248046875,
+      "logps/rejected": -472.11639404296875,
+      "loss": 0.0603,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -1.0271676778793335,
+      "rewards/margins": 0.4712137281894684,
+      "rewards/rejected": -1.4983813762664795,
       "step": 310
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 8.410438087153911e-07,
+      "logits/chosen": 0.18836882710456848,
+      "logits/rejected": 0.3168850541114807,
+      "logps/chosen": -439.59716796875,
+      "logps/rejected": -433.8974609375,
+      "loss": 0.0608,
       "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.8473286628723145,
+      "rewards/margins": 0.38924068212509155,
+      "rewards/rejected": -1.2365691661834717,
       "step": 320
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 8.274303669726426e-07,
+      "logits/chosen": 0.23949918150901794,
+      "logits/rejected": 0.25133609771728516,
+      "logps/chosen": -380.25909423828125,
+      "logps/rejected": -497.5677185058594,
+      "loss": 0.0576,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.7643330097198486,
+      "rewards/margins": 0.8182552456855774,
+      "rewards/rejected": -1.5825883150100708,
       "step": 330
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 8.133779948881513e-07,
+      "logits/chosen": 0.2764629125595093,
+      "logits/rejected": 0.2793533205986023,
+      "logps/chosen": -400.74652099609375,
+      "logps/rejected": -499.9100036621094,
+      "loss": 0.0488,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -1.11314058303833,
+      "rewards/margins": 0.7436734437942505,
+      "rewards/rejected": -1.8568140268325806,
       "step": 340
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 7.989055300930704e-07,
+      "logits/chosen": 0.321544349193573,
+      "logits/rejected": 0.34274429082870483,
+      "logps/chosen": -420.0064392089844,
+      "logps/rejected": -518.2902221679688,
+      "loss": 0.047,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.1256664991378784,
+      "rewards/margins": 0.7915542125701904,
+      "rewards/rejected": -1.9172207117080688,
       "step": 350
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 7.840323733655778e-07,
+      "logits/chosen": 0.25519177317619324,
+      "logits/rejected": 0.36787793040275574,
+      "logps/chosen": -438.910400390625,
+      "logps/rejected": -482.37774658203125,
+      "loss": 0.0508,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.9125250577926636,
+      "rewards/margins": 0.8073097467422485,
+      "rewards/rejected": -1.7198346853256226,
       "step": 360
     },
     {
+      "epoch": 0.77,
+      "learning_rate": 7.687784626235447e-07,
+      "logits/chosen": 0.24404089152812958,
+      "logits/rejected": 0.3457106649875641,
+      "logps/chosen": -447.19036865234375,
+      "logps/rejected": -464.69091796875,
+      "loss": 0.0524,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.9422460794448853,
+      "rewards/margins": 0.6395829916000366,
+      "rewards/rejected": -1.5818291902542114,
       "step": 370
     },
     {
+      "epoch": 0.8,
+      "learning_rate": 7.531642461971514e-07,
+      "logits/chosen": 0.13880091905593872,
+      "logits/rejected": 0.28412070870399475,
+      "logps/chosen": -437.6341247558594,
+      "logps/rejected": -500.48712158203125,
+      "loss": 0.0526,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.0558099746704102,
+      "rewards/margins": 0.8256821632385254,
+      "rewards/rejected": -1.881492018699646,
       "step": 380
     },
     {
+      "epoch": 0.82,
+      "learning_rate": 7.372106554172801e-07,
+      "logits/chosen": 0.19525602459907532,
+      "logits/rejected": 0.29236602783203125,
+      "logps/chosen": -405.10064697265625,
+      "logps/rejected": -449.4366149902344,
+      "loss": 0.06,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.8169919848442078,
+      "rewards/margins": 0.6195858120918274,
+      "rewards/rejected": -1.4365779161453247,
       "step": 390
     },
     {
+      "epoch": 0.84,
+      "learning_rate": 7.209390765564318e-07,
+      "logits/chosen": 0.157417893409729,
+      "logits/rejected": 0.24023254215717316,
+      "logps/chosen": -378.41204833984375,
+      "logps/rejected": -445.98272705078125,
+      "loss": 0.0643,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.813235878944397,
+      "rewards/margins": 0.5227171182632446,
+      "rewards/rejected": -1.3359529972076416,
       "step": 400
     },
     {
+      "epoch": 0.84,
+      "eval_logits/chosen": 0.18623091280460358,
+      "eval_logits/rejected": 0.2607361972332001,
+      "eval_logps/chosen": -370.18780517578125,
+      "eval_logps/rejected": -451.6427917480469,
+      "eval_loss": 0.06227795034646988,
+      "eval_rewards/accuracies": 0.73046875,
+      "eval_rewards/chosen": -0.6660312414169312,
+      "eval_rewards/margins": 0.7341459393501282,
+      "eval_rewards/rejected": -1.400177240371704,
+      "eval_runtime": 75.0562,
+      "eval_samples_per_second": 26.647,
+      "eval_steps_per_second": 0.426,
+      "step": 400
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.043713221597773e-07,
+      "logits/chosen": 0.13670489192008972,
+      "logits/rejected": 0.21374602615833282,
+      "logps/chosen": -379.88201904296875,
+      "logps/rejected": -425.9203186035156,
+      "loss": 0.0629,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.6690796613693237,
+      "rewards/margins": 0.6432248950004578,
+      "rewards/rejected": -1.3123046159744263,
       "step": 410
     },
     {
+      "epoch": 0.88,
+      "learning_rate": 6.875296018047809e-07,
+      "logits/chosen": 0.15494689345359802,
+      "logits/rejected": 0.22296158969402313,
+      "logps/chosen": -377.009765625,
+      "logps/rejected": -412.5980529785156,
+      "loss": 0.0605,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.6854912042617798,
+      "rewards/margins": 0.6449334025382996,
+      "rewards/rejected": -1.3304245471954346,
       "step": 420
     },
     {
+      "epoch": 0.9,
+      "learning_rate": 6.704364923285857e-07,
+      "logits/chosen": 0.10000725835561752,
+      "logits/rejected": 0.20355455577373505,
+      "logps/chosen": -442.444580078125,
+      "logps/rejected": -475.17901611328125,
+      "loss": 0.0633,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.920007050037384,
+      "rewards/margins": 0.6362106204032898,
+      "rewards/rejected": -1.5562175512313843,
       "step": 430
     },
     {
+      "epoch": 0.92,
+      "learning_rate": 6.531149075630796e-07,
+      "logits/chosen": 0.18681207299232483,
+      "logits/rejected": 0.24837341904640198,
+      "logps/chosen": -394.078857421875,
+      "logps/rejected": -446.2527770996094,
+      "loss": 0.0585,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.9974417686462402,
+      "rewards/margins": 0.7502747774124146,
+      "rewards/rejected": -1.7477165460586548,
       "step": 440
     },
     {
+      "epoch": 0.94,
+      "learning_rate": 6.355880676182085e-07,
+      "logits/chosen": 0.1681515872478485,
+      "logits/rejected": 0.34068578481674194,
+      "logps/chosen": -438.5791015625,
+      "logps/rejected": -468.8702087402344,
+      "loss": 0.056,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.959572434425354,
+      "rewards/margins": 0.6984410881996155,
+      "rewards/rejected": -1.6580133438110352,
       "step": 450
     },
     {
+      "epoch": 0.96,
+      "learning_rate": 6.178794677547137e-07,
+      "logits/chosen": 0.22829516232013702,
+      "logits/rejected": 0.33127135038375854,
+      "logps/chosen": -417.236572265625,
+      "logps/rejected": -454.47930908203125,
+      "loss": 0.0488,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -1.1504933834075928,
+      "rewards/margins": 0.6518447399139404,
+      "rewards/rejected": -1.8023380041122437,
       "step": 460
     },
     {
+      "epoch": 0.98,
+      "learning_rate": 6.000128468880222e-07,
+      "logits/chosen": 0.1735696941614151,
+      "logits/rejected": 0.23917797207832336,
+      "logps/chosen": -441.33526611328125,
+      "logps/rejected": -507.3721618652344,
+      "loss": 0.0469,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.0348496437072754,
+      "rewards/margins": 0.6962344646453857,
+      "rewards/rejected": -1.7310841083526611,
       "step": 470
     },
     {
+      "epoch": 1.0,
+      "learning_rate": 5.820121557655108e-07,
+      "logits/chosen": 0.16151778399944305,
+      "logits/rejected": 0.30070850253105164,
+      "logps/chosen": -389.2116394042969,
+      "logps/rejected": -456.37554931640625,
+      "loss": 0.0468,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.9426639676094055,
+      "rewards/margins": 0.6416986584663391,
+      "rewards/rejected": -1.5843626260757446,
       "step": 480
     },
     {
+      "epoch": 1.03,
+      "learning_rate": 5.639015248598023e-07,
+      "logits/chosen": 0.2655644118785858,
+      "logits/rejected": 0.3393844962120056,
+      "logps/chosen": -394.0737609863281,
+      "logps/rejected": -481.3250427246094,
+      "loss": 0.0334,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.886431097984314,
+      "rewards/margins": 1.0793970823287964,
+      "rewards/rejected": -1.9658282995224,
       "step": 490
     },
     {
+      "epoch": 1.05,
+      "learning_rate": 5.457052320211339e-07,
+      "logits/chosen": 0.30765271186828613,
+      "logits/rejected": 0.33542585372924805,
+      "logps/chosen": -416.736083984375,
+      "logps/rejected": -526.0009765625,
+      "loss": 0.0214,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.1540133953094482,
+      "rewards/margins": 1.152156114578247,
+      "rewards/rejected": -2.3061697483062744,
       "step": 500
     },
     {
+      "epoch": 1.05,
+      "eval_logits/chosen": 0.4214042127132416,
+      "eval_logits/rejected": 0.4999687075614929,
+      "eval_logps/chosen": -460.466796875,
+      "eval_logps/rejected": -587.046875,
+      "eval_loss": 0.030972089618444443,
+      "eval_rewards/accuracies": 0.7421875,
+      "eval_rewards/chosen": -1.5688213109970093,
+      "eval_rewards/margins": 1.185396432876587,
+      "eval_rewards/rejected": -2.7542178630828857,
+      "eval_runtime": 74.4978,
+      "eval_samples_per_second": 26.846,
+      "eval_steps_per_second": 0.43,
+      "step": 500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 5.274476699321637e-07,
+      "logits/chosen": 0.35821476578712463,
+      "logits/rejected": 0.46395426988601685,
+      "logps/chosen": -462.271484375,
+      "logps/rejected": -581.0950927734375,
+      "loss": 0.0148,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -1.6695778369903564,
+      "rewards/margins": 1.4044713973999023,
+      "rewards/rejected": -3.074049472808838,
       "step": 510
     },
     {
+      "epoch": 1.09,
+      "learning_rate": 5.091533134088387e-07,
+      "logits/chosen": 0.3840331435203552,
+      "logits/rejected": 0.5413318872451782,
+      "logps/chosen": -466.8184509277344,
+      "logps/rejected": -561.7572631835938,
+      "loss": 0.0145,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.635196328163147,
+      "rewards/margins": 1.1625127792358398,
+      "rewards/rejected": -2.7977089881896973,
       "step": 520
     },
     {
+      "epoch": 1.11,
+      "learning_rate": 4.908466865911614e-07,
+      "logits/chosen": 0.3811998963356018,
+      "logits/rejected": 0.5391031503677368,
+      "logps/chosen": -462.8243103027344,
+      "logps/rejected": -599.1219482421875,
+      "loss": 0.0153,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.5375772714614868,
+      "rewards/margins": 1.5291885137557983,
+      "rewards/rejected": -3.066765785217285,
       "step": 530
     },
     {
+      "epoch": 1.13,
+      "learning_rate": 4.7255233006783624e-07,
+      "logits/chosen": 0.29220065474510193,
+      "logits/rejected": 0.5385439395904541,
+      "logps/chosen": -494.8135681152344,
+      "logps/rejected": -553.2826538085938,
+      "loss": 0.0152,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.4295642375946045,
+      "rewards/margins": 1.265754222869873,
+      "rewards/rejected": -2.6953186988830566,
       "step": 540
     },
     {
+      "epoch": 1.15,
+      "learning_rate": 4.5429476797886617e-07,
+      "logits/chosen": 0.36708998680114746,
+      "logits/rejected": 0.4897306561470032,
+      "logps/chosen": -459.0501403808594,
+      "logps/rejected": -559.3533935546875,
+      "loss": 0.0156,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -1.6044361591339111,
+      "rewards/margins": 1.0187304019927979,
+      "rewards/rejected": -2.623166561126709,
       "step": 550
     },
     {
+      "epoch": 1.17,
+      "learning_rate": 4.3609847514019763e-07,
+      "logits/chosen": 0.401399701833725,
+      "logits/rejected": 0.5879624485969543,
+      "logps/chosen": -483.4132385253906,
+      "logps/rejected": -575.8525390625,
+      "loss": 0.0143,
       "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -1.5152244567871094,
+      "rewards/margins": 1.3872954845428467,
+      "rewards/rejected": -2.902519702911377,
       "step": 560
     },
     {
+      "epoch": 1.19,
+      "learning_rate": 4.179878442344892e-07,
+      "logits/chosen": 0.3999864161014557,
+      "logits/rejected": 0.5597594976425171,
+      "logps/chosen": -466.9307556152344,
+      "logps/rejected": -579.4730834960938,
+      "loss": 0.0142,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.7734342813491821,
+      "rewards/margins": 1.3825814723968506,
+      "rewards/rejected": -3.1560158729553223,
       "step": 570
     },
     {
+      "epoch": 1.21,
+      "learning_rate": 3.9998715311197783e-07,
+      "logits/chosen": 0.43183040618896484,
+      "logits/rejected": 0.49680033326148987,
+      "logps/chosen": -505.7025451660156,
+      "logps/rejected": -659.0694580078125,
+      "loss": 0.0109,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -2.024803638458252,
+      "rewards/margins": 1.5267921686172485,
+      "rewards/rejected": -3.5515952110290527,
       "step": 580
     },
     {
+      "epoch": 1.23,
+      "learning_rate": 3.821205322452863e-07,
+      "logits/chosen": 0.45015770196914673,
+      "logits/rejected": 0.6397759318351746,
+      "logps/chosen": -516.25830078125,
+      "logps/rejected": -631.279052734375,
+      "loss": 0.0115,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.9833446741104126,
+      "rewards/margins": 1.3147289752960205,
+      "rewards/rejected": -3.2980740070343018,
       "step": 590
     },
     {
+      "epoch": 1.26,
+      "learning_rate": 3.6441193238179146e-07,
+      "logits/chosen": 0.46848899126052856,
+      "logits/rejected": 0.5270673036575317,
+      "logps/chosen": -509.9579162597656,
+      "logps/rejected": -689.2035522460938,
+      "loss": 0.0145,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -1.8605167865753174,
+      "rewards/margins": 1.5842502117156982,
+      "rewards/rejected": -3.4447669982910156,
       "step": 600
     },
     {
+      "epoch": 1.26,
+      "eval_logits/chosen": 0.5416067838668823,
+      "eval_logits/rejected": 0.63544762134552,
+      "eval_logps/chosen": -482.76092529296875,
+      "eval_logps/rejected": -615.6082763671875,
+      "eval_loss": 0.024462632834911346,
+      "eval_rewards/accuracies": 0.734375,
+      "eval_rewards/chosen": -1.7917625904083252,
+      "eval_rewards/margins": 1.2480695247650146,
+      "eval_rewards/rejected": -3.039832353591919,
+      "eval_runtime": 75.4471,
+      "eval_samples_per_second": 26.509,
+      "eval_steps_per_second": 0.424,
+      "step": 600
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 3.4688509243692034e-07,
+      "logits/chosen": 0.47085338830947876,
+      "logits/rejected": 0.5862728357315063,
+      "logps/chosen": -508.70098876953125,
+      "logps/rejected": -643.3338623046875,
+      "loss": 0.0121,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -1.7418628931045532,
+      "rewards/margins": 1.5565435886383057,
+      "rewards/rejected": -3.2984061241149902,
       "step": 610
     },
     {
+      "epoch": 1.3,
+      "learning_rate": 3.295635076714144e-07,
+      "logits/chosen": 0.3978613018989563,
+      "logits/rejected": 0.5926721096038818,
+      "logps/chosen": -494.2681579589844,
+      "logps/rejected": -604.7338256835938,
+      "loss": 0.0114,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.8917449712753296,
+      "rewards/margins": 1.2589935064315796,
+      "rewards/rejected": -3.1507387161254883,
       "step": 620
     },
     {
+      "epoch": 1.32,
+      "learning_rate": 3.12470398195219e-07,
+      "logits/chosen": 0.4904108941555023,
+      "logits/rejected": 0.6586324572563171,
+      "logps/chosen": -502.24322509765625,
+      "logps/rejected": -618.8930053710938,
+      "loss": 0.0112,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.9003562927246094,
+      "rewards/margins": 1.4167784452438354,
+      "rewards/rejected": -3.3171348571777344,
       "step": 630
     },
     {
+      "epoch": 1.34,
+      "learning_rate": 2.956286778402226e-07,
+      "logits/chosen": 0.4602645933628082,
+      "logits/rejected": 0.5689934492111206,
+      "logps/chosen": -449.55718994140625,
+      "logps/rejected": -578.3916625976562,
+      "loss": 0.0118,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.755163550376892,
+      "rewards/margins": 1.4266632795333862,
+      "rewards/rejected": -3.1818270683288574,
       "step": 640
     },
     {
+      "epoch": 1.36,
+      "learning_rate": 2.7906092344356826e-07,
+      "logits/chosen": 0.4582684636116028,
+      "logits/rejected": 0.5123009085655212,
+      "logps/chosen": -464.2190856933594,
+      "logps/rejected": -599.2928466796875,
+      "loss": 0.0127,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.6637153625488281,
+      "rewards/margins": 1.4032952785491943,
+      "rewards/rejected": -3.0670104026794434,
       "step": 650
     },
     {
+      "epoch": 1.38,
+      "learning_rate": 2.6278934458271996e-07,
+      "logits/chosen": 0.3585265576839447,
+      "logits/rejected": 0.5152703523635864,
+      "logps/chosen": -539.8528442382812,
+      "logps/rejected": -647.3905029296875,
+      "loss": 0.0106,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.8331562280654907,
+      "rewards/margins": 1.5139731168746948,
+      "rewards/rejected": -3.3471293449401855,
       "step": 660
     },
     {
+      "epoch": 1.4,
+      "learning_rate": 2.468357538028487e-07,
+      "logits/chosen": 0.4794502854347229,
+      "logits/rejected": 0.6796830892562866,
+      "logps/chosen": -531.4798583984375,
+      "logps/rejected": -636.687255859375,
+      "loss": 0.0106,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -2.1033949851989746,
+      "rewards/margins": 1.3440332412719727,
+      "rewards/rejected": -3.4474282264709473,
       "step": 670
     },
     {
+      "epoch": 1.42,
+      "learning_rate": 2.312215373764551e-07,
+      "logits/chosen": 0.48690152168273926,
+      "logits/rejected": 0.6909142136573792,
+      "logps/chosen": -482.9384765625,
+      "logps/rejected": -627.9971313476562,
+      "loss": 0.0105,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -1.8502315282821655,
+      "rewards/margins": 1.5311414003372192,
+      "rewards/rejected": -3.381373167037964,
       "step": 680
     },
     {
+      "epoch": 1.44,
+      "learning_rate": 2.1596762663442213e-07,
+      "logits/chosen": 0.40491142868995667,
+      "logits/rejected": 0.6269996166229248,
+      "logps/chosen": -517.865234375,
+      "logps/rejected": -638.0469970703125,
+      "loss": 0.0118,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -1.894121766090393,
+      "rewards/margins": 1.5707839727401733,
+      "rewards/rejected": -3.4649059772491455,
       "step": 690
     },
     {
+      "epoch": 1.47,
+      "learning_rate": 2.0109446990692963e-07,
+      "logits/chosen": 0.4644289016723633,
+      "logits/rejected": 0.5091214179992676,
+      "logps/chosen": -506.99554443359375,
+      "logps/rejected": -711.6946411132812,
+      "loss": 0.0098,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -1.9687172174453735,
+      "rewards/margins": 1.7158300876617432,
+      "rewards/rejected": -3.684546709060669,
       "step": 700
     },
     {
+      "epoch": 1.47,
+      "eval_logits/chosen": 0.5851482152938843,
+      "eval_logits/rejected": 0.6870884299278259,
+      "eval_logps/chosen": -507.2100830078125,
+      "eval_logps/rejected": -646.5032958984375,
+      "eval_loss": 0.02104853093624115,
+      "eval_rewards/accuracies": 0.73046875,
+      "eval_rewards/chosen": -2.0362541675567627,
+      "eval_rewards/margins": 1.3125278949737549,
+      "eval_rewards/rejected": -3.3487820625305176,
+      "eval_runtime": 74.9024,
+      "eval_samples_per_second": 26.701,
+      "eval_steps_per_second": 0.427,
+      "step": 700
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 1.8662200511184872e-07,
+      "logits/chosen": 0.5449516773223877,
+      "logits/rejected": 0.7054388523101807,
+      "logps/chosen": -489.23712158203125,
+      "logps/rejected": -618.7713623046875,
+      "loss": 0.0106,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -1.8367626667022705,
+      "rewards/margins": 1.529603362083435,
+      "rewards/rejected": -3.366366147994995,
       "step": 710
     },
+    {
+      "epoch": 1.51,
+      "learning_rate": 1.725696330273575e-07,
+      "logits/chosen": 0.4658689498901367,
+      "logits/rejected": 0.5483459234237671,
+      "logps/chosen": -499.9456481933594,
+      "logps/rejected": -656.5256958007812,
+      "loss": 0.0115,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -1.7960010766983032,
+      "rewards/margins": 1.747243881225586,
+      "rewards/rejected": -3.5432448387145996,
+      "step": 720
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 1.589561912846089e-07,
+      "logits/chosen": 0.5471647381782532,
+      "logits/rejected": 0.7508308291435242,
+      "logps/chosen": -486.8019104003906,
+      "logps/rejected": -648.6491088867188,
+      "loss": 0.012,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.7438154220581055,
+      "rewards/margins": 1.5669682025909424,
+      "rewards/rejected": -3.310783863067627,
+      "step": 730
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 1.4579992911531496e-07,
+      "logits/chosen": 0.43005961179733276,
+      "logits/rejected": 0.5700550079345703,
+      "logps/chosen": -507.7278747558594,
+      "logps/rejected": -604.3984375,
+      "loss": 0.0111,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.9238866567611694,
+      "rewards/margins": 1.2898902893066406,
+      "rewards/rejected": -3.2137768268585205,
+      "step": 740
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 1.3311848288809813e-07,
+      "logits/chosen": 0.5181199312210083,
+      "logits/rejected": 0.7587286233901978,
+      "logps/chosen": -517.6824951171875,
+      "logps/rejected": -604.0447387695312,
+      "loss": 0.0114,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.8500522375106812,
+      "rewards/margins": 1.3126447200775146,
+      "rewards/rejected": -3.1626968383789062,
+      "step": 750
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 1.209288524664029e-07,
+      "logits/chosen": 0.38817617297172546,
+      "logits/rejected": 0.6967793703079224,
+      "logps/chosen": -534.35888671875,
+      "logps/rejected": -617.2965087890625,
+      "loss": 0.0116,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.964895248413086,
+      "rewards/margins": 1.3300648927688599,
+      "rewards/rejected": -3.2949604988098145,
+      "step": 760
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 1.0924737841966497e-07,
+      "logits/chosen": 0.657262921333313,
+      "logits/rejected": 0.8421579599380493,
+      "logps/chosen": -479.6363220214844,
+      "logps/rejected": -551.2875366210938,
+      "loss": 0.0107,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -1.988033652305603,
+      "rewards/margins": 1.0586892366409302,
+      "rewards/rejected": -3.046722888946533,
+      "step": 770
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 9.808972011828054e-08,
+      "logits/chosen": 0.534065842628479,
+      "logits/rejected": 0.7022881507873535,
+      "logps/chosen": -485.6368713378906,
+      "logps/rejected": -590.6656494140625,
+      "loss": 0.0112,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.9203450679779053,
+      "rewards/margins": 1.1289684772491455,
+      "rewards/rejected": -3.04931378364563,
+      "step": 780
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 8.747083474174527e-08,
+      "logits/chosen": 0.6039692163467407,
+      "logits/rejected": 0.7411171197891235,
+      "logps/chosen": -460.4100646972656,
+      "logps/rejected": -635.5348510742188,
+      "loss": 0.01,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -1.8810646533966064,
+      "rewards/margins": 1.626961350440979,
+      "rewards/rejected": -3.508026123046875,
+      "step": 790
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 7.740495722810269e-08,
+      "logits/chosen": 0.35127943754196167,
+      "logits/rejected": 0.535417914390564,
+      "logps/chosen": -558.7343139648438,
+      "logps/rejected": -669.262451171875,
+      "loss": 0.0101,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -2.1135106086730957,
+      "rewards/margins": 1.4616328477859497,
+      "rewards/rejected": -3.575143337249756,
+      "step": 800
+    },
+    {
+      "epoch": 1.67,
+      "eval_logits/chosen": 0.5936872959136963,
+      "eval_logits/rejected": 0.6981104016304016,
+      "eval_logps/chosen": -502.8233642578125,
+      "eval_logps/rejected": -638.039794921875,
+      "eval_loss": 0.021807128563523293,
+      "eval_rewards/accuracies": 0.734375,
+      "eval_rewards/chosen": -1.992387056350708,
+      "eval_rewards/margins": 1.2717599868774414,
+      "eval_rewards/rejected": -3.2641468048095703,
+      "eval_runtime": 73.4364,
+      "eval_samples_per_second": 27.234,
+      "eval_steps_per_second": 0.436,
+      "step": 800
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 6.790558119157597e-08,
+      "logits/chosen": 0.514393150806427,
+      "logits/rejected": 0.7291263341903687,
+      "logps/chosen": -525.2340698242188,
+      "logps/rejected": -616.1982421875,
+      "loss": 0.0106,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.9875078201293945,
+      "rewards/margins": 1.2109524011611938,
+      "rewards/rejected": -3.198460102081299,
+      "step": 810
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 5.898544083397e-08,
+      "logits/chosen": 0.5488702654838562,
+      "logits/rejected": 0.6949459910392761,
+      "logps/chosen": -483.0582580566406,
+      "logps/rejected": -598.3394775390625,
+      "loss": 0.0115,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -1.958407998085022,
+      "rewards/margins": 1.3388407230377197,
+      "rewards/rejected": -3.2972488403320312,
+      "step": 820
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 5.065649387408705e-08,
+      "logits/chosen": 0.5013612508773804,
+      "logits/rejected": 0.5702673196792603,
+      "logps/chosen": -528.1060180664062,
+      "logps/rejected": -625.3968505859375,
+      "loss": 0.012,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -2.1246533393859863,
+      "rewards/margins": 1.261916995048523,
+      "rewards/rejected": -3.3865699768066406,
+      "step": 830
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 4.292990551804171e-08,
+      "logits/chosen": 0.42700353264808655,
+      "logits/rejected": 0.6631879806518555,
+      "logps/chosen": -502.4617614746094,
+      "logps/rejected": -618.699462890625,
+      "loss": 0.0114,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.8777034282684326,
+      "rewards/margins": 1.4012324810028076,
+      "rewards/rejected": -3.2789359092712402,
+      "step": 840
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 3.581603349196371e-08,
+      "logits/chosen": 0.5486747026443481,
+      "logits/rejected": 0.7163097262382507,
+      "logps/chosen": -501.1570739746094,
+      "logps/rejected": -640.0488891601562,
+      "loss": 0.0102,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -1.7478796243667603,
+      "rewards/margins": 1.5438367128372192,
+      "rewards/rejected": -3.2917160987854004,
+      "step": 850
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 2.9324414157151367e-08,
+      "logits/chosen": 0.4644288420677185,
+      "logits/rejected": 0.6574305891990662,
+      "logps/chosen": -473.5594787597656,
+      "logps/rejected": -598.8511962890625,
+      "loss": 0.0108,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.788891077041626,
+      "rewards/margins": 1.2945648431777954,
+      "rewards/rejected": -3.083456039428711,
+      "step": 860
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 2.3463749726290284e-08,
+      "logits/chosen": 0.49835458397865295,
+      "logits/rejected": 0.6767226457595825,
+      "logps/chosen": -532.7442016601562,
+      "logps/rejected": -652.2874755859375,
+      "loss": 0.0114,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.964927315711975,
+      "rewards/margins": 1.482194185256958,
+      "rewards/rejected": -3.4471213817596436,
+      "step": 870
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 1.824189659787284e-08,
+      "logits/chosen": 0.432788610458374,
+      "logits/rejected": 0.6490308046340942,
+      "logps/chosen": -524.7098388671875,
+      "logps/rejected": -685.0862426757812,
+      "loss": 0.0119,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.886285424232483,
+      "rewards/margins": 1.6881020069122314,
+      "rewards/rejected": -3.5743870735168457,
+      "step": 880
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 1.3665854824458035e-08,
+      "logits/chosen": 0.45631036162376404,
+      "logits/rejected": 0.6264600157737732,
+      "logps/chosen": -514.7445068359375,
+      "logps/rejected": -619.1950073242188,
+      "loss": 0.011,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.918135643005371,
+      "rewards/margins": 1.308524250984192,
+      "rewards/rejected": -3.2266597747802734,
+      "step": 890
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 9.741758728888217e-09,
+      "logits/chosen": 0.4965108036994934,
+      "logits/rejected": 0.7444375157356262,
+      "logps/chosen": -533.3218994140625,
+      "logps/rejected": -607.4019165039062,
+      "loss": 0.0103,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -2.0954043865203857,
+      "rewards/margins": 1.2425765991210938,
+      "rewards/rejected": -3.3379809856414795,
+      "step": 900
+    },
+    {
+      "epoch": 1.88,
+      "eval_logits/chosen": 0.610427975654602,
+      "eval_logits/rejected": 0.7138903141021729,
+      "eval_logps/chosen": -503.7669677734375,
+      "eval_logps/rejected": -638.1763305664062,
+      "eval_loss": 0.021610137075185776,
+      "eval_rewards/accuracies": 0.734375,
+      "eval_rewards/chosen": -2.0018229484558105,
+      "eval_rewards/margins": 1.2636897563934326,
+      "eval_rewards/rejected": -3.2655129432678223,
+      "eval_runtime": 74.571,
+      "eval_samples_per_second": 26.82,
+      "eval_steps_per_second": 0.429,
+      "step": 900
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 6.474868681043577e-09,
+      "logits/chosen": 0.5612128973007202,
+      "logits/rejected": 0.8626712560653687,
+      "logps/chosen": -493.08551025390625,
+      "logps/rejected": -595.2066650390625,
+      "loss": 0.0104,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.881819486618042,
+      "rewards/margins": 1.3230464458465576,
+      "rewards/rejected": -3.2048659324645996,
+      "step": 910
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 3.869564046156459e-09,
+      "logits/chosen": 0.33559730648994446,
+      "logits/rejected": 0.5526424646377563,
+      "logps/chosen": -545.949951171875,
+      "logps/rejected": -630.3507080078125,
+      "loss": 0.0106,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.0992321968078613,
+      "rewards/margins": 1.3220652341842651,
+      "rewards/rejected": -3.421297550201416,
+      "step": 920
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 1.929337314139412e-09,
+      "logits/chosen": 0.3952362537384033,
+      "logits/rejected": 0.6363921165466309,
+      "logps/chosen": -528.9135131835938,
+      "logps/rejected": -657.9598388671875,
+      "loss": 0.0099,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.9300628900527954,
+      "rewards/margins": 1.5338274240493774,
+      "rewards/rejected": -3.4638900756835938,
+      "step": 930
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 6.567894177967325e-10,
+      "logits/chosen": 0.44664573669433594,
+      "logits/rejected": 0.6714277267456055,
+      "logps/chosen": -544.5101928710938,
+      "logps/rejected": -673.3298950195312,
+      "loss": 0.0113,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.0046563148498535,
+      "rewards/margins": 1.3531763553619385,
+      "rewards/rejected": -3.35783314704895,
+      "step": 940
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 5.3626246194704575e-11,
+      "logits/chosen": 0.5509423017501831,
+      "logits/rejected": 0.6711171865463257,
+      "logps/chosen": -456.3231506347656,
+      "logps/rejected": -598.7819213867188,
+      "loss": 0.0095,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.7993762493133545,
+      "rewards/margins": 1.4040424823760986,
+      "rewards/rejected": -3.203418731689453,
+      "step": 950
+    },
     {
       "epoch": 2.0,
+      "step": 954,
       "total_flos": 0.0,
+      "train_loss": 0.048426837674039463,
+      "train_runtime": 8860.0868,
+      "train_samples_per_second": 13.8,
+      "train_steps_per_second": 0.108
     }
   ],
   "logging_steps": 10,
+  "max_steps": 954,
   "num_train_epochs": 2,
+  "save_steps": 1000,
   "total_flos": 0.0,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e27d23f0ef26a14e13ceab361d0a649e685a28b1c195d6bfb1e882f3d492216c
 size 6648

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ebe8424565caecb3908e9e9e2a372a3ad6da08c02b93398d33a8308351a9f5c
 size 6648