Model save

Browse files

Files changed (7) hide show

README.md +14 -18
all_results.json +5 -5
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +505 -1241

README.md CHANGED Viewed

@@ -17,15 +17,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [HuggingFaceH4/mistral-7b-sft-beta](https://huggingface.co/HuggingFaceH4/mistral-7b-sft-beta) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4932
-- Rewards/chosen: -3.0120
-- Rewards/rejected: -4.2654
-- Rewards/accuracies: 0.7695
-- Rewards/margins: 1.2534
-- Logps/rejected: -683.8962
-- Logps/chosen: -558.2434
-- Logits/rejected: 0.7844
-- Logits/chosen: 0.2532
 ## Model description
@@ -47,7 +47,7 @@ The following hyperparameters were used during training:
 - learning_rate: 5e-07
 - train_batch_size: 8
 - eval_batch_size: 8
-- seed: 1
 - distributed_type: multi-GPU
 - num_devices: 8
 - gradient_accumulation_steps: 2
@@ -62,14 +62,10 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.5391        | 0.11  | 100  | 0.6202          | -0.4534        | -0.7509          | 0.6758             | 0.2975          | -332.4442      | -302.3835    | -2.5452         | -2.5608       |
-| 0.4673        | 0.23  | 200  | 0.5535          | -1.1718        | -1.7624          | 0.7539             | 0.5905          | -433.5890      | -374.2225    | -2.1215         | -2.1572       |
-| 0.4334        | 0.34  | 300  | 0.5339          | -2.2652        | -3.2391          | 0.7461             | 0.9739          | -581.2654      | -483.5594    | -0.1994         | -0.5677       |
-| 0.3964        | 0.45  | 400  | 0.5219          | -2.6343        | -3.7846          | 0.7695             | 1.1503          | -635.8123      | -520.4658    | 0.8270          | 0.2987        |
-| 0.408         | 0.57  | 500  | 0.5032          | -2.1788        | -3.2538          | 0.7773             | 1.0751          | -582.7369      | -474.9173    | 0.1579          | -0.3200       |
-| 0.3955        | 0.68  | 600  | 0.5006          | -2.6604        | -3.8606          | 0.7539             | 1.2002          | -643.4160      | -523.0820    | 0.9437          | 0.3256        |
-| 0.3779        | 0.79  | 700  | 0.4951          | -2.8271        | -4.0892          | 0.7656             | 1.2620          | -666.2689      | -539.7507    | 0.8019          | 0.2515        |
-| 0.3845        | 0.91  | 800  | 0.4932          | -3.0120        | -4.2654          | 0.7695             | 1.2534          | -683.8962      | -558.2434    | 0.7844          | 0.2532        |
 ### Framework versions

 This model is a fine-tuned version of [HuggingFaceH4/mistral-7b-sft-beta](https://huggingface.co/HuggingFaceH4/mistral-7b-sft-beta) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0712
+- Rewards/chosen: -2.3718
+- Rewards/rejected: -2.8225
+- Rewards/accuracies: 0.625
+- Rewards/margins: 0.4507
+- Logps/rejected: -539.6053
+- Logps/chosen: -494.2236
+- Logits/rejected: -2.2822
+- Logits/chosen: -2.3030
 ## Model description
 - learning_rate: 5e-07
 - train_batch_size: 8
 - eval_batch_size: 8
+- seed: 3
 - distributed_type: multi-GPU
 - num_devices: 8
 - gradient_accumulation_steps: 2
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.0594        | 0.25  | 100  | 0.1035          | -1.7191        | -1.9450          | 0.6172             | 0.2259          | -451.8574      | -428.9503    | -2.3270         | -2.3408       |
+| 0.0329        | 0.49  | 200  | 0.0693          | -2.4492        | -2.8068          | 0.6094             | 0.3576          | -538.0304      | -501.9568    | -2.2147         | -2.2352       |
+| 0.0312        | 0.74  | 300  | 0.0689          | -2.4412        | -2.8616          | 0.6133             | 0.4204          | -543.5178      | -501.1634    | -2.2721         | -2.2933       |
+| 0.0331        | 0.99  | 400  | 0.0712          | -2.3718        | -2.8225          | 0.625              | 0.4507          | -539.6053      | -494.2236    | -2.2822         | -2.3030       |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.4371140412269065,
-    "train_runtime": 8003.3982,
-    "train_samples": 113028,
-    "train_samples_per_second": 14.123,
-    "train_steps_per_second": 0.11
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.0722552685457983,
+    "train_runtime": 3732.8792,
+    "train_samples": 51894,
+    "train_samples_per_second": 13.902,
+    "train_steps_per_second": 0.108
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3391c5b96744d7303ee87811d01d8f2910d44fb430606c4813a529a5d5a69231
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:df5f8551f34bd5fa2c36c62a9e1e02db72d830f8b080213c70f6615d9f81b129
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d99874ac21f1a7d803f6612b2fb6053974a8bb434b21739731879d25c543309f
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec4273703f96f7c3f2cf7aaa5e04be8cea024440c644d9e1a06f6ec8a234f06a
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26b5b6bca1e7fa79c661c1c327d3a33daa88727d89abea163dd08eac60edba0a
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d1a5ffde550f3d000a899abb7c1f554363bee7053e537892516534d9b1b6cf9
 size 4540516344

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.4371140412269065,
-    "train_runtime": 8003.3982,
-    "train_samples": 113028,
-    "train_samples_per_second": 14.123,
-    "train_steps_per_second": 0.11
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.0722552685457983,
+    "train_runtime": 3732.8792,
+    "train_samples": 51894,
+    "train_samples_per_second": 13.902,
+    "train_steps_per_second": 0.108
 }

trainer_state.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9994340690435767,
   "eval_steps": 100,
-  "global_step": 883,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 5.617977528089887e-09,
-      "logits/chosen": -2.763059616088867,
-      "logits/rejected": -2.7395401000976562,
-      "logps/chosen": -322.45367431640625,
-      "logps/rejected": -273.0731506347656,
-      "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -23,1377 +23,641 @@
       "step": 1
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 5.617977528089887e-08,
-      "logits/chosen": -2.7941672801971436,
-      "logits/rejected": -2.771027088165283,
-      "logps/chosen": -334.48358154296875,
-      "logps/rejected": -186.61041259765625,
-      "loss": 0.693,
-      "rewards/accuracies": 0.4861111044883728,
-      "rewards/chosen": 1.1024479135812726e-05,
-      "rewards/margins": 6.540949925692985e-06,
-      "rewards/rejected": 4.483505108510144e-06,
       "step": 10
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 1.1235955056179774e-07,
-      "logits/chosen": -2.821061134338379,
-      "logits/rejected": -2.800480842590332,
-      "logps/chosen": -334.4288635253906,
-      "logps/rejected": -174.1417999267578,
-      "loss": 0.6918,
-      "rewards/accuracies": 0.5625,
-      "rewards/chosen": 0.0012656518956646323,
-      "rewards/margins": 0.0027236624155193567,
-      "rewards/rejected": -0.0014580106362700462,
       "step": 20
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 1.6853932584269663e-07,
-      "logits/chosen": -2.7578957080841064,
-      "logits/rejected": -2.745757579803467,
-      "logps/chosen": -318.7159423828125,
-      "logps/rejected": -187.8983917236328,
-      "loss": 0.6838,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": 0.008920788764953613,
-      "rewards/margins": 0.017777040600776672,
-      "rewards/rejected": -0.008856252767145634,
       "step": 30
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 2.2471910112359549e-07,
-      "logits/chosen": -2.7689571380615234,
-      "logits/rejected": -2.728093385696411,
-      "logps/chosen": -361.4432678222656,
-      "logps/rejected": -208.02230834960938,
-      "loss": 0.6673,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": 0.024761155247688293,
-      "rewards/margins": 0.05898100882768631,
-      "rewards/rejected": -0.034219853579998016,
       "step": 40
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 2.8089887640449437e-07,
-      "logits/chosen": -2.6803011894226074,
-      "logits/rejected": -2.669233560562134,
-      "logps/chosen": -289.77728271484375,
-      "logps/rejected": -173.2029266357422,
-      "loss": 0.6387,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": 0.024808162823319435,
-      "rewards/margins": 0.10643555223941803,
-      "rewards/rejected": -0.08162739127874374,
       "step": 50
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 3.3707865168539325e-07,
-      "logits/chosen": -2.5601308345794678,
-      "logits/rejected": -2.552110433578491,
-      "logps/chosen": -327.4698181152344,
-      "logps/rejected": -226.25082397460938,
-      "loss": 0.6222,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.010004254989326,
-      "rewards/margins": 0.1619780957698822,
-      "rewards/rejected": -0.17198236286640167,
       "step": 60
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 3.9325842696629214e-07,
-      "logits/chosen": -2.5909500122070312,
-      "logits/rejected": -2.5680363178253174,
-      "logps/chosen": -337.80718994140625,
-      "logps/rejected": -248.06088256835938,
-      "loss": 0.5955,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.06871125102043152,
-      "rewards/margins": 0.2629837989807129,
-      "rewards/rejected": -0.331695020198822,
       "step": 70
     },
     {
-      "epoch": 0.09,
-      "learning_rate": 4.4943820224719097e-07,
-      "logits/chosen": -2.5084314346313477,
-      "logits/rejected": -2.5084025859832764,
-      "logps/chosen": -391.24908447265625,
-      "logps/rejected": -225.06039428710938,
-      "loss": 0.572,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.0807892456650734,
-      "rewards/margins": 0.4122789800167084,
-      "rewards/rejected": -0.4930681586265564,
       "step": 80
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 4.999980431020109e-07,
-      "logits/chosen": -2.502631664276123,
-      "logits/rejected": -2.4763102531433105,
-      "logps/chosen": -356.6223449707031,
-      "logps/rejected": -256.1166076660156,
-      "loss": 0.5511,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -0.06631435453891754,
-      "rewards/margins": 0.5667875409126282,
-      "rewards/rejected": -0.6331019401550293,
       "step": 90
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 4.997632524101301e-07,
-      "logits/chosen": -2.535919666290283,
-      "logits/rejected": -2.499262571334839,
-      "logps/chosen": -368.29644775390625,
-      "logps/rejected": -279.8140869140625,
-      "loss": 0.5391,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.379818320274353,
-      "rewards/margins": 0.5510101914405823,
-      "rewards/rejected": -0.9308284521102905,
       "step": 100
     },
     {
-      "epoch": 0.11,
-      "eval_logits/chosen": -2.5607945919036865,
-      "eval_logits/rejected": -2.5451953411102295,
-      "eval_logps/chosen": -302.3835144042969,
-      "eval_logps/rejected": -332.4442443847656,
-      "eval_loss": 0.6201537251472473,
-      "eval_rewards/accuracies": 0.67578125,
-      "eval_rewards/chosen": -0.4534388780593872,
-      "eval_rewards/margins": 0.29747113585472107,
-      "eval_rewards/rejected": -0.7509099245071411,
-      "eval_runtime": 53.0727,
-      "eval_samples_per_second": 37.684,
-      "eval_steps_per_second": 0.603,
       "step": 100
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 4.991375032514749e-07,
-      "logits/chosen": -2.511805772781372,
-      "logits/rejected": -2.4707462787628174,
-      "logps/chosen": -340.9619140625,
-      "logps/rejected": -279.88531494140625,
-      "loss": 0.5227,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.5024222135543823,
-      "rewards/margins": 0.5474096536636353,
-      "rewards/rejected": -1.0498319864273071,
       "step": 110
     },
     {
-      "epoch": 0.14,
-      "learning_rate": 4.98121775121344e-07,
-      "logits/chosen": -2.3996121883392334,
-      "logits/rejected": -2.360802173614502,
-      "logps/chosen": -405.9101257324219,
-      "logps/rejected": -361.8677978515625,
-      "loss": 0.4868,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -0.7274013757705688,
-      "rewards/margins": 0.7646517157554626,
-      "rewards/rejected": -1.4920530319213867,
       "step": 120
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 4.96717657955441e-07,
-      "logits/chosen": -2.341158866882324,
-      "logits/rejected": -2.274775266647339,
-      "logps/chosen": -437.23492431640625,
-      "logps/rejected": -369.3250732421875,
-      "loss": 0.4645,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.8677096366882324,
-      "rewards/margins": 0.8753921389579773,
-      "rewards/rejected": -1.743101716041565,
       "step": 130
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 4.949273496411216e-07,
-      "logits/chosen": -2.2799994945526123,
-      "logits/rejected": -2.2343602180480957,
-      "logps/chosen": -412.9886779785156,
-      "logps/rejected": -377.98553466796875,
-      "loss": 0.4708,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -0.910749077796936,
-      "rewards/margins": 0.953301727771759,
-      "rewards/rejected": -1.8640508651733398,
       "step": 140
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 4.927536525770046e-07,
-      "logits/chosen": -2.1459238529205322,
-      "logits/rejected": -2.061415910720825,
-      "logps/chosen": -435.0037536621094,
-      "logps/rejected": -397.0843505859375,
-      "loss": 0.473,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -1.050859808921814,
-      "rewards/margins": 0.9770351648330688,
-      "rewards/rejected": -2.027894973754883,
       "step": 150
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 4.901999692863326e-07,
-      "logits/chosen": -2.124925374984741,
-      "logits/rejected": -2.0580692291259766,
-      "logps/chosen": -444.2850036621094,
-      "logps/rejected": -368.23089599609375,
-      "loss": 0.4469,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -0.8980700373649597,
-      "rewards/margins": 0.9867424964904785,
-      "rewards/rejected": -1.884812593460083,
       "step": 160
     },
     {
-      "epoch": 0.19,
-      "learning_rate": 4.872702970909464e-07,
-      "logits/chosen": -2.2076802253723145,
-      "logits/rejected": -2.0857512950897217,
-      "logps/chosen": -454.78509521484375,
-      "logps/rejected": -420.0375061035156,
-      "loss": 0.4679,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -0.9711505770683289,
-      "rewards/margins": 1.3920787572860718,
-      "rewards/rejected": -2.363229274749756,
       "step": 170
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 4.839692218542131e-07,
-      "logits/chosen": -2.1690759658813477,
-      "logits/rejected": -2.098189353942871,
-      "logps/chosen": -408.5738830566406,
-      "logps/rejected": -394.4034729003906,
-      "loss": 0.4665,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -0.8100764155387878,
-      "rewards/margins": 1.1612640619277954,
-      "rewards/rejected": -1.9713407754898071,
       "step": 180
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 4.803019108026997e-07,
-      "logits/chosen": -2.1986196041107178,
-      "logits/rejected": -2.112959861755371,
-      "logps/chosen": -450.8468322753906,
-      "logps/rejected": -383.9068603515625,
-      "loss": 0.477,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -0.6421102285385132,
-      "rewards/margins": 1.2314198017120361,
-      "rewards/rejected": -1.8735300302505493,
       "step": 190
     },
     {
-      "epoch": 0.23,
-      "learning_rate": 4.7627410443782887e-07,
-      "logits/chosen": -2.1900177001953125,
-      "logits/rejected": -2.099222183227539,
-      "logps/chosen": -391.14959716796875,
-      "logps/rejected": -341.2007751464844,
-      "loss": 0.4673,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -0.6667279005050659,
-      "rewards/margins": 0.9072163701057434,
-      "rewards/rejected": -1.573944330215454,
       "step": 200
     },
     {
-      "epoch": 0.23,
-      "eval_logits/chosen": -2.1572117805480957,
-      "eval_logits/rejected": -2.121535301208496,
-      "eval_logps/chosen": -374.22247314453125,
-      "eval_logps/rejected": -433.5889587402344,
-      "eval_loss": 0.5535483360290527,
-      "eval_rewards/accuracies": 0.75390625,
-      "eval_rewards/chosen": -1.171828269958496,
-      "eval_rewards/margins": 0.5905283689498901,
-      "eval_rewards/rejected": -1.7623566389083862,
-      "eval_runtime": 52.9266,
-      "eval_samples_per_second": 37.788,
-      "eval_steps_per_second": 0.605,
       "step": 200
     },
     {
-      "epoch": 0.24,
-      "learning_rate": 4.7189210755018034e-07,
-      "logits/chosen": -2.11592435836792,
-      "logits/rejected": -2.0587477684020996,
-      "logps/chosen": -453.43475341796875,
-      "logps/rejected": -418.6344299316406,
-      "loss": 0.4362,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.9801640510559082,
-      "rewards/margins": 1.1953608989715576,
-      "rewards/rejected": -2.175525188446045,
       "step": 210
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 4.671627793504988e-07,
-      "logits/chosen": -2.0989413261413574,
-      "logits/rejected": -2.0104451179504395,
-      "logps/chosen": -431.24774169921875,
-      "logps/rejected": -397.3530578613281,
-      "loss": 0.4357,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -0.937910258769989,
-      "rewards/margins": 1.2375946044921875,
-      "rewards/rejected": -2.1755049228668213,
       "step": 220
     },
     {
-      "epoch": 0.26,
-      "learning_rate": 4.6209352273286095e-07,
-      "logits/chosen": -1.967944860458374,
-      "logits/rejected": -1.88350510597229,
-      "logps/chosen": -476.22149658203125,
-      "logps/rejected": -449.72564697265625,
-      "loss": 0.4319,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -1.2830114364624023,
-      "rewards/margins": 1.1820969581604004,
-      "rewards/rejected": -2.465108633041382,
       "step": 230
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 4.56692272686805e-07,
-      "logits/chosen": -1.943704605102539,
-      "logits/rejected": -1.8378359079360962,
-      "logps/chosen": -490.98834228515625,
-      "logps/rejected": -473.5677795410156,
-      "loss": 0.4459,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -1.4955508708953857,
-      "rewards/margins": 1.398730993270874,
-      "rewards/rejected": -2.8942818641662598,
       "step": 240
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 4.5096748387656326e-07,
-      "logits/chosen": -1.9319934844970703,
-      "logits/rejected": -1.848971962928772,
-      "logps/chosen": -431.0406188964844,
-      "logps/rejected": -432.92791748046875,
-      "loss": 0.4259,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -1.2432794570922852,
-      "rewards/margins": 1.096217393875122,
-      "rewards/rejected": -2.3394968509674072,
       "step": 250
     },
     {
-      "epoch": 0.29,
-      "learning_rate": 4.4492811740683877e-07,
-      "logits/chosen": -2.0316851139068604,
-      "logits/rejected": -1.8930383920669556,
-      "logps/chosen": -479.8583984375,
-      "logps/rejected": -440.8379821777344,
-      "loss": 0.4478,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -1.304606318473816,
-      "rewards/margins": 1.1949961185455322,
-      "rewards/rejected": -2.4996025562286377,
       "step": 260
     },
     {
-      "epoch": 0.31,
-      "learning_rate": 4.3858362679584354e-07,
-      "logits/chosen": -1.6744228601455688,
-      "logits/rejected": -1.3835828304290771,
-      "logps/chosen": -499.75677490234375,
-      "logps/rejected": -487.6814880371094,
-      "loss": 0.4322,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -1.8357969522476196,
-      "rewards/margins": 1.239199161529541,
-      "rewards/rejected": -3.0749964714050293,
       "step": 270
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 4.3194394317755245e-07,
-      "logits/chosen": -1.2927743196487427,
-      "logits/rejected": -1.0211999416351318,
-      "logps/chosen": -465.1715393066406,
-      "logps/rejected": -479.52764892578125,
-      "loss": 0.4306,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -1.67030930519104,
-      "rewards/margins": 1.3314597606658936,
-      "rewards/rejected": -3.0017685890197754,
       "step": 280
     },
     {
-      "epoch": 0.33,
-      "learning_rate": 4.2501945975633914e-07,
-      "logits/chosen": -1.036027431488037,
-      "logits/rejected": -0.36450880765914917,
-      "logps/chosen": -535.3629760742188,
-      "logps/rejected": -495.39324951171875,
-      "loss": 0.4274,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -1.837786316871643,
-      "rewards/margins": 1.4202905893325806,
-      "rewards/rejected": -3.2580769062042236,
       "step": 290
     },
     {
-      "epoch": 0.34,
-      "learning_rate": 4.1782101553832405e-07,
-      "logits/chosen": -0.958489716053009,
-      "logits/rejected": -0.3055742084980011,
-      "logps/chosen": -548.3148193359375,
-      "logps/rejected": -564.0227661132812,
-      "loss": 0.4334,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -1.9176700115203857,
-      "rewards/margins": 1.585371732711792,
-      "rewards/rejected": -3.5030417442321777,
       "step": 300
     },
     {
-      "epoch": 0.34,
-      "eval_logits/chosen": -0.5676769018173218,
-      "eval_logits/rejected": -0.19943884015083313,
-      "eval_logps/chosen": -483.5593566894531,
-      "eval_logps/rejected": -581.2654418945312,
-      "eval_loss": 0.533881425857544,
-      "eval_rewards/accuracies": 0.74609375,
-      "eval_rewards/chosen": -2.2651968002319336,
-      "eval_rewards/margins": 0.9739242196083069,
-      "eval_rewards/rejected": -3.239121437072754,
-      "eval_runtime": 52.9469,
-      "eval_samples_per_second": 37.774,
-      "eval_steps_per_second": 0.604,
       "step": 300
     },
     {
-      "epoch": 0.35,
-      "learning_rate": 4.103598783649029e-07,
-      "logits/chosen": -0.8055219650268555,
-      "logits/rejected": -0.09858167171478271,
-      "logps/chosen": -491.8812561035156,
-      "logps/rejected": -500.9165954589844,
-      "loss": 0.4204,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -1.5920034646987915,
-      "rewards/margins": 1.5368704795837402,
-      "rewards/rejected": -3.1288740634918213,
       "step": 310
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 4.026477272750119e-07,
-      "logits/chosen": -0.9476078748703003,
-      "logits/rejected": -0.4249343276023865,
-      "logps/chosen": -513.9217529296875,
-      "logps/rejected": -506.89044189453125,
-      "loss": 0.4119,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -1.5674420595169067,
-      "rewards/margins": 1.4193658828735352,
-      "rewards/rejected": -2.9868078231811523,
       "step": 320
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 3.9469663422373864e-07,
-      "logits/chosen": -0.6462847590446472,
-      "logits/rejected": 0.0693933516740799,
-      "logps/chosen": -495.73223876953125,
-      "logps/rejected": -514.7813720703125,
-      "loss": 0.4045,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -1.974498987197876,
-      "rewards/margins": 1.417799472808838,
-      "rewards/rejected": -3.392298936843872,
       "step": 330
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 3.865190451858954e-07,
-      "logits/chosen": -0.5255932211875916,
-      "logits/rejected": 0.2057991325855255,
-      "logps/chosen": -571.3324584960938,
-      "logps/rejected": -582.94384765625,
-      "loss": 0.4021,
       "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -2.0892231464385986,
-      "rewards/margins": 1.7780288457870483,
-      "rewards/rejected": -3.8672518730163574,
       "step": 340
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 3.781277606741327e-07,
-      "logits/chosen": -0.9264996647834778,
-      "logits/rejected": -0.43614667654037476,
-      "logps/chosen": -430.67626953125,
-      "logps/rejected": -460.7449645996094,
-      "loss": 0.4308,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -1.4353458881378174,
-      "rewards/margins": 1.2627815008163452,
-      "rewards/rejected": -2.698127269744873,
       "step": 350
     },
     {
-      "epoch": 0.41,
-      "learning_rate": 3.6953591570208996e-07,
-      "logits/chosen": -0.40989646315574646,
-      "logits/rejected": 0.31492868065834045,
-      "logps/chosen": -503.3641662597656,
-      "logps/rejected": -493.41302490234375,
-      "loss": 0.4142,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -1.548743486404419,
-      "rewards/margins": 1.5001083612442017,
-      "rewards/rejected": -3.048851728439331,
       "step": 360
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 3.607569592239452e-07,
-      "logits/chosen": -0.1845168173313141,
-      "logits/rejected": 0.6697748899459839,
-      "logps/chosen": -489.48187255859375,
-      "logps/rejected": -486.579345703125,
-      "loss": 0.4112,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -1.562912940979004,
-      "rewards/margins": 1.469349980354309,
-      "rewards/rejected": -3.0322628021240234,
       "step": 370
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 3.518046330825494e-07,
-      "logits/chosen": -0.2910882830619812,
-      "logits/rejected": 0.2493607997894287,
-      "logps/chosen": -502.5550231933594,
-      "logps/rejected": -531.24169921875,
-      "loss": 0.4086,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -1.6785764694213867,
-      "rewards/margins": 1.3167986869812012,
-      "rewards/rejected": -2.995375156402588,
       "step": 380
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 3.4269295049909713e-07,
-      "logits/chosen": 0.040309689939022064,
-      "logits/rejected": 0.8773566484451294,
-      "logps/chosen": -483.1021423339844,
-      "logps/rejected": -523.5382080078125,
-      "loss": 0.4067,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.81940495967865,
-      "rewards/margins": 1.4445574283599854,
-      "rewards/rejected": -3.2639622688293457,
       "step": 390
     },
     {
-      "epoch": 0.45,
-      "learning_rate": 3.3343617413800453e-07,
-      "logits/chosen": 0.04438358172774315,
-      "logits/rejected": 0.899645984172821,
-      "logps/chosen": -558.7957153320312,
-      "logps/rejected": -540.1268920898438,
-      "loss": 0.3964,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -1.9898704290390015,
-      "rewards/margins": 1.5580358505249023,
-      "rewards/rejected": -3.5479063987731934,
       "step": 400
     },
     {
-      "epoch": 0.45,
-      "eval_logits/chosen": 0.29868921637535095,
-      "eval_logits/rejected": 0.8269697427749634,
-      "eval_logps/chosen": -520.4657592773438,
-      "eval_logps/rejected": -635.8123168945312,
-      "eval_loss": 0.521929144859314,
-      "eval_rewards/accuracies": 0.76953125,
-      "eval_rewards/chosen": -2.634261131286621,
-      "eval_rewards/margins": 1.1503297090530396,
-      "eval_rewards/rejected": -3.784590721130371,
-      "eval_runtime": 52.8903,
-      "eval_samples_per_second": 37.814,
-      "eval_steps_per_second": 0.605,
       "step": 400
     },
-    {
-      "epoch": 0.46,
-      "learning_rate": 3.2404879378132893e-07,
-      "logits/chosen": -0.08447281271219254,
-      "logits/rejected": 0.5970763564109802,
-      "logps/chosen": -498.86090087890625,
-      "logps/rejected": -592.9935302734375,
-      "loss": 0.4032,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -2.0137200355529785,
-      "rewards/margins": 1.7450697422027588,
-      "rewards/rejected": -3.758789539337158,
-      "step": 410
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 3.1454550364767894e-07,
-      "logits/chosen": -0.49112820625305176,
-      "logits/rejected": 0.10465432703495026,
-      "logps/chosen": -496.7327575683594,
-      "logps/rejected": -490.85614013671875,
-      "loss": 0.4004,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -1.4156886339187622,
-      "rewards/margins": 1.7538082599639893,
-      "rewards/rejected": -3.169497013092041,
-      "step": 420
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 3.049411793911154e-07,
-      "logits/chosen": -0.4658167362213135,
-      "logits/rejected": 0.0734957754611969,
-      "logps/chosen": -545.6218872070312,
-      "logps/rejected": -557.7208862304688,
-      "loss": 0.4061,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -1.908559799194336,
-      "rewards/margins": 1.4848883152008057,
-      "rewards/rejected": -3.3934478759765625,
-      "step": 430
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 2.9525085481604914e-07,
-      "logits/chosen": -0.30549541115760803,
-      "logits/rejected": 0.43061351776123047,
-      "logps/chosen": -545.5732421875,
-      "logps/rejected": -576.8668212890625,
-      "loss": 0.4013,
-      "rewards/accuracies": 0.887499988079071,
-      "rewards/chosen": -1.9651981592178345,
-      "rewards/margins": 1.824914574623108,
-      "rewards/rejected": -3.7901129722595215,
-      "step": 440
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 2.854896983445833e-07,
-      "logits/chosen": -0.31081053614616394,
-      "logits/rejected": 0.8431285619735718,
-      "logps/chosen": -550.8968505859375,
-      "logps/rejected": -542.3270263671875,
-      "loss": 0.4075,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -1.837031364440918,
-      "rewards/margins": 1.7019197940826416,
-      "rewards/rejected": -3.5389511585235596,
-      "step": 450
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 2.7567298927313654e-07,
-      "logits/chosen": -0.2802823781967163,
-      "logits/rejected": 0.6037198901176453,
-      "logps/chosen": -514.4429931640625,
-      "logps/rejected": -506.43316650390625,
-      "loss": 0.4124,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -1.8379509449005127,
-      "rewards/margins": 1.5676665306091309,
-      "rewards/rejected": -3.4056172370910645,
-      "step": 460
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 2.658160938555123e-07,
-      "logits/chosen": -0.529831051826477,
-      "logits/rejected": -0.08401882648468018,
-      "logps/chosen": -504.21368408203125,
-      "logps/rejected": -535.26904296875,
-      "loss": 0.4155,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -1.7486238479614258,
-      "rewards/margins": 1.596998691558838,
-      "rewards/rejected": -3.345623016357422,
-      "step": 470
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 2.559344412498532e-07,
-      "logits/chosen": -0.7518737316131592,
-      "logits/rejected": -0.24171645939350128,
-      "logps/chosen": -513.7047119140625,
-      "logps/rejected": -491.68536376953125,
-      "loss": 0.3966,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -1.6572511196136475,
-      "rewards/margins": 1.5054905414581299,
-      "rewards/rejected": -3.1627418994903564,
-      "step": 480
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 2.460434993671294e-07,
-      "logits/chosen": -0.6732519865036011,
-      "logits/rejected": -0.06187018007040024,
-      "logps/chosen": -510.64093017578125,
-      "logps/rejected": -511.0845642089844,
-      "loss": 0.4376,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.9079630374908447,
-      "rewards/margins": 1.5278714895248413,
-      "rewards/rejected": -3.4358341693878174,
-      "step": 490
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 2.361587506589672e-07,
-      "logits/chosen": -0.6487066745758057,
-      "logits/rejected": -0.08703817427158356,
-      "logps/chosen": -523.2932739257812,
-      "logps/rejected": -509.58917236328125,
-      "loss": 0.408,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -1.6383225917816162,
-      "rewards/margins": 1.5625841617584229,
-      "rewards/rejected": -3.2009072303771973,
-      "step": 500
-    },
-    {
-      "epoch": 0.57,
-      "eval_logits/chosen": -0.3200441896915436,
-      "eval_logits/rejected": 0.15786468982696533,
-      "eval_logps/chosen": -474.9172668457031,
-      "eval_logps/rejected": -582.7368774414062,
-      "eval_loss": 0.5031983256340027,
-      "eval_rewards/accuracies": 0.77734375,
-      "eval_rewards/chosen": -2.1787757873535156,
-      "eval_rewards/margins": 1.0750598907470703,
-      "eval_rewards/rejected": -3.253835916519165,
-      "eval_runtime": 52.9576,
-      "eval_samples_per_second": 37.766,
-      "eval_steps_per_second": 0.604,
-      "step": 500
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 2.2629566788271613e-07,
-      "logits/chosen": -0.20834016799926758,
-      "logits/rejected": 0.5500332713127136,
-      "logps/chosen": -518.3438720703125,
-      "logps/rejected": -521.8748168945312,
-      "loss": 0.379,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -1.8442401885986328,
-      "rewards/margins": 1.6085563898086548,
-      "rewards/rejected": -3.452796459197998,
-      "step": 510
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 2.1646968988169135e-07,
-      "logits/chosen": 0.15665414929389954,
-      "logits/rejected": 0.9071012735366821,
-      "logps/chosen": -497.3817443847656,
-      "logps/rejected": -510.22625732421875,
-      "loss": 0.4174,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -1.7797693014144897,
-      "rewards/margins": 1.6646064519882202,
-      "rewards/rejected": -3.444375514984131,
-      "step": 520
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 2.0669619741850232e-07,
-      "logits/chosen": -0.15719492733478546,
-      "logits/rejected": 0.7549746632575989,
-      "logps/chosen": -552.4660034179688,
-      "logps/rejected": -554.6041259765625,
-      "loss": 0.4142,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -1.8783395290374756,
-      "rewards/margins": 1.8778337240219116,
-      "rewards/rejected": -3.7561733722686768,
-      "step": 530
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 1.9699048909929518e-07,
-      "logits/chosen": -0.36763715744018555,
-      "logits/rejected": 0.22473928332328796,
-      "logps/chosen": -512.9124755859375,
-      "logps/rejected": -511.940185546875,
-      "loss": 0.4117,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -1.8377758264541626,
-      "rewards/margins": 1.3640468120574951,
-      "rewards/rejected": -3.201822280883789,
-      "step": 540
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 1.8736775742659732e-07,
-      "logits/chosen": -0.5843815803527832,
-      "logits/rejected": 0.3155004680156708,
-      "logps/chosen": -550.1474609375,
-      "logps/rejected": -476.39599609375,
-      "loss": 0.4227,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -1.5097029209136963,
-      "rewards/margins": 1.6035629510879517,
-      "rewards/rejected": -3.1132657527923584,
-      "step": 550
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 1.7784306501824616e-07,
-      "logits/chosen": -0.36525958776474,
-      "logits/rejected": 0.3845716118812561,
-      "logps/chosen": -492.0074157714844,
-      "logps/rejected": -488.03973388671875,
-      "loss": 0.3957,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -1.8473739624023438,
-      "rewards/margins": 1.4613382816314697,
-      "rewards/rejected": -3.3087124824523926,
-      "step": 560
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 1.6843132102963025e-07,
-      "logits/chosen": -0.15429559350013733,
-      "logits/rejected": 0.795578122138977,
-      "logps/chosen": -539.8087158203125,
-      "logps/rejected": -548.82080078125,
-      "loss": 0.39,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -1.8266279697418213,
-      "rewards/margins": 1.7545779943466187,
-      "rewards/rejected": -3.5812058448791504,
-      "step": 570
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 1.591472578161458e-07,
-      "logits/chosen": 0.2290324717760086,
-      "logits/rejected": 1.0089889764785767,
-      "logps/chosen": -541.7909545898438,
-      "logps/rejected": -607.4434814453125,
-      "loss": 0.3965,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -2.054337978363037,
-      "rewards/margins": 1.6381967067718506,
-      "rewards/rejected": -3.6925346851348877,
-      "step": 580
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 1.5000540787240274e-07,
-      "logits/chosen": 0.2819755971431732,
-      "logits/rejected": 1.1927533149719238,
-      "logps/chosen": -555.900634765625,
-      "logps/rejected": -548.664794921875,
-      "loss": 0.3743,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -2.2302324771881104,
-      "rewards/margins": 1.4978115558624268,
-      "rewards/rejected": -3.728043794631958,
-      "step": 590
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 1.410200810842749e-07,
-      "logits/chosen": 0.04086022078990936,
-      "logits/rejected": 1.0483381748199463,
-      "logps/chosen": -596.6246337890625,
-      "logps/rejected": -592.1336669921875,
-      "loss": 0.3955,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -2.0544655323028564,
-      "rewards/margins": 1.7540998458862305,
-      "rewards/rejected": -3.808565616607666,
-      "step": 600
-    },
-    {
-      "epoch": 0.68,
-      "eval_logits/chosen": 0.3256094753742218,
-      "eval_logits/rejected": 0.9437094330787659,
-      "eval_logps/chosen": -523.08203125,
-      "eval_logps/rejected": -643.4159545898438,
-      "eval_loss": 0.5006277561187744,
-      "eval_rewards/accuracies": 0.75390625,
-      "eval_rewards/chosen": -2.660423994064331,
-      "eval_rewards/margins": 1.200202465057373,
-      "eval_rewards/rejected": -3.860626220703125,
-      "eval_runtime": 52.9758,
-      "eval_samples_per_second": 37.753,
-      "eval_steps_per_second": 0.604,
-      "step": 600
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 1.322053423294041e-07,
-      "logits/chosen": -0.05821552872657776,
-      "logits/rejected": 0.6667032837867737,
-      "logps/chosen": -546.7453002929688,
-      "logps/rejected": -559.441162109375,
-      "loss": 0.3896,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -2.0775649547576904,
-      "rewards/margins": 1.4067105054855347,
-      "rewards/rejected": -3.4842753410339355,
-      "step": 610
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 1.2357498946121905e-07,
-      "logits/chosen": -0.10344459116458893,
-      "logits/rejected": 1.0869953632354736,
-      "logps/chosen": -550.6931762695312,
-      "logps/rejected": -573.5672607421875,
-      "loss": 0.3981,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -1.9934539794921875,
-      "rewards/margins": 1.9642198085784912,
-      "rewards/rejected": -3.9576735496520996,
-      "step": 620
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 1.1514253171093161e-07,
-      "logits/chosen": -0.17007485032081604,
-      "logits/rejected": 0.8311668634414673,
-      "logps/chosen": -552.5477294921875,
-      "logps/rejected": -532.693359375,
-      "loss": 0.3833,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -1.8977361917495728,
-      "rewards/margins": 1.6777369976043701,
-      "rewards/rejected": -3.5754730701446533,
-      "step": 630
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 1.0692116854131883e-07,
-      "logits/chosen": -0.25620418787002563,
-      "logits/rejected": 0.6494542956352234,
-      "logps/chosen": -531.3941650390625,
-      "logps/rejected": -553.3253784179688,
-      "loss": 0.4197,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -1.9536300897598267,
-      "rewards/margins": 1.6977847814559937,
-      "rewards/rejected": -3.6514148712158203,
-      "step": 640
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 9.89237689853889e-08,
-      "logits/chosen": -0.31330204010009766,
-      "logits/rejected": 0.36232098937034607,
-      "logps/chosen": -546.025390625,
-      "logps/rejected": -602.3193359375,
-      "loss": 0.3932,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -2.0167908668518066,
-      "rewards/margins": 1.6244287490844727,
-      "rewards/rejected": -3.6412200927734375,
-      "step": 650
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 9.11628515022765e-08,
-      "logits/chosen": -0.31195029616355896,
-      "logits/rejected": 0.7031415700912476,
-      "logps/chosen": -575.6533813476562,
-      "logps/rejected": -550.7911376953125,
-      "loss": 0.3775,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -1.9456446170806885,
-      "rewards/margins": 1.9410841464996338,
-      "rewards/rejected": -3.8867290019989014,
-      "step": 660
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 8.365056438189486e-08,
-      "logits/chosen": -0.1329679787158966,
-      "logits/rejected": 0.6911096572875977,
-      "logps/chosen": -526.4910278320312,
-      "logps/rejected": -568.0216064453125,
-      "loss": 0.3821,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -2.2285189628601074,
-      "rewards/margins": 1.4839597940444946,
-      "rewards/rejected": -3.7124786376953125,
-      "step": 670
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 7.639866672902101e-08,
-      "logits/chosen": 0.3368561863899231,
-      "logits/rejected": 1.2245566844940186,
-      "logps/chosen": -586.1475219726562,
-      "logps/rejected": -629.6542358398438,
-      "loss": 0.4028,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -2.569129467010498,
-      "rewards/margins": 1.8280231952667236,
-      "rewards/rejected": -4.397152423858643,
-      "step": 680
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 6.941851005657851e-08,
-      "logits/chosen": -0.06485060602426529,
-      "logits/rejected": 0.7306933403015137,
-      "logps/chosen": -572.1720581054688,
-      "logps/rejected": -576.8677978515625,
-      "loss": 0.3819,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -2.195324182510376,
-      "rewards/margins": 1.7558557987213135,
-      "rewards/rejected": -3.9511799812316895,
-      "step": 690
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 6.272102051693051e-08,
-      "logits/chosen": 0.16706393659114838,
-      "logits/rejected": 0.8311805725097656,
-      "logps/chosen": -546.9618530273438,
-      "logps/rejected": -599.8685302734375,
-      "loss": 0.3779,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -2.3925366401672363,
-      "rewards/margins": 1.6777336597442627,
-      "rewards/rejected": -4.070270538330078,
-      "step": 700
-    },
-    {
-      "epoch": 0.79,
-      "eval_logits/chosen": 0.251458078622818,
-      "eval_logits/rejected": 0.8019012808799744,
-      "eval_logps/chosen": -539.7506713867188,
-      "eval_logps/rejected": -666.2688598632812,
-      "eval_loss": 0.49509289860725403,
-      "eval_rewards/accuracies": 0.765625,
-      "eval_rewards/chosen": -2.8271102905273438,
-      "eval_rewards/margins": 1.2620453834533691,
-      "eval_rewards/rejected": -4.089155673980713,
-      "eval_runtime": 52.9381,
-      "eval_samples_per_second": 37.78,
-      "eval_steps_per_second": 0.604,
-      "step": 700
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 5.6316681798995844e-08,
-      "logits/chosen": 0.029453057795763016,
-      "logits/rejected": 0.8492851257324219,
-      "logps/chosen": -595.5863037109375,
-      "logps/rejected": -619.2969970703125,
-      "loss": 0.4273,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -2.4548239707946777,
-      "rewards/margins": 1.7372827529907227,
-      "rewards/rejected": -4.192107200622559,
-      "step": 710
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 5.0215518717961256e-08,
-      "logits/chosen": 0.2557750344276428,
-      "logits/rejected": 0.9654140472412109,
-      "logps/chosen": -543.8341064453125,
-      "logps/rejected": -580.2445068359375,
-      "loss": 0.403,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -2.4623947143554688,
-      "rewards/margins": 1.6467905044555664,
-      "rewards/rejected": -4.109185218811035,
-      "step": 720
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 4.4427081523275925e-08,
-      "logits/chosen": 0.16709019243717194,
-      "logits/rejected": 0.9560591578483582,
-      "logps/chosen": -535.726318359375,
-      "logps/rejected": -586.334228515625,
-      "loss": 0.3846,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -2.379093647003174,
-      "rewards/margins": 1.706425428390503,
-      "rewards/rejected": -4.085518836975098,
-      "step": 730
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 3.896043094949061e-08,
-      "logits/chosen": -0.04919125884771347,
-      "logits/rejected": 0.726272463798523,
-      "logps/chosen": -575.3306884765625,
-      "logps/rejected": -597.0858154296875,
-      "loss": 0.4039,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -2.4570398330688477,
-      "rewards/margins": 1.6302992105484009,
-      "rewards/rejected": -4.087338924407959,
-      "step": 740
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 3.3824124033343557e-08,
-      "logits/chosen": 0.028565894812345505,
-      "logits/rejected": 0.8538961410522461,
-      "logps/chosen": -566.6370849609375,
-      "logps/rejected": -576.2894287109375,
-      "loss": 0.3796,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -2.445554256439209,
-      "rewards/margins": 1.5305721759796143,
-      "rewards/rejected": -3.976126194000244,
-      "step": 750
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 2.9026200719291904e-08,
-      "logits/chosen": 0.14750410616397858,
-      "logits/rejected": 0.8671531677246094,
-      "logps/chosen": -491.7998962402344,
-      "logps/rejected": -554.5946655273438,
-      "loss": 0.3931,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -2.194965362548828,
-      "rewards/margins": 1.5993218421936035,
-      "rewards/rejected": -3.7942872047424316,
-      "step": 760
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 2.4574171274456433e-08,
-      "logits/chosen": 0.05547152832150459,
-      "logits/rejected": 0.8580353856086731,
-      "logps/chosen": -593.9608764648438,
-      "logps/rejected": -608.4605712890625,
-      "loss": 0.3707,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -2.500046491622925,
-      "rewards/margins": 1.6873514652252197,
-      "rewards/rejected": -4.1873979568481445,
-      "step": 770
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 2.047500453267881e-08,
-      "logits/chosen": 0.07607009261846542,
-      "logits/rejected": 0.9816274642944336,
-      "logps/chosen": -613.8623657226562,
-      "logps/rejected": -627.4935302734375,
-      "loss": 0.3864,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -2.576051712036133,
-      "rewards/margins": 1.8002961874008179,
-      "rewards/rejected": -4.37634801864624,
-      "step": 780
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 1.673511698609292e-08,
-      "logits/chosen": -0.030661270022392273,
-      "logits/rejected": 0.8080152273178101,
-      "logps/chosen": -595.865478515625,
-      "logps/rejected": -620.65966796875,
-      "loss": 0.3947,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -2.505141496658325,
-      "rewards/margins": 1.7527068853378296,
-      "rewards/rejected": -4.257847785949707,
-      "step": 790
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 1.3360362741285769e-08,
-      "logits/chosen": 0.3820663094520569,
-      "logits/rejected": 1.0134365558624268,
-      "logps/chosen": -519.1594848632812,
-      "logps/rejected": -563.0218505859375,
-      "loss": 0.3845,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -2.459944725036621,
-      "rewards/margins": 1.5404003858566284,
-      "rewards/rejected": -4.000345706939697,
-      "step": 800
-    },
-    {
-      "epoch": 0.91,
-      "eval_logits/chosen": 0.2531813681125641,
-      "eval_logits/rejected": 0.7844187021255493,
-      "eval_logps/chosen": -558.243408203125,
-      "eval_logps/rejected": -683.8961791992188,
-      "eval_loss": 0.49323520064353943,
-      "eval_rewards/accuracies": 0.76953125,
-      "eval_rewards/chosen": -3.012037754058838,
-      "eval_rewards/margins": 1.2533915042877197,
-      "eval_rewards/rejected": -4.2654290199279785,
-      "eval_runtime": 52.9535,
-      "eval_samples_per_second": 37.769,
-      "eval_steps_per_second": 0.604,
-      "step": 800
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 1.0356024355769433e-08,
-      "logits/chosen": 0.051693208515644073,
-      "logits/rejected": 0.7009769678115845,
-      "logps/chosen": -603.3291015625,
-      "logps/rejected": -616.5624389648438,
-      "loss": 0.3942,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -2.494053602218628,
-      "rewards/margins": 1.5036752223968506,
-      "rewards/rejected": -3.9977290630340576,
-      "step": 810
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 7.726804569108597e-09,
-      "logits/chosen": 0.16616474092006683,
-      "logits/rejected": 1.1278895139694214,
-      "logps/chosen": -569.5582275390625,
-      "logps/rejected": -595.67724609375,
-      "loss": 0.3891,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -2.447701930999756,
-      "rewards/margins": 1.670259714126587,
-      "rewards/rejected": -4.1179609298706055,
-      "step": 820
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 5.476818941645561e-09,
-      "logits/chosen": 0.22033889591693878,
-      "logits/rejected": 0.872348964214325,
-      "logps/chosen": -580.0589599609375,
-      "logps/rejected": -621.200439453125,
-      "loss": 0.3729,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -2.370396137237549,
-      "rewards/margins": 1.893420934677124,
-      "rewards/rejected": -4.263816833496094,
-      "step": 830
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 3.609589412347347e-09,
-      "logits/chosen": -0.021263647824525833,
-      "logits/rejected": 0.8406580686569214,
-      "logps/chosen": -605.0250244140625,
-      "logps/rejected": -622.5994873046875,
-      "loss": 0.4117,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -2.3371009826660156,
-      "rewards/margins": 1.920668601989746,
-      "rewards/rejected": -4.2577691078186035,
-      "step": 840
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 2.1280387858572667e-09,
-      "logits/chosen": 0.2490266114473343,
-      "logits/rejected": 0.9580374956130981,
-      "logps/chosen": -572.4114990234375,
-      "logps/rejected": -646.89892578125,
-      "loss": 0.3982,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -2.5151896476745605,
-      "rewards/margins": 1.6319019794464111,
-      "rewards/rejected": -4.147091388702393,
-      "step": 850
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 1.03448615738172e-09,
-      "logits/chosen": 0.03189245983958244,
-      "logits/rejected": 1.1285068988800049,
-      "logps/chosen": -562.9724731445312,
-      "logps/rejected": -615.1611328125,
-      "loss": 0.3952,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -2.4744155406951904,
-      "rewards/margins": 1.8728519678115845,
-      "rewards/rejected": -4.3472676277160645,
-      "step": 860
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 3.3064328257259575e-10,
-      "logits/chosen": -0.04908572882413864,
-      "logits/rejected": 0.6742405891418457,
-      "logps/chosen": -604.3118896484375,
-      "logps/rejected": -606.341552734375,
-      "loss": 0.3868,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -2.5000436305999756,
-      "rewards/margins": 1.6203769445419312,
-      "rewards/rejected": -4.120420932769775,
-      "step": 870
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 1.7611898088715216e-11,
-      "logits/chosen": -0.092198446393013,
-      "logits/rejected": 0.9236906170845032,
-      "logps/chosen": -669.6597900390625,
-      "logps/rejected": -655.7959594726562,
-      "loss": 0.3909,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -2.540384292602539,
-      "rewards/margins": 1.8847181797027588,
-      "rewards/rejected": -4.425102710723877,
-      "step": 880
-    },
     {
       "epoch": 1.0,
-      "step": 883,
       "total_flos": 0.0,
-      "train_loss": 0.4371140412269065,
-      "train_runtime": 8003.3982,
-      "train_samples_per_second": 14.123,
-      "train_steps_per_second": 0.11
     }
   ],
   "logging_steps": 10,
-  "max_steps": 883,
   "num_train_epochs": 1,
   "save_steps": 100,
   "total_flos": 0.0,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.998766954377312,
   "eval_steps": 100,
+  "global_step": 405,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 1.2195121951219512e-08,
+      "logits/chosen": -2.8088459968566895,
+      "logits/rejected": -2.7595884799957275,
+      "logps/chosen": -368.90777587890625,
+      "logps/rejected": -133.10202026367188,
+      "loss": 0.3669,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
       "step": 1
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.219512195121951e-07,
+      "logits/chosen": -2.838677406311035,
+      "logits/rejected": -2.8248190879821777,
+      "logps/chosen": -433.822265625,
+      "logps/rejected": -114.71543884277344,
+      "loss": 0.3373,
+      "rewards/accuracies": 0.5555555820465088,
+      "rewards/chosen": 0.0010175479110330343,
+      "rewards/margins": 0.0018583540804684162,
+      "rewards/rejected": -0.0008408060530200601,
       "step": 10
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 2.439024390243902e-07,
+      "logits/chosen": -2.798461437225342,
+      "logits/rejected": -2.765454053878784,
+      "logps/chosen": -436.7164001464844,
+      "logps/rejected": -109.3239517211914,
+      "loss": 0.3366,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.020252179354429245,
+      "rewards/margins": 0.03614808991551399,
+      "rewards/rejected": -0.015895914286375046,
       "step": 20
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 3.6585365853658536e-07,
+      "logits/chosen": -2.7184653282165527,
+      "logits/rejected": -2.6913540363311768,
+      "logps/chosen": -422.36480712890625,
+      "logps/rejected": -127.92415618896484,
+      "loss": 0.3034,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.06996239721775055,
+      "rewards/margins": 0.19669881463050842,
+      "rewards/rejected": -0.12673643231391907,
       "step": 30
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 4.878048780487804e-07,
+      "logits/chosen": -2.592528820037842,
+      "logits/rejected": -2.5740997791290283,
+      "logps/chosen": -396.34332275390625,
+      "logps/rejected": -138.47140502929688,
+      "loss": 0.2563,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": 0.023515433073043823,
+      "rewards/margins": 0.41449323296546936,
+      "rewards/rejected": -0.39097777009010315,
       "step": 40
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 4.992461696250783e-07,
+      "logits/chosen": -2.425698757171631,
+      "logits/rejected": -2.399880886077881,
+      "logps/chosen": -445.71978759765625,
+      "logps/rejected": -201.20761108398438,
+      "loss": 0.1773,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.034065067768096924,
+      "rewards/margins": 0.8275578618049622,
+      "rewards/rejected": -0.8616229295730591,
       "step": 50
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 4.966461721767899e-07,
+      "logits/chosen": -2.4016242027282715,
+      "logits/rejected": -2.3502964973449707,
+      "logps/chosen": -424.775390625,
+      "logps/rejected": -253.54776000976562,
+      "loss": 0.1294,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.3768869638442993,
+      "rewards/margins": 0.9074532389640808,
+      "rewards/rejected": -1.2843403816223145,
       "step": 60
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 4.922100518015975e-07,
+      "logits/chosen": -2.43666410446167,
+      "logits/rejected": -2.387927293777466,
+      "logps/chosen": -420.531494140625,
+      "logps/rejected": -273.5174255371094,
+      "loss": 0.1116,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.3666774034500122,
+      "rewards/margins": 1.1816540956497192,
+      "rewards/rejected": -1.548331618309021,
       "step": 70
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 4.859708325770919e-07,
+      "logits/chosen": -2.37559175491333,
+      "logits/rejected": -2.327603816986084,
+      "logps/chosen": -472.6153259277344,
+      "logps/rejected": -317.5882873535156,
+      "loss": 0.0637,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.8155827522277832,
+      "rewards/margins": 1.3035672903060913,
+      "rewards/rejected": -2.119150161743164,
       "step": 80
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 4.779749614980225e-07,
+      "logits/chosen": -2.3662772178649902,
+      "logits/rejected": -2.3145246505737305,
+      "logps/chosen": -546.580810546875,
+      "logps/rejected": -391.6395263671875,
+      "loss": 0.0501,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.7051855325698853,
+      "rewards/margins": 1.912410020828247,
+      "rewards/rejected": -2.617595672607422,
       "step": 90
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 4.682819627081427e-07,
+      "logits/chosen": -2.3446455001831055,
+      "logits/rejected": -2.278437852859497,
+      "logps/chosen": -482.21063232421875,
+      "logps/rejected": -363.7936096191406,
+      "loss": 0.0594,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.6942282915115356,
+      "rewards/margins": 1.7591311931610107,
+      "rewards/rejected": -2.4533591270446777,
       "step": 100
     },
     {
+      "epoch": 0.25,
+      "eval_logits/chosen": -2.340813636779785,
+      "eval_logits/rejected": -2.327035903930664,
+      "eval_logps/chosen": -428.9503173828125,
+      "eval_logps/rejected": -451.85736083984375,
+      "eval_loss": 0.10351637005805969,
+      "eval_rewards/accuracies": 0.6171875,
+      "eval_rewards/chosen": -1.7191063165664673,
+      "eval_rewards/margins": 0.22593416273593903,
+      "eval_rewards/rejected": -1.9450405836105347,
+      "eval_runtime": 53.3665,
+      "eval_samples_per_second": 37.477,
+      "eval_steps_per_second": 0.6,
       "step": 100
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 4.569639943810477e-07,
+      "logits/chosen": -2.3267300128936768,
+      "logits/rejected": -2.256336212158203,
+      "logps/chosen": -502.18572998046875,
+      "logps/rejected": -387.1337890625,
+      "loss": 0.0472,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.9502252340316772,
+      "rewards/margins": 1.751552939414978,
+      "rewards/rejected": -2.7017781734466553,
       "step": 110
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 4.4410531154874543e-07,
+      "logits/chosen": -2.3445639610290527,
+      "logits/rejected": -2.2553389072418213,
+      "logps/chosen": -552.4199829101562,
+      "logps/rejected": -416.80755615234375,
+      "loss": 0.0477,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.0058166980743408,
+      "rewards/margins": 1.8569440841674805,
+      "rewards/rejected": -2.8627610206604004,
       "step": 120
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 4.298016388768561e-07,
+      "logits/chosen": -2.396329641342163,
+      "logits/rejected": -2.322551727294922,
+      "logps/chosen": -542.0057373046875,
+      "logps/rejected": -407.68634033203125,
+      "loss": 0.0418,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -0.768031895160675,
+      "rewards/margins": 2.077030658721924,
+      "rewards/rejected": -2.845062017440796,
       "step": 130
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 4.1415945805573005e-07,
+      "logits/chosen": -2.3263237476348877,
+      "logits/rejected": -2.2574667930603027,
+      "logps/chosen": -506.77471923828125,
+      "logps/rejected": -388.97479248046875,
+      "loss": 0.0506,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.8580313920974731,
+      "rewards/margins": 1.7057987451553345,
+      "rewards/rejected": -2.5638298988342285,
       "step": 140
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 3.972952151123984e-07,
+      "logits/chosen": -2.3322761058807373,
+      "logits/rejected": -2.2486355304718018,
+      "logps/chosen": -450.03778076171875,
+      "logps/rejected": -351.47064208984375,
+      "loss": 0.0528,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.7531972527503967,
+      "rewards/margins": 1.7522554397583008,
+      "rewards/rejected": -2.505452871322632,
       "step": 150
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 3.793344535444142e-07,
+      "logits/chosen": -2.298706531524658,
+      "logits/rejected": -2.205777168273926,
+      "logps/chosen": -549.6655883789062,
+      "logps/rejected": -407.4877624511719,
+      "loss": 0.0361,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -0.8248310089111328,
+      "rewards/margins": 2.1384449005126953,
+      "rewards/rejected": -2.963275909423828,
       "step": 160
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 3.604108797288461e-07,
+      "logits/chosen": -2.301478862762451,
+      "logits/rejected": -2.199977397918701,
+      "logps/chosen": -550.0228271484375,
+      "logps/rejected": -447.4345703125,
+      "loss": 0.0349,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -1.1104724407196045,
+      "rewards/margins": 2.2591710090637207,
+      "rewards/rejected": -3.369643449783325,
       "step": 170
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 3.40665367563858e-07,
+      "logits/chosen": -2.2790443897247314,
+      "logits/rejected": -2.1830639839172363,
+      "logps/chosen": -540.7822265625,
+      "logps/rejected": -438.80816650390625,
+      "loss": 0.0358,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.3068325519561768,
+      "rewards/margins": 1.9258372783660889,
+      "rewards/rejected": -3.2326698303222656,
       "step": 180
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 3.202449097526798e-07,
+      "logits/chosen": -2.2940845489501953,
+      "logits/rejected": -2.213531732559204,
+      "logps/chosen": -518.0568237304688,
+      "logps/rejected": -424.33331298828125,
+      "loss": 0.0358,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -1.1591523885726929,
+      "rewards/margins": 2.0107340812683105,
+      "rewards/rejected": -3.169886350631714,
       "step": 190
     },
     {
+      "epoch": 0.49,
+      "learning_rate": 2.993015235369905e-07,
+      "logits/chosen": -2.2501273155212402,
+      "logits/rejected": -2.1389498710632324,
+      "logps/chosen": -568.6901245117188,
+      "logps/rejected": -470.89617919921875,
+      "loss": 0.0329,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -1.2941691875457764,
+      "rewards/margins": 2.236302375793457,
+      "rewards/rejected": -3.5304713249206543,
       "step": 200
     },
     {
+      "epoch": 0.49,
+      "eval_logits/chosen": -2.2352473735809326,
+      "eval_logits/rejected": -2.214733362197876,
+      "eval_logps/chosen": -501.9567565917969,
+      "eval_logps/rejected": -538.0303955078125,
+      "eval_loss": 0.06932022422552109,
+      "eval_rewards/accuracies": 0.609375,
+      "eval_rewards/chosen": -2.449171304702759,
+      "eval_rewards/margins": 0.35759952664375305,
+      "eval_rewards/rejected": -2.8067705631256104,
+      "eval_runtime": 53.3061,
+      "eval_samples_per_second": 37.519,
+      "eval_steps_per_second": 0.6,
       "step": 200
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 2.7799111902582693e-07,
+      "logits/chosen": -2.2516720294952393,
+      "logits/rejected": -2.1468265056610107,
+      "logps/chosen": -544.9647216796875,
+      "logps/rejected": -425.84832763671875,
+      "loss": 0.0319,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.4447880983352661,
+      "rewards/margins": 1.7926721572875977,
+      "rewards/rejected": -3.2374606132507324,
       "step": 210
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 2.564723385445869e-07,
+      "logits/chosen": -2.325510025024414,
+      "logits/rejected": -2.2458481788635254,
+      "logps/chosen": -532.0316772460938,
+      "logps/rejected": -426.2433166503906,
+      "loss": 0.0441,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.1441152095794678,
+      "rewards/margins": 1.8752161264419556,
+      "rewards/rejected": -3.019331455230713,
       "step": 220
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 2.3490537564442845e-07,
+      "logits/chosen": -2.3061037063598633,
+      "logits/rejected": -2.2063522338867188,
+      "logps/chosen": -515.2584228515625,
+      "logps/rejected": -387.2288818359375,
+      "loss": 0.0536,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.2331289052963257,
+      "rewards/margins": 1.573769211769104,
+      "rewards/rejected": -2.806898355484009,
       "step": 230
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 2.1345078256378801e-07,
+      "logits/chosen": -2.3259823322296143,
+      "logits/rejected": -2.232604503631592,
+      "logps/chosen": -529.44775390625,
+      "logps/rejected": -442.9454040527344,
+      "loss": 0.0384,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.2063531875610352,
+      "rewards/margins": 2.0420820713043213,
+      "rewards/rejected": -3.2484352588653564,
       "step": 240
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 1.9226827501969865e-07,
+      "logits/chosen": -2.310181140899658,
+      "logits/rejected": -2.225755214691162,
+      "logps/chosen": -569.6714477539062,
+      "logps/rejected": -482.9613342285156,
+      "loss": 0.0368,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -1.2699750661849976,
+      "rewards/margins": 2.3776299953460693,
+      "rewards/rejected": -3.6476047039031982,
       "step": 250
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 1.715155432264775e-07,
+      "logits/chosen": -2.3007090091705322,
+      "logits/rejected": -2.2159204483032227,
+      "logps/chosen": -574.6656494140625,
+      "logps/rejected": -473.60528564453125,
+      "loss": 0.0275,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -1.4263044595718384,
+      "rewards/margins": 2.146233081817627,
+      "rewards/rejected": -3.572537660598755,
       "step": 260
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 1.51347077992983e-07,
+      "logits/chosen": -2.280165195465088,
+      "logits/rejected": -2.1988308429718018,
+      "logps/chosen": -573.0145874023438,
+      "logps/rejected": -490.4935607910156,
+      "loss": 0.024,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -1.6931577920913696,
+      "rewards/margins": 1.988318681716919,
+      "rewards/rejected": -3.68147611618042,
       "step": 270
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 1.3191302063739906e-07,
+      "logits/chosen": -2.247427463531494,
+      "logits/rejected": -2.1717417240142822,
+      "logps/chosen": -552.9573364257812,
+      "logps/rejected": -480.90435791015625,
+      "loss": 0.0231,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.7376149892807007,
+      "rewards/margins": 1.9405027627944946,
+      "rewards/rejected": -3.678117275238037,
       "step": 280
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 1.1335804528119475e-07,
+      "logits/chosen": -2.3430678844451904,
+      "logits/rejected": -2.2265610694885254,
+      "logps/chosen": -586.9962158203125,
+      "logps/rejected": -472.01611328125,
+      "loss": 0.0285,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.5123710632324219,
+      "rewards/margins": 2.2006583213806152,
+      "rewards/rejected": -3.713029384613037,
       "step": 290
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 9.582028184286423e-08,
+      "logits/chosen": -2.2495548725128174,
+      "logits/rejected": -2.186642646789551,
+      "logps/chosen": -531.0364990234375,
+      "logps/rejected": -480.0726623535156,
+      "loss": 0.0312,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.7118114233016968,
+      "rewards/margins": 1.8730456829071045,
+      "rewards/rejected": -3.58485746383667,
       "step": 300
     },
     {
+      "epoch": 0.74,
+      "eval_logits/chosen": -2.2933216094970703,
+      "eval_logits/rejected": -2.2721123695373535,
+      "eval_logps/chosen": -501.1633605957031,
+      "eval_logps/rejected": -543.5177612304688,
+      "eval_loss": 0.06885366886854172,
+      "eval_rewards/accuracies": 0.61328125,
+      "eval_rewards/chosen": -2.441237449645996,
+      "eval_rewards/margins": 0.42040756344795227,
+      "eval_rewards/rejected": -2.861644983291626,
+      "eval_runtime": 53.2903,
+      "eval_samples_per_second": 37.53,
+      "eval_steps_per_second": 0.6,
       "step": 300
     },
     {
+      "epoch": 0.76,
+      "learning_rate": 7.943028774907065e-08,
+      "logits/chosen": -2.2719688415527344,
+      "logits/rejected": -2.1988675594329834,
+      "logps/chosen": -524.6929931640625,
+      "logps/rejected": -446.8042907714844,
+      "loss": 0.0349,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -1.4022165536880493,
+      "rewards/margins": 1.8806768655776978,
+      "rewards/rejected": -3.282893419265747,
       "step": 310
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 6.431007601814637e-08,
+      "logits/chosen": -2.2960824966430664,
+      "logits/rejected": -2.2386252880096436,
+      "logps/chosen": -477.001953125,
+      "logps/rejected": -436.0245666503906,
+      "loss": 0.0298,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -1.4929635524749756,
+      "rewards/margins": 1.7944204807281494,
+      "rewards/rejected": -3.287383556365967,
       "step": 320
     },
     {
+      "epoch": 0.81,
+      "learning_rate": 5.0572206951246e-08,
+      "logits/chosen": -2.277937650680542,
+      "logits/rejected": -2.1940300464630127,
+      "logps/chosen": -516.416015625,
+      "logps/rejected": -444.90032958984375,
+      "loss": 0.0329,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.4886820316314697,
+      "rewards/margins": 1.8972896337509155,
+      "rewards/rejected": -3.385971784591675,
       "step": 330
     },
     {
+      "epoch": 0.84,
+      "learning_rate": 3.831895019292897e-08,
+      "logits/chosen": -2.3472743034362793,
+      "logits/rejected": -2.266993999481201,
+      "logps/chosen": -560.1998291015625,
+      "logps/rejected": -486.14801025390625,
+      "loss": 0.0324,
       "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -1.25786554813385,
+      "rewards/margins": 2.4262924194335938,
+      "rewards/rejected": -3.6841578483581543,
       "step": 340
     },
     {
+      "epoch": 0.86,
+      "learning_rate": 2.764152339909756e-08,
+      "logits/chosen": -2.2894670963287354,
+      "logits/rejected": -2.2070441246032715,
+      "logps/chosen": -551.2086181640625,
+      "logps/rejected": -415.3118591308594,
+      "loss": 0.0328,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -1.2593928575515747,
+      "rewards/margins": 1.9064128398895264,
+      "rewards/rejected": -3.1658055782318115,
       "step": 350
     },
     {
+      "epoch": 0.89,
+      "learning_rate": 1.861941317991664e-08,
+      "logits/chosen": -2.3396449089050293,
+      "logits/rejected": -2.227651834487915,
+      "logps/chosen": -571.0888061523438,
+      "logps/rejected": -453.03277587890625,
+      "loss": 0.0325,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -1.14793860912323,
+      "rewards/margins": 2.2367420196533203,
+      "rewards/rejected": -3.3846805095672607,
       "step": 360
     },
     {
+      "epoch": 0.91,
+      "learning_rate": 1.13197833728636e-08,
+      "logits/chosen": -2.2972564697265625,
+      "logits/rejected": -2.215446710586548,
+      "logps/chosen": -527.4664306640625,
+      "logps/rejected": -465.6924743652344,
+      "loss": 0.0288,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -1.247899055480957,
+      "rewards/margins": 2.289482355117798,
+      "rewards/rejected": -3.537381410598755,
       "step": 370
     },
     {
+      "epoch": 0.94,
+      "learning_rate": 5.79697505093521e-09,
+      "logits/chosen": -2.293482542037964,
+      "logits/rejected": -2.2097363471984863,
+      "logps/chosen": -540.6966552734375,
+      "logps/rejected": -439.814697265625,
+      "loss": 0.0375,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.383996605873108,
+      "rewards/margins": 1.9607197046279907,
+      "rewards/rejected": -3.3447163105010986,
       "step": 380
     },
     {
+      "epoch": 0.96,
+      "learning_rate": 2.092101988131256e-09,
+      "logits/chosen": -2.346567153930664,
+      "logits/rejected": -2.220730781555176,
+      "logps/chosen": -575.7041625976562,
+      "logps/rejected": -463.69427490234375,
+      "loss": 0.0315,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -1.1256561279296875,
+      "rewards/margins": 2.420063018798828,
+      "rewards/rejected": -3.5457186698913574,
       "step": 390
     },
     {
+      "epoch": 0.99,
+      "learning_rate": 2.327445937151673e-10,
+      "logits/chosen": -2.3339614868164062,
+      "logits/rejected": -2.2517640590667725,
+      "logps/chosen": -568.7457275390625,
+      "logps/rejected": -479.13653564453125,
+      "loss": 0.0331,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -1.2012748718261719,
+      "rewards/margins": 2.3051795959472656,
+      "rewards/rejected": -3.5064544677734375,
       "step": 400
     },
     {
+      "epoch": 0.99,
+      "eval_logits/chosen": -2.3029849529266357,
+      "eval_logits/rejected": -2.282188892364502,
+      "eval_logps/chosen": -494.22357177734375,
+      "eval_logps/rejected": -539.6053466796875,
+      "eval_loss": 0.07123579829931259,
+      "eval_rewards/accuracies": 0.625,
+      "eval_rewards/chosen": -2.3718395233154297,
+      "eval_rewards/margins": 0.45068085193634033,
+      "eval_rewards/rejected": -2.8225200176239014,
+      "eval_runtime": 53.2767,
+      "eval_samples_per_second": 37.54,
+      "eval_steps_per_second": 0.601,
       "step": 400
     },
     {
       "epoch": 1.0,
+      "step": 405,
       "total_flos": 0.0,
+      "train_loss": 0.0722552685457983,
+      "train_runtime": 3732.8792,
+      "train_samples_per_second": 13.902,
+      "train_steps_per_second": 0.108
     }
   ],
   "logging_steps": 10,
+  "max_steps": 405,
   "num_train_epochs": 1,
   "save_steps": 100,
   "total_flos": 0.0,