Model save

Browse files

Files changed (8) hide show

README.md +21 -1
all_results.json +5 -5
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +1256 -456
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -16,6 +16,16 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-dpo-full
 This model is a fine-tuned version of [HuggingFaceH4/mistral-7b-sft-beta](https://huggingface.co/HuggingFaceH4/mistral-7b-sft-beta) on the None dataset.
 ## Model description
@@ -37,7 +47,7 @@ The following hyperparameters were used during training:
 - learning_rate: 5e-07
 - train_batch_size: 8
 - eval_batch_size: 8
-- seed: 3
 - distributed_type: multi-GPU
 - num_devices: 8
 - gradient_accumulation_steps: 2
@@ -50,6 +60,16 @@ The following hyperparameters were used during training:
 ### Training results
 ### Framework versions

 # zephyr-7b-dpo-full
 This model is a fine-tuned version of [HuggingFaceH4/mistral-7b-sft-beta](https://huggingface.co/HuggingFaceH4/mistral-7b-sft-beta) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.0870
+- Rewards/chosen: -2.7029
+- Rewards/rejected: -3.6206
+- Rewards/accuracies: 0.7461
+- Rewards/margins: 0.9178
+- Logps/rejected: -619.4178
+- Logps/chosen: -527.3273
+- Logits/rejected: -1.9016
+- Logits/chosen: -1.9549
 ## Model description
 - learning_rate: 5e-07
 - train_batch_size: 8
 - eval_batch_size: 8
+- seed: 1
 - distributed_type: multi-GPU
 - num_devices: 8
 - gradient_accumulation_steps: 2
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.2588        | 0.11  | 100  | 0.2530          | -0.6480        | -0.9151          | 0.6406             | 0.2671          | -348.8655      | -321.8432    | -2.5122         | -2.5274       |
+| 0.1405        | 0.23  | 200  | 0.1423          | -1.6364        | -2.1668          | 0.7070             | 0.5303          | -474.0294      | -420.6826    | -2.1132         | -2.1455       |
+| 0.0841        | 0.34  | 300  | 0.1030          | -2.2868        | -3.0540          | 0.7383             | 0.7672          | -562.7563      | -485.7206    | -1.9654         | -2.0047       |
+| 0.0916        | 0.45  | 400  | 0.1080          | -2.2956        | -3.0938          | 0.7344             | 0.7982          | -566.7339      | -486.5965    | -1.9394         | -1.9812       |
+| 0.0864        | 0.57  | 500  | 0.0956          | -2.3099        | -3.1316          | 0.7461             | 0.8217          | -570.5160      | -488.0345    | -1.9095         | -1.9560       |
+| 0.065         | 0.68  | 600  | 0.0849          | -2.8564        | -3.7576          | 0.7266             | 0.9012          | -633.1135      | -542.6826    | -1.8868         | -1.9405       |
+| 0.0663        | 0.79  | 700  | 0.0840          | -2.8127        | -3.7340          | 0.7383             | 0.9213          | -630.7556      | -538.3111    | -1.9100         | -1.9627       |
+| 0.0663        | 0.91  | 800  | 0.0870          | -2.7029        | -3.6206          | 0.7461             | 0.9178          | -619.4178      | -527.3273    | -1.9016         | -1.9549       |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.13438091388455145,
-    "train_runtime": 3218.6044,
-    "train_samples": 51894,
-    "train_samples_per_second": 16.123,
-    "train_steps_per_second": 0.126
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.11349766382510908,
+    "train_runtime": 8005.048,
+    "train_samples": 113028,
+    "train_samples_per_second": 14.12,
+    "train_steps_per_second": 0.11
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb8362a83dbb810604c9bafec85943233773008800e5be078eda7676e6a5c17d
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0100db022e508c7165c36f69d0b9b8bb891630b5098773fb118894879c59a83
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d89dd4954ae3d1cf6d18c20fe5c41eace0d5e2cdd13d0e454a7ba4e26f5a2774
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1b514fc11019e3edb6963595ffc32c3f463b576c83ad6e179c0fb4d3ecdc9c7
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3564f1a5524b5df57acdcc790c6cb97db2f4bf1e30dcaacd947fb7902ebd95fa
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:a87d655aa114c81d612aa0a478ca3c21caf414fcf7afc6ba84774275794d4706
 size 4540516344

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.13438091388455145,
-    "train_runtime": 3218.6044,
-    "train_samples": 51894,
-    "train_samples_per_second": 16.123,
-    "train_steps_per_second": 0.126
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.11349766382510908,
+    "train_runtime": 8005.048,
+    "train_samples": 113028,
+    "train_samples_per_second": 14.12,
+    "train_steps_per_second": 0.11
 }

trainer_state.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.998766954377312,
-  "eval_steps": 1000,
-  "global_step": 405,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 1.2195121951219512e-08,
-      "logits/chosen": -2.8088459968566895,
-      "logits/rejected": -2.7595884799957275,
-      "logps/chosen": -368.90777587890625,
-      "logps/rejected": -133.10202026367188,
-      "loss": 0.4545,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -23,579 +23,1379 @@
       "step": 1
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 1.219512195121951e-07,
-      "logits/chosen": -2.83878231048584,
-      "logits/rejected": -2.824958562850952,
-      "logps/chosen": -433.8194580078125,
-      "logps/rejected": -114.66372680664062,
-      "loss": 0.4227,
-      "rewards/accuracies": 0.5416666865348816,
-      "rewards/chosen": 0.0010460919002071023,
-      "rewards/margins": 0.0013696590904146433,
-      "rewards/rejected": -0.000323567190207541,
       "step": 10
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 2.439024390243902e-07,
-      "logits/chosen": -2.7982840538024902,
-      "logits/rejected": -2.7652382850646973,
-      "logps/chosen": -436.67694091796875,
-      "logps/rejected": -109.33970642089844,
-      "loss": 0.4254,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": 0.020646633580327034,
-      "rewards/margins": 0.03670011833310127,
-      "rewards/rejected": -0.01605348475277424,
       "step": 20
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 3.6585365853658536e-07,
-      "logits/chosen": -2.717103958129883,
-      "logits/rejected": -2.6900384426116943,
-      "logps/chosen": -422.26702880859375,
-      "logps/rejected": -128.1683349609375,
-      "loss": 0.4108,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": 0.07094015926122665,
-      "rewards/margins": 0.20011821389198303,
-      "rewards/rejected": -0.12917804718017578,
       "step": 30
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 4.878048780487804e-07,
-      "logits/chosen": -2.590641498565674,
-      "logits/rejected": -2.5721707344055176,
-      "logps/chosen": -396.3973693847656,
-      "logps/rejected": -139.94859313964844,
-      "loss": 0.3881,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": 0.022975314408540726,
-      "rewards/margins": 0.4287249445915222,
-      "rewards/rejected": -0.4057496190071106,
       "step": 40
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 4.992461696250783e-07,
-      "logits/chosen": -2.42146635055542,
-      "logits/rejected": -2.394202709197998,
-      "logps/chosen": -445.91644287109375,
-      "logps/rejected": -205.5404052734375,
-      "loss": 0.316,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.03603144362568855,
-      "rewards/margins": 0.8689195513725281,
-      "rewards/rejected": -0.9049509763717651,
       "step": 50
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 4.966461721767899e-07,
-      "logits/chosen": -2.417520046234131,
-      "logits/rejected": -2.3663182258605957,
-      "logps/chosen": -422.27215576171875,
-      "logps/rejected": -255.75912475585938,
-      "loss": 0.2661,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -0.35185474157333374,
-      "rewards/margins": 0.9545990228652954,
-      "rewards/rejected": -1.3064535856246948,
       "step": 60
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 4.922100518015975e-07,
-      "logits/chosen": -2.45034122467041,
-      "logits/rejected": -2.397273540496826,
-      "logps/chosen": -428.19207763671875,
-      "logps/rejected": -294.82501220703125,
-      "loss": 0.198,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -0.4432826638221741,
-      "rewards/margins": 1.3181250095367432,
-      "rewards/rejected": -1.7614076137542725,
       "step": 70
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 4.859708325770919e-07,
-      "logits/chosen": -2.3751111030578613,
-      "logits/rejected": -2.321465015411377,
-      "logps/chosen": -468.4130859375,
-      "logps/rejected": -331.666259765625,
-      "loss": 0.162,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -0.7735603451728821,
-      "rewards/margins": 1.4863694906234741,
-      "rewards/rejected": -2.25993013381958,
       "step": 80
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 4.779749614980225e-07,
-      "logits/chosen": -2.381338596343994,
-      "logits/rejected": -2.327340602874756,
-      "logps/chosen": -520.724365234375,
-      "logps/rejected": -380.0218811035156,
-      "loss": 0.1464,
-      "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": -0.4466208815574646,
-      "rewards/margins": 2.054797649383545,
-      "rewards/rejected": -2.5014188289642334,
       "step": 90
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 4.682819627081427e-07,
-      "logits/chosen": -2.3299832344055176,
-      "logits/rejected": -2.2486767768859863,
-      "logps/chosen": -477.24261474609375,
-      "logps/rejected": -372.49017333984375,
-      "loss": 0.1456,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -0.6445478200912476,
-      "rewards/margins": 1.895777702331543,
-      "rewards/rejected": -2.54032564163208,
       "step": 100
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 4.569639943810477e-07,
-      "logits/chosen": -2.3097102642059326,
-      "logits/rejected": -2.226323127746582,
-      "logps/chosen": -495.50469970703125,
-      "logps/rejected": -389.80078125,
-      "loss": 0.1283,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -0.8834150433540344,
-      "rewards/margins": 1.8450326919555664,
-      "rewards/rejected": -2.728447675704956,
       "step": 110
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 4.4410531154874543e-07,
-      "logits/chosen": -2.3541078567504883,
-      "logits/rejected": -2.2549960613250732,
-      "logps/chosen": -524.7901000976562,
-      "logps/rejected": -398.75775146484375,
-      "loss": 0.1283,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -0.7295175790786743,
-      "rewards/margins": 1.9527451992034912,
-      "rewards/rejected": -2.682262897491455,
       "step": 120
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 4.298016388768561e-07,
-      "logits/chosen": -2.3804497718811035,
-      "logits/rejected": -2.2821872234344482,
-      "logps/chosen": -518.573974609375,
-      "logps/rejected": -398.14306640625,
-      "loss": 0.114,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -0.5337150692939758,
-      "rewards/margins": 2.2159152030944824,
-      "rewards/rejected": -2.7496302127838135,
       "step": 130
     },
     {
-      "epoch": 0.35,
-      "learning_rate": 4.1415945805573005e-07,
-      "logits/chosen": -2.309293270111084,
-      "logits/rejected": -2.2271227836608887,
-      "logps/chosen": -486.838623046875,
-      "logps/rejected": -373.0490417480469,
-      "loss": 0.1246,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -0.6586702466011047,
-      "rewards/margins": 1.7459022998809814,
-      "rewards/rejected": -2.4045722484588623,
       "step": 140
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 3.972952151123984e-07,
-      "logits/chosen": -2.288892984390259,
-      "logits/rejected": -2.1915061473846436,
-      "logps/chosen": -450.01556396484375,
-      "logps/rejected": -368.2213439941406,
-      "loss": 0.1152,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -0.7529748678207397,
-      "rewards/margins": 1.9199845790863037,
-      "rewards/rejected": -2.672959566116333,
       "step": 150
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 3.793344535444142e-07,
-      "logits/chosen": -2.2575857639312744,
-      "logits/rejected": -2.1550350189208984,
-      "logps/chosen": -547.2183837890625,
-      "logps/rejected": -409.57989501953125,
-      "loss": 0.088,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -0.8003584146499634,
-      "rewards/margins": 2.1838386058807373,
-      "rewards/rejected": -2.9841971397399902,
       "step": 160
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 3.604108797288461e-07,
-      "logits/chosen": -2.2742323875427246,
-      "logits/rejected": -2.167198419570923,
-      "logps/chosen": -547.2274169921875,
-      "logps/rejected": -456.614501953125,
-      "loss": 0.0776,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -1.0825190544128418,
-      "rewards/margins": 2.3789236545562744,
-      "rewards/rejected": -3.4614429473876953,
       "step": 170
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 3.40665367563858e-07,
-      "logits/chosen": -2.2402544021606445,
-      "logits/rejected": -2.1346538066864014,
-      "logps/chosen": -564.0145263671875,
-      "logps/rejected": -489.21160888671875,
-      "loss": 0.0697,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.539156198501587,
-      "rewards/margins": 2.1975486278533936,
-      "rewards/rejected": -3.7367050647735596,
       "step": 180
     },
     {
-      "epoch": 0.47,
-      "learning_rate": 3.202449097526798e-07,
-      "logits/chosen": -2.3025131225585938,
-      "logits/rejected": -2.224256992340088,
-      "logps/chosen": -505.39520263671875,
-      "logps/rejected": -423.83026123046875,
-      "loss": 0.0811,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -1.0325360298156738,
-      "rewards/margins": 2.132319927215576,
-      "rewards/rejected": -3.16485595703125,
       "step": 190
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 2.993015235369905e-07,
-      "logits/chosen": -2.3023552894592285,
-      "logits/rejected": -2.2043874263763428,
-      "logps/chosen": -525.6875610351562,
-      "logps/rejected": -416.1629333496094,
-      "loss": 0.0979,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -0.8641435503959656,
-      "rewards/margins": 2.118994951248169,
-      "rewards/rejected": -2.9831383228302,
       "step": 200
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 2.7799111902582693e-07,
-      "logits/chosen": -2.3067820072174072,
-      "logits/rejected": -2.2110161781311035,
-      "logps/chosen": -492.69927978515625,
-      "logps/rejected": -381.31878662109375,
-      "loss": 0.0872,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -0.9221334457397461,
-      "rewards/margins": 1.870031714439392,
-      "rewards/rejected": -2.7921650409698486,
       "step": 210
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 2.564723385445869e-07,
-      "logits/chosen": -2.3406167030334473,
-      "logits/rejected": -2.2510488033294678,
-      "logps/chosen": -520.8443603515625,
-      "logps/rejected": -442.00732421875,
-      "loss": 0.0908,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -1.0322405099868774,
-      "rewards/margins": 2.144731044769287,
-      "rewards/rejected": -3.176971912384033,
       "step": 220
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 2.3490537564442845e-07,
-      "logits/chosen": -2.284823179244995,
-      "logits/rejected": -2.1653401851654053,
-      "logps/chosen": -511.96929931640625,
-      "logps/rejected": -426.46356201171875,
-      "loss": 0.0967,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -1.2002372741699219,
-      "rewards/margins": 1.9990075826644897,
-      "rewards/rejected": -3.199244976043701,
       "step": 230
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 2.1345078256378801e-07,
-      "logits/chosen": -2.321927547454834,
-      "logits/rejected": -2.215357780456543,
-      "logps/chosen": -495.8760681152344,
-      "logps/rejected": -439.46282958984375,
-      "loss": 0.0955,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -0.8706371188163757,
-      "rewards/margins": 2.3429722785949707,
-      "rewards/rejected": -3.213609218597412,
       "step": 240
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 1.9226827501969865e-07,
-      "logits/chosen": -2.3428966999053955,
-      "logits/rejected": -2.2573530673980713,
-      "logps/chosen": -526.4675903320312,
-      "logps/rejected": -451.949462890625,
-      "loss": 0.096,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -0.8379364013671875,
-      "rewards/margins": 2.499549627304077,
-      "rewards/rejected": -3.3374857902526855,
       "step": 250
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 1.715155432264775e-07,
-      "logits/chosen": -2.3556008338928223,
-      "logits/rejected": -2.2766494750976562,
-      "logps/chosen": -516.3786010742188,
-      "logps/rejected": -430.13916015625,
-      "loss": 0.0857,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": -0.8434340357780457,
-      "rewards/margins": 2.294442653656006,
-      "rewards/rejected": -3.1378769874572754,
       "step": 260
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 1.51347077992983e-07,
-      "logits/chosen": -2.3460044860839844,
-      "logits/rejected": -2.281031370162964,
-      "logps/chosen": -490.55078125,
-      "logps/rejected": -423.6560974121094,
-      "loss": 0.0821,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -0.8685197830200195,
-      "rewards/margins": 2.1445822715759277,
-      "rewards/rejected": -3.0131022930145264,
       "step": 270
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 1.3191302063739906e-07,
-      "logits/chosen": -2.2882773876190186,
-      "logits/rejected": -2.218071699142456,
-      "logps/chosen": -500.769287109375,
-      "logps/rejected": -446.246826171875,
-      "loss": 0.0712,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -1.2157343626022339,
-      "rewards/margins": 2.1158077716827393,
-      "rewards/rejected": -3.3315422534942627,
       "step": 280
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 1.1335804528119475e-07,
-      "logits/chosen": -2.3649039268493652,
-      "logits/rejected": -2.252676486968994,
-      "logps/chosen": -540.1212158203125,
-      "logps/rejected": -467.2939453125,
-      "loss": 0.0686,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -1.0436217784881592,
-      "rewards/margins": 2.6221861839294434,
-      "rewards/rejected": -3.6658082008361816,
       "step": 290
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 9.582028184286423e-08,
-      "logits/chosen": -2.243900775909424,
-      "logits/rejected": -2.1746292114257812,
-      "logps/chosen": -503.1402282714844,
-      "logps/rejected": -486.1592712402344,
-      "loss": 0.0686,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -1.4328491687774658,
-      "rewards/margins": 2.2128751277923584,
-      "rewards/rejected": -3.6457245349884033,
       "step": 300
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 7.943028774907065e-08,
-      "logits/chosen": -2.2528328895568848,
-      "logits/rejected": -2.170386791229248,
-      "logps/chosen": -501.7100524902344,
-      "logps/rejected": -471.88897705078125,
-      "loss": 0.0689,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -1.172387719154358,
-      "rewards/margins": 2.3613522052764893,
-      "rewards/rejected": -3.533740282058716,
       "step": 310
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 6.431007601814637e-08,
-      "logits/chosen": -2.258288860321045,
-      "logits/rejected": -2.1915061473846436,
-      "logps/chosen": -471.57330322265625,
-      "logps/rejected": -461.84417724609375,
-      "loss": 0.0601,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -1.4386770725250244,
-      "rewards/margins": 2.1069023609161377,
-      "rewards/rejected": -3.545579433441162,
       "step": 320
     },
     {
-      "epoch": 0.81,
-      "learning_rate": 5.0572206951246e-08,
-      "logits/chosen": -2.2368595600128174,
-      "logits/rejected": -2.1402342319488525,
-      "logps/chosen": -522.8599853515625,
-      "logps/rejected": -482.84893798828125,
-      "loss": 0.0626,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -1.5531214475631714,
-      "rewards/margins": 2.2123360633850098,
-      "rewards/rejected": -3.7654571533203125,
       "step": 330
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 3.831895019292897e-08,
-      "logits/chosen": -2.308152675628662,
-      "logits/rejected": -2.2120919227600098,
-      "logps/chosen": -565.0369873046875,
-      "logps/rejected": -535.8488159179688,
-      "loss": 0.0642,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -1.306236982345581,
-      "rewards/margins": 2.8749289512634277,
-      "rewards/rejected": -4.181166172027588,
       "step": 340
     },
     {
-      "epoch": 0.86,
-      "learning_rate": 2.764152339909756e-08,
-      "logits/chosen": -2.245577573776245,
-      "logits/rejected": -2.1435444355010986,
-      "logps/chosen": -546.0943603515625,
-      "logps/rejected": -454.5082092285156,
-      "loss": 0.0636,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -1.2082496881484985,
-      "rewards/margins": 2.3495194911956787,
-      "rewards/rejected": -3.5577690601348877,
       "step": 350
     },
     {
-      "epoch": 0.89,
-      "learning_rate": 1.861941317991664e-08,
-      "logits/chosen": -2.302865505218506,
-      "logits/rejected": -2.1724164485931396,
-      "logps/chosen": -559.6376953125,
-      "logps/rejected": -483.40771484375,
-      "loss": 0.0675,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": -1.0334274768829346,
-      "rewards/margins": 2.655003070831299,
-      "rewards/rejected": -3.6884307861328125,
       "step": 360
     },
     {
-      "epoch": 0.91,
-      "learning_rate": 1.13197833728636e-08,
-      "logits/chosen": -2.2556536197662354,
-      "logits/rejected": -2.153872013092041,
-      "logps/chosen": -521.9984130859375,
-      "logps/rejected": -505.71673583984375,
-      "loss": 0.06,
-      "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": -1.1932189464569092,
-      "rewards/margins": 2.7444043159484863,
-      "rewards/rejected": -3.9376235008239746,
       "step": 370
     },
     {
-      "epoch": 0.94,
-      "learning_rate": 5.79697505093521e-09,
-      "logits/chosen": -2.2588906288146973,
-      "logits/rejected": -2.159388303756714,
-      "logps/chosen": -529.9054565429688,
-      "logps/rejected": -461.11700439453125,
-      "loss": 0.0744,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.276084065437317,
-      "rewards/margins": 2.2816543579101562,
-      "rewards/rejected": -3.5577385425567627,
       "step": 380
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 2.092101988131256e-09,
-      "logits/chosen": -2.313697099685669,
-      "logits/rejected": -2.171175003051758,
-      "logps/chosen": -565.225830078125,
-      "logps/rejected": -489.6360778808594,
-      "loss": 0.0609,
-      "rewards/accuracies": 0.893750011920929,
-      "rewards/chosen": -1.0208733081817627,
-      "rewards/margins": 2.784264087677002,
-      "rewards/rejected": -3.8051371574401855,
       "step": 390
     },
     {
-      "epoch": 0.99,
-      "learning_rate": 2.327445937151673e-10,
-      "logits/chosen": -2.29669189453125,
-      "logits/rejected": -2.1986515522003174,
-      "logps/chosen": -561.0698852539062,
-      "logps/rejected": -510.22021484375,
-      "loss": 0.0666,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": -1.1245156526565552,
-      "rewards/margins": 2.6927759647369385,
-      "rewards/rejected": -3.817291736602783,
       "step": 400
     },
     {
       "epoch": 1.0,
-      "step": 405,
       "total_flos": 0.0,
-      "train_loss": 0.13438091388455145,
-      "train_runtime": 3218.6044,
-      "train_samples_per_second": 16.123,
-      "train_steps_per_second": 0.126
     }
   ],
   "logging_steps": 10,
-  "max_steps": 405,
   "num_train_epochs": 1,
-  "save_steps": 1000,
   "total_flos": 0.0,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9994340690435767,
+  "eval_steps": 100,
+  "global_step": 883,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 5.617977528089887e-09,
+      "logits/chosen": -2.763059616088867,
+      "logits/rejected": -2.7395401000976562,
+      "logps/chosen": -322.45367431640625,
+      "logps/rejected": -273.0731506347656,
+      "loss": 0.3632,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
       "step": 1
     },
     {
+      "epoch": 0.01,
+      "learning_rate": 5.617977528089887e-08,
+      "logits/chosen": -2.7944271564483643,
+      "logits/rejected": -2.7713630199432373,
+      "logps/chosen": -334.48004150390625,
+      "logps/rejected": -186.60906982421875,
+      "loss": 0.3527,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": 4.6880424633855e-05,
+      "rewards/margins": 2.8881140679004602e-05,
+      "rewards/rejected": 1.7999276678892784e-05,
       "step": 10
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.1235955056179774e-07,
+      "logits/chosen": -2.8209891319274902,
+      "logits/rejected": -2.8004016876220703,
+      "logps/chosen": -334.3337707519531,
+      "logps/rejected": -174.12008666992188,
+      "loss": 0.3507,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.0022166508715599775,
+      "rewards/margins": 0.003457559272646904,
+      "rewards/rejected": -0.001240908750332892,
       "step": 20
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 1.6853932584269663e-07,
+      "logits/chosen": -2.7569632530212402,
+      "logits/rejected": -2.7449216842651367,
+      "logps/chosen": -318.72857666015625,
+      "logps/rejected": -187.9712371826172,
+      "loss": 0.3448,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": 0.008794652298092842,
+      "rewards/margins": 0.01837952807545662,
+      "rewards/rejected": -0.009584875777363777,
       "step": 30
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 2.2471910112359549e-07,
+      "logits/chosen": -2.7657992839813232,
+      "logits/rejected": -2.7251369953155518,
+      "logps/chosen": -361.417236328125,
+      "logps/rejected": -208.3668975830078,
+      "loss": 0.3535,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": 0.02502177096903324,
+      "rewards/margins": 0.06268725544214249,
+      "rewards/rejected": -0.037665486335754395,
       "step": 40
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 2.8089887640449437e-07,
+      "logits/chosen": -2.672497272491455,
+      "logits/rejected": -2.6617045402526855,
+      "logps/chosen": -290.23529052734375,
+      "logps/rejected": -174.43826293945312,
+      "loss": 0.3593,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.020228449255228043,
+      "rewards/margins": 0.11420907080173492,
+      "rewards/rejected": -0.09398062527179718,
       "step": 50
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 3.3707865168539325e-07,
+      "logits/chosen": -2.5486276149749756,
+      "logits/rejected": -2.540907621383667,
+      "logps/chosen": -329.50079345703125,
+      "logps/rejected": -229.45065307617188,
+      "loss": 0.3584,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.030313704162836075,
+      "rewards/margins": 0.17366722226142883,
+      "rewards/rejected": -0.2039809226989746,
       "step": 60
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 3.9325842696629214e-07,
+      "logits/chosen": -2.5654215812683105,
+      "logits/rejected": -2.5420703887939453,
+      "logps/chosen": -344.0436096191406,
+      "logps/rejected": -257.1449890136719,
+      "loss": 0.3532,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.13107505440711975,
+      "rewards/margins": 0.29146069288253784,
+      "rewards/rejected": -0.4225357472896576,
       "step": 70
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 4.4943820224719097e-07,
+      "logits/chosen": -2.470280170440674,
+      "logits/rejected": -2.4680607318878174,
+      "logps/chosen": -402.6678161621094,
+      "logps/rejected": -240.67776489257812,
+      "loss": 0.3141,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.19497649371623993,
+      "rewards/margins": 0.45426544547080994,
+      "rewards/rejected": -0.6492420434951782,
       "step": 80
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 4.999980431020109e-07,
+      "logits/chosen": -2.4644992351531982,
+      "logits/rejected": -2.436156749725342,
+      "logps/chosen": -366.55352783203125,
+      "logps/rejected": -270.9005432128906,
+      "loss": 0.2824,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.16562625765800476,
+      "rewards/margins": 0.6153150796890259,
+      "rewards/rejected": -0.780941367149353,
       "step": 90
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 4.997632524101301e-07,
+      "logits/chosen": -2.5054173469543457,
+      "logits/rejected": -2.465770959854126,
+      "logps/chosen": -371.3381042480469,
+      "logps/rejected": -287.1797790527344,
+      "loss": 0.2588,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.4102350175380707,
+      "rewards/margins": 0.5942500829696655,
+      "rewards/rejected": -1.0044851303100586,
       "step": 100
     },
     {
+      "epoch": 0.11,
+      "eval_logits/chosen": -2.527438163757324,
+      "eval_logits/rejected": -2.5121896266937256,
+      "eval_logps/chosen": -321.84320068359375,
+      "eval_logps/rejected": -348.865478515625,
+      "eval_loss": 0.25303778052330017,
+      "eval_rewards/accuracies": 0.640625,
+      "eval_rewards/chosen": -0.6480357646942139,
+      "eval_rewards/margins": 0.2670864164829254,
+      "eval_rewards/rejected": -0.9151221513748169,
+      "eval_runtime": 53.627,
+      "eval_samples_per_second": 37.295,
+      "eval_steps_per_second": 0.597,
+      "step": 100
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.991375032514749e-07,
+      "logits/chosen": -2.4942123889923096,
+      "logits/rejected": -2.4537932872772217,
+      "logps/chosen": -366.0484924316406,
+      "logps/rejected": -300.3791198730469,
+      "loss": 0.218,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.7532877326011658,
+      "rewards/margins": 0.5014825463294983,
+      "rewards/rejected": -1.254770278930664,
       "step": 110
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 4.98121775121344e-07,
+      "logits/chosen": -2.4438962936401367,
+      "logits/rejected": -2.413790702819824,
+      "logps/chosen": -402.3663635253906,
+      "logps/rejected": -359.6197509765625,
+      "loss": 0.1769,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.6919637322425842,
+      "rewards/margins": 0.7776089906692505,
+      "rewards/rejected": -1.46957266330719,
       "step": 120
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 4.96717657955441e-07,
+      "logits/chosen": -2.395176649093628,
+      "logits/rejected": -2.347350597381592,
+      "logps/chosen": -435.8388671875,
+      "logps/rejected": -366.80767822265625,
+      "loss": 0.157,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.8537490963935852,
+      "rewards/margins": 0.8641785383224487,
+      "rewards/rejected": -1.7179279327392578,
       "step": 130
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 4.949273496411216e-07,
+      "logits/chosen": -2.370129346847534,
+      "logits/rejected": -2.345968246459961,
+      "logps/chosen": -416.231689453125,
+      "logps/rejected": -379.8551330566406,
+      "loss": 0.1355,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.9431791305541992,
+      "rewards/margins": 0.9395672678947449,
+      "rewards/rejected": -1.8827464580535889,
       "step": 140
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 4.927536525770046e-07,
+      "logits/chosen": -2.2446436882019043,
+      "logits/rejected": -2.176954507827759,
+      "logps/chosen": -439.6024475097656,
+      "logps/rejected": -401.255126953125,
+      "loss": 0.1276,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.096846580505371,
+      "rewards/margins": 0.9727560877799988,
+      "rewards/rejected": -2.0696027278900146,
       "step": 150
     },
     {
+      "epoch": 0.18,
+      "learning_rate": 4.901999692863326e-07,
+      "logits/chosen": -2.210822582244873,
+      "logits/rejected": -2.1662418842315674,
+      "logps/chosen": -469.39190673828125,
+      "logps/rejected": -381.78662109375,
+      "loss": 0.1318,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.149139165878296,
+      "rewards/margins": 0.8712302446365356,
+      "rewards/rejected": -2.020369291305542,
       "step": 160
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 4.872702970909464e-07,
+      "logits/chosen": -2.2581284046173096,
+      "logits/rejected": -2.154148817062378,
+      "logps/chosen": -467.570556640625,
+      "logps/rejected": -428.92559814453125,
+      "loss": 0.1324,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.0990054607391357,
+      "rewards/margins": 1.353104829788208,
+      "rewards/rejected": -2.4521100521087646,
       "step": 170
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 4.839692218542131e-07,
+      "logits/chosen": -2.1558468341827393,
+      "logits/rejected": -2.092869520187378,
+      "logps/chosen": -422.3897399902344,
+      "logps/rejected": -405.66558837890625,
+      "loss": 0.1499,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.9482347369194031,
+      "rewards/margins": 1.135727047920227,
+      "rewards/rejected": -2.0839619636535645,
       "step": 180
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 4.803019108026997e-07,
+      "logits/chosen": -2.2160496711730957,
+      "logits/rejected": -2.139484405517578,
+      "logps/chosen": -448.75732421875,
+      "logps/rejected": -376.4322204589844,
+      "loss": 0.1547,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.621215283870697,
+      "rewards/margins": 1.1775684356689453,
+      "rewards/rejected": -1.7987838983535767,
       "step": 190
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 4.7627410443782887e-07,
+      "logits/chosen": -2.189039468765259,
+      "logits/rejected": -2.098072052001953,
+      "logps/chosen": -424.6959533691406,
+      "logps/rejected": -381.8597106933594,
+      "loss": 0.1405,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.002191424369812,
+      "rewards/margins": 0.9783417582511902,
+      "rewards/rejected": -1.980533242225647,
       "step": 200
     },
     {
+      "epoch": 0.23,
+      "eval_logits/chosen": -2.1455271244049072,
+      "eval_logits/rejected": -2.11315655708313,
+      "eval_logps/chosen": -420.6826171875,
+      "eval_logps/rejected": -474.0294189453125,
+      "eval_loss": 0.14227548241615295,
+      "eval_rewards/accuracies": 0.70703125,
+      "eval_rewards/chosen": -1.6364303827285767,
+      "eval_rewards/margins": 0.530331015586853,
+      "eval_rewards/rejected": -2.1667611598968506,
+      "eval_runtime": 53.4112,
+      "eval_samples_per_second": 37.445,
+      "eval_steps_per_second": 0.599,
+      "step": 200
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.7189210755018034e-07,
+      "logits/chosen": -2.1224522590637207,
+      "logits/rejected": -2.068533182144165,
+      "logps/chosen": -491.70062255859375,
+      "logps/rejected": -460.06390380859375,
+      "loss": 0.1106,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.3628227710723877,
+      "rewards/margins": 1.2269973754882812,
+      "rewards/rejected": -2.589820146560669,
       "step": 210
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 4.671627793504988e-07,
+      "logits/chosen": -2.1610889434814453,
+      "logits/rejected": -2.081235408782959,
+      "logps/chosen": -464.84039306640625,
+      "logps/rejected": -423.46044921875,
+      "loss": 0.0991,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.2738369703292847,
+      "rewards/margins": 1.162742018699646,
+      "rewards/rejected": -2.4365792274475098,
       "step": 220
     },
     {
+      "epoch": 0.26,
+      "learning_rate": 4.6209352273286095e-07,
+      "logits/chosen": -2.0840981006622314,
+      "logits/rejected": -2.009742259979248,
+      "logps/chosen": -487.56707763671875,
+      "logps/rejected": -457.1775817871094,
+      "loss": 0.1024,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.396468162536621,
+      "rewards/margins": 1.1431598663330078,
+      "rewards/rejected": -2.539628267288208,
       "step": 230
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 4.56692272686805e-07,
+      "logits/chosen": -2.0599420070648193,
+      "logits/rejected": -1.9713146686553955,
+      "logps/chosen": -526.182373046875,
+      "logps/rejected": -502.25628662109375,
+      "loss": 0.0906,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -1.8474916219711304,
+      "rewards/margins": 1.3336760997772217,
+      "rewards/rejected": -3.1811680793762207,
       "step": 240
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 4.5096748387656326e-07,
+      "logits/chosen": -2.058642625808716,
+      "logits/rejected": -1.9906930923461914,
+      "logps/chosen": -461.1634216308594,
+      "logps/rejected": -468.45086669921875,
+      "loss": 0.0905,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.5445082187652588,
+      "rewards/margins": 1.150217890739441,
+      "rewards/rejected": -2.6947262287139893,
       "step": 250
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 4.4492811740683877e-07,
+      "logits/chosen": -2.1584465503692627,
+      "logits/rejected": -2.065124988555908,
+      "logps/chosen": -509.6869201660156,
+      "logps/rejected": -463.35711669921875,
+      "loss": 0.089,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -1.6028919219970703,
+      "rewards/margins": 1.1219018697738647,
+      "rewards/rejected": -2.7247939109802246,
       "step": 260
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 4.3858362679584354e-07,
+      "logits/chosen": -2.0787439346313477,
+      "logits/rejected": -1.9619861841201782,
+      "logps/chosen": -476.6595764160156,
+      "logps/rejected": -454.09503173828125,
+      "loss": 0.0805,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.6048253774642944,
+      "rewards/margins": 1.1343061923980713,
+      "rewards/rejected": -2.739131450653076,
       "step": 270
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 4.3194394317755245e-07,
+      "logits/chosen": -2.058042049407959,
+      "logits/rejected": -1.97593092918396,
+      "logps/chosen": -452.4337463378906,
+      "logps/rejected": -450.2781677246094,
+      "loss": 0.0989,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.5429315567016602,
+      "rewards/margins": 1.1663429737091064,
+      "rewards/rejected": -2.7092742919921875,
       "step": 280
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 4.2501945975633914e-07,
+      "logits/chosen": -2.0520236492156982,
+      "logits/rejected": -1.9288972616195679,
+      "logps/chosen": -527.3427124023438,
+      "logps/rejected": -463.68621826171875,
+      "loss": 0.0823,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.7575832605361938,
+      "rewards/margins": 1.1834232807159424,
+      "rewards/rejected": -2.9410064220428467,
       "step": 290
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 4.1782101553832405e-07,
+      "logits/chosen": -1.9703317880630493,
+      "logits/rejected": -1.8722751140594482,
+      "logps/chosen": -562.42333984375,
+      "logps/rejected": -565.2551879882812,
+      "loss": 0.0841,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -2.0587549209594727,
+      "rewards/margins": 1.456610918045044,
+      "rewards/rejected": -3.5153656005859375,
       "step": 300
     },
     {
+      "epoch": 0.34,
+      "eval_logits/chosen": -2.004652500152588,
+      "eval_logits/rejected": -1.9653990268707275,
+      "eval_logps/chosen": -485.7205505371094,
+      "eval_logps/rejected": -562.75634765625,
+      "eval_loss": 0.10304867476224899,
+      "eval_rewards/accuracies": 0.73828125,
+      "eval_rewards/chosen": -2.286808967590332,
+      "eval_rewards/margins": 0.7672209739685059,
+      "eval_rewards/rejected": -3.054029941558838,
+      "eval_runtime": 53.4196,
+      "eval_samples_per_second": 37.439,
+      "eval_steps_per_second": 0.599,
+      "step": 300
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.103598783649029e-07,
+      "logits/chosen": -2.0496602058410645,
+      "logits/rejected": -1.9651731252670288,
+      "logps/chosen": -505.4261169433594,
+      "logps/rejected": -485.68310546875,
+      "loss": 0.0845,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.727452039718628,
+      "rewards/margins": 1.2490873336791992,
+      "rewards/rejected": -2.976539134979248,
       "step": 310
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 4.026477272750119e-07,
+      "logits/chosen": -2.020448684692383,
+      "logits/rejected": -1.9249324798583984,
+      "logps/chosen": -544.9754638671875,
+      "logps/rejected": -536.6004028320312,
+      "loss": 0.0727,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -1.8779780864715576,
+      "rewards/margins": 1.4059292078018188,
+      "rewards/rejected": -3.283907413482666,
       "step": 320
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 3.9469663422373864e-07,
+      "logits/chosen": -2.028433322906494,
+      "logits/rejected": -1.9563522338867188,
+      "logps/chosen": -511.7374572753906,
+      "logps/rejected": -506.9154357910156,
+      "loss": 0.0726,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.1345508098602295,
+      "rewards/margins": 1.1790883541107178,
+      "rewards/rejected": -3.3136394023895264,
       "step": 330
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 3.865190451858954e-07,
+      "logits/chosen": -1.9980262517929077,
+      "logits/rejected": -1.9208223819732666,
+      "logps/chosen": -555.2127075195312,
+      "logps/rejected": -533.1873779296875,
+      "loss": 0.0701,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -1.9280259609222412,
+      "rewards/margins": 1.4416617155075073,
+      "rewards/rejected": -3.369687557220459,
       "step": 340
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 3.781277606741327e-07,
+      "logits/chosen": -2.0005669593811035,
+      "logits/rejected": -1.92441725730896,
+      "logps/chosen": -493.4820251464844,
+      "logps/rejected": -511.8729553222656,
+      "loss": 0.0836,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -2.063403606414795,
+      "rewards/margins": 1.1460031270980835,
+      "rewards/rejected": -3.209406614303589,
       "step": 350
     },
     {
+      "epoch": 0.41,
+      "learning_rate": 3.6953591570208996e-07,
+      "logits/chosen": -2.074608325958252,
+      "logits/rejected": -1.983313798904419,
+      "logps/chosen": -513.7328491210938,
+      "logps/rejected": -485.75518798828125,
+      "loss": 0.0911,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.652430772781372,
+      "rewards/margins": 1.3198424577713013,
+      "rewards/rejected": -2.9722726345062256,
       "step": 360
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 3.607569592239452e-07,
+      "logits/chosen": -1.9775346517562866,
+      "logits/rejected": -1.8758798837661743,
+      "logps/chosen": -490.39208984375,
+      "logps/rejected": -476.412109375,
+      "loss": 0.0983,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -1.5720148086547852,
+      "rewards/margins": 1.3585755825042725,
+      "rewards/rejected": -2.9305903911590576,
       "step": 370
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 3.518046330825494e-07,
+      "logits/chosen": -1.9943759441375732,
+      "logits/rejected": -1.9340169429779053,
+      "logps/chosen": -556.3590087890625,
+      "logps/rejected": -578.3414306640625,
+      "loss": 0.0731,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.216615676879883,
+      "rewards/margins": 1.2497565746307373,
+      "rewards/rejected": -3.46637225151062,
       "step": 380
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 3.4269295049909713e-07,
+      "logits/chosen": -1.9704225063323975,
+      "logits/rejected": -1.9079980850219727,
+      "logps/chosen": -492.43743896484375,
+      "logps/rejected": -508.32781982421875,
+      "loss": 0.0893,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.9127576351165771,
+      "rewards/margins": 1.1991008520126343,
+      "rewards/rejected": -3.111858367919922,
       "step": 390
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 3.3343617413800453e-07,
+      "logits/chosen": -2.0571470260620117,
+      "logits/rejected": -1.9935848712921143,
+      "logps/chosen": -523.1668090820312,
+      "logps/rejected": -481.21844482421875,
+      "loss": 0.0916,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -1.6335818767547607,
+      "rewards/margins": 1.325240969657898,
+      "rewards/rejected": -2.958822727203369,
       "step": 400
     },
+    {
+      "epoch": 0.45,
+      "eval_logits/chosen": -1.9811797142028809,
+      "eval_logits/rejected": -1.9393850564956665,
+      "eval_logps/chosen": -486.5964660644531,
+      "eval_logps/rejected": -566.7339477539062,
+      "eval_loss": 0.10801155120134354,
+      "eval_rewards/accuracies": 0.734375,
+      "eval_rewards/chosen": -2.2955682277679443,
+      "eval_rewards/margins": 0.7982385158538818,
+      "eval_rewards/rejected": -3.093806743621826,
+      "eval_runtime": 53.4276,
+      "eval_samples_per_second": 37.434,
+      "eval_steps_per_second": 0.599,
+      "step": 400
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 3.2404879378132893e-07,
+      "logits/chosen": -1.9247922897338867,
+      "logits/rejected": -1.856414794921875,
+      "logps/chosen": -511.5186462402344,
+      "logps/rejected": -560.82177734375,
+      "loss": 0.0768,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -2.140298366546631,
+      "rewards/margins": 1.2967740297317505,
+      "rewards/rejected": -3.437072277069092,
+      "step": 410
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 3.1454550364767894e-07,
+      "logits/chosen": -1.8825881481170654,
+      "logits/rejected": -1.7626222372055054,
+      "logps/chosen": -580.4396362304688,
+      "logps/rejected": -558.7975463867188,
+      "loss": 0.0629,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -2.2527565956115723,
+      "rewards/margins": 1.5961545705795288,
+      "rewards/rejected": -3.848911762237549,
+      "step": 420
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 3.049411793911154e-07,
+      "logits/chosen": -1.886850357055664,
+      "logits/rejected": -1.7896614074707031,
+      "logps/chosen": -581.1607055664062,
+      "logps/rejected": -578.7238159179688,
+      "loss": 0.074,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -2.2639479637145996,
+      "rewards/margins": 1.3395296335220337,
+      "rewards/rejected": -3.6034774780273438,
+      "step": 430
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.9525085481604914e-07,
+      "logits/chosen": -1.9346811771392822,
+      "logits/rejected": -1.8494796752929688,
+      "logps/chosen": -539.7020263671875,
+      "logps/rejected": -548.3917846679688,
+      "loss": 0.0813,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -1.9064857959747314,
+      "rewards/margins": 1.5988764762878418,
+      "rewards/rejected": -3.5053622722625732,
+      "step": 440
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 2.854896983445833e-07,
+      "logits/chosen": -1.9939569234848022,
+      "logits/rejected": -1.8174670934677124,
+      "logps/chosen": -547.39111328125,
+      "logps/rejected": -516.7273559570312,
+      "loss": 0.0755,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.8019745349884033,
+      "rewards/margins": 1.4809798002243042,
+      "rewards/rejected": -3.282953977584839,
+      "step": 450
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 2.7567298927313654e-07,
+      "logits/chosen": -1.941044807434082,
+      "logits/rejected": -1.8167743682861328,
+      "logps/chosen": -517.2515869140625,
+      "logps/rejected": -488.5101013183594,
+      "loss": 0.0802,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -1.866037130355835,
+      "rewards/margins": 1.3603498935699463,
+      "rewards/rejected": -3.2263870239257812,
+      "step": 460
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.658160938555123e-07,
+      "logits/chosen": -1.8934457302093506,
+      "logits/rejected": -1.7888898849487305,
+      "logps/chosen": -532.8482055664062,
+      "logps/rejected": -564.9197998046875,
+      "loss": 0.0723,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -2.034968852996826,
+      "rewards/margins": 1.6071611642837524,
+      "rewards/rejected": -3.642129898071289,
+      "step": 470
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 2.559344412498532e-07,
+      "logits/chosen": -1.9257526397705078,
+      "logits/rejected": -1.8294801712036133,
+      "logps/chosen": -558.8524169921875,
+      "logps/rejected": -521.4874877929688,
+      "loss": 0.0725,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -2.1087284088134766,
+      "rewards/margins": 1.3520355224609375,
+      "rewards/rejected": -3.460763454437256,
+      "step": 480
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 2.460434993671294e-07,
+      "logits/chosen": -1.948136329650879,
+      "logits/rejected": -1.8431456089019775,
+      "logps/chosen": -519.21728515625,
+      "logps/rejected": -500.375,
+      "loss": 0.0792,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.9937260150909424,
+      "rewards/margins": 1.335012674331665,
+      "rewards/rejected": -3.3287386894226074,
+      "step": 490
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 2.361587506589672e-07,
+      "logits/chosen": -1.966451644897461,
+      "logits/rejected": -1.8704181909561157,
+      "logps/chosen": -534.3973388671875,
+      "logps/rejected": -500.2060546875,
+      "loss": 0.0864,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.7493633031845093,
+      "rewards/margins": 1.3577125072479248,
+      "rewards/rejected": -3.1070759296417236,
+      "step": 500
+    },
+    {
+      "epoch": 0.57,
+      "eval_logits/chosen": -1.955956220626831,
+      "eval_logits/rejected": -1.9095466136932373,
+      "eval_logps/chosen": -488.0345153808594,
+      "eval_logps/rejected": -570.5159912109375,
+      "eval_loss": 0.09556370228528976,
+      "eval_rewards/accuracies": 0.74609375,
+      "eval_rewards/chosen": -2.309948682785034,
+      "eval_rewards/margins": 0.8216789960861206,
+      "eval_rewards/rejected": -3.1316275596618652,
+      "eval_runtime": 53.4131,
+      "eval_samples_per_second": 37.444,
+      "eval_steps_per_second": 0.599,
+      "step": 500
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.2629566788271613e-07,
+      "logits/chosen": -1.9134633541107178,
+      "logits/rejected": -1.8345638513565063,
+      "logps/chosen": -539.9205932617188,
+      "logps/rejected": -500.9922790527344,
+      "loss": 0.0694,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -2.060006618499756,
+      "rewards/margins": 1.1839641332626343,
+      "rewards/rejected": -3.2439708709716797,
+      "step": 510
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 2.1646968988169135e-07,
+      "logits/chosen": -1.9419372081756592,
+      "logits/rejected": -1.8542063236236572,
+      "logps/chosen": -510.229736328125,
+      "logps/rejected": -508.4148864746094,
+      "loss": 0.0739,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -1.9082494974136353,
+      "rewards/margins": 1.5180120468139648,
+      "rewards/rejected": -3.4262614250183105,
+      "step": 520
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 2.0669619741850232e-07,
+      "logits/chosen": -1.8845760822296143,
+      "logits/rejected": -1.7653076648712158,
+      "logps/chosen": -569.1829833984375,
+      "logps/rejected": -555.857666015625,
+      "loss": 0.0678,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -2.045509099960327,
+      "rewards/margins": 1.7232000827789307,
+      "rewards/rejected": -3.768709182739258,
+      "step": 530
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.9699048909929518e-07,
+      "logits/chosen": -1.9015051126480103,
+      "logits/rejected": -1.8490610122680664,
+      "logps/chosen": -547.8323974609375,
+      "logps/rejected": -538.3102416992188,
+      "loss": 0.0707,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.1869750022888184,
+      "rewards/margins": 1.2785483598709106,
+      "rewards/rejected": -3.4655234813690186,
+      "step": 540
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.8736775742659732e-07,
+      "logits/chosen": -1.981376051902771,
+      "logits/rejected": -1.8454633951187134,
+      "logps/chosen": -589.72509765625,
+      "logps/rejected": -503.4346618652344,
+      "loss": 0.073,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.9054787158966064,
+      "rewards/margins": 1.4781739711761475,
+      "rewards/rejected": -3.383652925491333,
+      "step": 550
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 1.7784306501824616e-07,
+      "logits/chosen": -1.968064308166504,
+      "logits/rejected": -1.878286361694336,
+      "logps/chosen": -508.1175842285156,
+      "logps/rejected": -488.2872619628906,
+      "loss": 0.0735,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -2.008474826812744,
+      "rewards/margins": 1.3027125597000122,
+      "rewards/rejected": -3.311187267303467,
+      "step": 560
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.6843132102963025e-07,
+      "logits/chosen": -1.9995759725570679,
+      "logits/rejected": -1.8707059621810913,
+      "logps/chosen": -571.5035400390625,
+      "logps/rejected": -551.8418579101562,
+      "loss": 0.0724,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -2.143575429916382,
+      "rewards/margins": 1.4678400754928589,
+      "rewards/rejected": -3.611415386199951,
+      "step": 570
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.591472578161458e-07,
+      "logits/chosen": -1.9438421726226807,
+      "logits/rejected": -1.8859055042266846,
+      "logps/chosen": -556.9771728515625,
+      "logps/rejected": -608.1251220703125,
+      "loss": 0.0776,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -2.206200122833252,
+      "rewards/margins": 1.4931509494781494,
+      "rewards/rejected": -3.6993508338928223,
+      "step": 580
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.5000540787240274e-07,
+      "logits/chosen": -1.992211937904358,
+      "logits/rejected": -1.881553053855896,
+      "logps/chosen": -552.2855224609375,
+      "logps/rejected": -532.5646362304688,
+      "loss": 0.0643,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -2.1940808296203613,
+      "rewards/margins": 1.3729619979858398,
+      "rewards/rejected": -3.567042589187622,
+      "step": 590
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.410200810842749e-07,
+      "logits/chosen": -1.9430984258651733,
+      "logits/rejected": -1.8172378540039062,
+      "logps/chosen": -613.967529296875,
+      "logps/rejected": -598.5076904296875,
+      "loss": 0.065,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -2.2278945446014404,
+      "rewards/margins": 1.6444116830825806,
+      "rewards/rejected": -3.8723063468933105,
+      "step": 600
+    },
+    {
+      "epoch": 0.68,
+      "eval_logits/chosen": -1.9405471086502075,
+      "eval_logits/rejected": -1.886796236038208,
+      "eval_logps/chosen": -542.6825561523438,
+      "eval_logps/rejected": -633.113525390625,
+      "eval_loss": 0.08488854765892029,
+      "eval_rewards/accuracies": 0.7265625,
+      "eval_rewards/chosen": -2.856428861618042,
+      "eval_rewards/margins": 0.9011733531951904,
+      "eval_rewards/rejected": -3.7576024532318115,
+      "eval_runtime": 53.397,
+      "eval_samples_per_second": 37.455,
+      "eval_steps_per_second": 0.599,
+      "step": 600
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.322053423294041e-07,
+      "logits/chosen": -1.989729881286621,
+      "logits/rejected": -1.911266565322876,
+      "logps/chosen": -580.957275390625,
+      "logps/rejected": -575.7573852539062,
+      "loss": 0.0664,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.4196839332580566,
+      "rewards/margins": 1.2277535200119019,
+      "rewards/rejected": -3.647437334060669,
+      "step": 610
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.2357498946121905e-07,
+      "logits/chosen": -1.930645227432251,
+      "logits/rejected": -1.8115425109863281,
+      "logps/chosen": -580.1464233398438,
+      "logps/rejected": -578.2677612304688,
+      "loss": 0.0632,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -2.2879867553710938,
+      "rewards/margins": 1.716691017150879,
+      "rewards/rejected": -4.004677772521973,
+      "step": 620
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1.1514253171093161e-07,
+      "logits/chosen": -1.9917194843292236,
+      "logits/rejected": -1.8586351871490479,
+      "logps/chosen": -593.2454833984375,
+      "logps/rejected": -554.43115234375,
+      "loss": 0.0681,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -2.304713726043701,
+      "rewards/margins": 1.4881376028060913,
+      "rewards/rejected": -3.792851209640503,
+      "step": 630
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1.0692116854131883e-07,
+      "logits/chosen": -1.963966727256775,
+      "logits/rejected": -1.876705527305603,
+      "logps/chosen": -572.40625,
+      "logps/rejected": -571.9288940429688,
+      "loss": 0.07,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -2.363751173019409,
+      "rewards/margins": 1.4736993312835693,
+      "rewards/rejected": -3.8374505043029785,
+      "step": 640
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 9.89237689853889e-08,
+      "logits/chosen": -1.9835160970687866,
+      "logits/rejected": -1.9168879985809326,
+      "logps/chosen": -562.7428588867188,
+      "logps/rejected": -593.8363037109375,
+      "loss": 0.0689,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -2.1839652061462402,
+      "rewards/margins": 1.3724231719970703,
+      "rewards/rejected": -3.5563888549804688,
+      "step": 650
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 9.11628515022765e-08,
+      "logits/chosen": -2.0633797645568848,
+      "logits/rejected": -1.9203882217407227,
+      "logps/chosen": -586.35009765625,
+      "logps/rejected": -529.8253173828125,
+      "loss": 0.0734,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -2.0526123046875,
+      "rewards/margins": 1.624458909034729,
+      "rewards/rejected": -3.6770706176757812,
+      "step": 660
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 8.365056438189486e-08,
+      "logits/chosen": -2.0234529972076416,
+      "logits/rejected": -1.9365705251693726,
+      "logps/chosen": -527.53662109375,
+      "logps/rejected": -542.6231689453125,
+      "loss": 0.0723,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.2389750480651855,
+      "rewards/margins": 1.2195186614990234,
+      "rewards/rejected": -3.45849347114563,
+      "step": 670
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.639866672902101e-08,
+      "logits/chosen": -1.9303470849990845,
+      "logits/rejected": -1.8580068349838257,
+      "logps/chosen": -554.188720703125,
+      "logps/rejected": -569.6090698242188,
+      "loss": 0.0703,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.2495415210723877,
+      "rewards/margins": 1.5471585988998413,
+      "rewards/rejected": -3.7967002391815186,
+      "step": 680
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 6.941851005657851e-08,
+      "logits/chosen": -2.0182881355285645,
+      "logits/rejected": -1.9131933450698853,
+      "logps/chosen": -571.5795288085938,
+      "logps/rejected": -563.0739135742188,
+      "loss": 0.0668,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -2.189399242401123,
+      "rewards/margins": 1.6238410472869873,
+      "rewards/rejected": -3.8132405281066895,
+      "step": 690
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.272102051693051e-08,
+      "logits/chosen": -1.9295063018798828,
+      "logits/rejected": -1.8629966974258423,
+      "logps/chosen": -551.6529541015625,
+      "logps/rejected": -583.9489135742188,
+      "loss": 0.0663,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -2.4394476413726807,
+      "rewards/margins": 1.471626877784729,
+      "rewards/rejected": -3.91107439994812,
+      "step": 700
+    },
+    {
+      "epoch": 0.79,
+      "eval_logits/chosen": -1.962702751159668,
+      "eval_logits/rejected": -1.9099680185317993,
+      "eval_logps/chosen": -538.3110961914062,
+      "eval_logps/rejected": -630.755615234375,
+      "eval_loss": 0.08400725573301315,
+      "eval_rewards/accuracies": 0.73828125,
+      "eval_rewards/chosen": -2.812714099884033,
+      "eval_rewards/margins": 0.921308696269989,
+      "eval_rewards/rejected": -3.734023094177246,
+      "eval_runtime": 53.3939,
+      "eval_samples_per_second": 37.457,
+      "eval_steps_per_second": 0.599,
+      "step": 700
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 5.6316681798995844e-08,
+      "logits/chosen": -1.998659372329712,
+      "logits/rejected": -1.9016752243041992,
+      "logps/chosen": -596.6257934570312,
+      "logps/rejected": -589.1134033203125,
+      "loss": 0.0751,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -2.465219020843506,
+      "rewards/margins": 1.4250514507293701,
+      "rewards/rejected": -3.890270948410034,
+      "step": 710
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 5.0215518717961256e-08,
+      "logits/chosen": -1.9532493352890015,
+      "logits/rejected": -1.861000418663025,
+      "logps/chosen": -530.2694091796875,
+      "logps/rejected": -542.3233642578125,
+      "loss": 0.0666,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.3267478942871094,
+      "rewards/margins": 1.403226613998413,
+      "rewards/rejected": -3.7299742698669434,
+      "step": 720
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.4427081523275925e-08,
+      "logits/chosen": -1.9771426916122437,
+      "logits/rejected": -1.8616434335708618,
+      "logps/chosen": -516.3856201171875,
+      "logps/rejected": -545.8884887695312,
+      "loss": 0.0705,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -2.18568754196167,
+      "rewards/margins": 1.4953739643096924,
+      "rewards/rejected": -3.6810615062713623,
+      "step": 730
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 3.896043094949061e-08,
+      "logits/chosen": -1.9744873046875,
+      "logits/rejected": -1.8698228597640991,
+      "logps/chosen": -564.7574462890625,
+      "logps/rejected": -554.6087036132812,
+      "loss": 0.0707,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.351306438446045,
+      "rewards/margins": 1.3112602233886719,
+      "rewards/rejected": -3.662567138671875,
+      "step": 740
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.3824124033343557e-08,
+      "logits/chosen": -1.971381425857544,
+      "logits/rejected": -1.8558752536773682,
+      "logps/chosen": -550.445556640625,
+      "logps/rejected": -536.169921875,
+      "loss": 0.0663,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -2.283639430999756,
+      "rewards/margins": 1.291291356086731,
+      "rewards/rejected": -3.5749306678771973,
+      "step": 750
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 2.9026200719291904e-08,
+      "logits/chosen": -1.8978159427642822,
+      "logits/rejected": -1.8259022235870361,
+      "logps/chosen": -486.37152099609375,
+      "logps/rejected": -516.701416015625,
+      "loss": 0.0672,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -2.1406826972961426,
+      "rewards/margins": 1.2746713161468506,
+      "rewards/rejected": -3.4153542518615723,
+      "step": 760
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 2.4574171274456433e-08,
+      "logits/chosen": -1.9380009174346924,
+      "logits/rejected": -1.7994283437728882,
+      "logps/chosen": -570.5930786132812,
+      "logps/rejected": -562.5328369140625,
+      "loss": 0.0668,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -2.2663681507110596,
+      "rewards/margins": 1.4617531299591064,
+      "rewards/rejected": -3.728121519088745,
+      "step": 770
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 2.047500453267881e-08,
+      "logits/chosen": -1.9811604022979736,
+      "logits/rejected": -1.8174915313720703,
+      "logps/chosen": -585.8560180664062,
+      "logps/rejected": -575.7230834960938,
+      "loss": 0.0723,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -2.2959883213043213,
+      "rewards/margins": 1.562656283378601,
+      "rewards/rejected": -3.858644485473633,
+      "step": 780
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1.673511698609292e-08,
+      "logits/chosen": -1.9835258722305298,
+      "logits/rejected": -1.8875339031219482,
+      "logps/chosen": -577.6177978515625,
+      "logps/rejected": -575.160400390625,
+      "loss": 0.074,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -2.322665214538574,
+      "rewards/margins": 1.4801914691925049,
+      "rewards/rejected": -3.8028564453125,
+      "step": 790
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.3360362741285769e-08,
+      "logits/chosen": -1.877092719078064,
+      "logits/rejected": -1.8041622638702393,
+      "logps/chosen": -503.6748962402344,
+      "logps/rejected": -512.8577270507812,
+      "loss": 0.0663,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.3050992488861084,
+      "rewards/margins": 1.193604826927185,
+      "rewards/rejected": -3.498703718185425,
+      "step": 800
+    },
+    {
+      "epoch": 0.91,
+      "eval_logits/chosen": -1.9548935890197754,
+      "eval_logits/rejected": -1.901588797569275,
+      "eval_logps/chosen": -527.3272705078125,
+      "eval_logps/rejected": -619.4178466796875,
+      "eval_loss": 0.0869935154914856,
+      "eval_rewards/accuracies": 0.74609375,
+      "eval_rewards/chosen": -2.702876567840576,
+      "eval_rewards/margins": 0.9177693128585815,
+      "eval_rewards/rejected": -3.620645761489868,
+      "eval_runtime": 53.3906,
+      "eval_samples_per_second": 37.46,
+      "eval_steps_per_second": 0.599,
+      "step": 800
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1.0356024355769433e-08,
+      "logits/chosen": -1.9531776905059814,
+      "logits/rejected": -1.8769395351409912,
+      "logps/chosen": -578.2391357421875,
+      "logps/rejected": -570.4874267578125,
+      "loss": 0.0724,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.243154287338257,
+      "rewards/margins": 1.2938239574432373,
+      "rewards/rejected": -3.5369784832000732,
+      "step": 810
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 7.726804569108597e-09,
+      "logits/chosen": -1.908215880393982,
+      "logits/rejected": -1.777242660522461,
+      "logps/chosen": -549.6116333007812,
+      "logps/rejected": -539.8973999023438,
+      "loss": 0.0635,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -2.2482357025146484,
+      "rewards/margins": 1.3119279146194458,
+      "rewards/rejected": -3.5601630210876465,
+      "step": 820
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 5.476818941645561e-09,
+      "logits/chosen": -1.9380836486816406,
+      "logits/rejected": -1.8248558044433594,
+      "logps/chosen": -566.2852172851562,
+      "logps/rejected": -571.448974609375,
+      "loss": 0.0626,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -2.232658863067627,
+      "rewards/margins": 1.5336438417434692,
+      "rewards/rejected": -3.7663028240203857,
+      "step": 830
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 3.609589412347347e-09,
+      "logits/chosen": -1.99057137966156,
+      "logits/rejected": -1.887397050857544,
+      "logps/chosen": -581.9739990234375,
+      "logps/rejected": -585.4699096679688,
+      "loss": 0.0769,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -2.106590747833252,
+      "rewards/margins": 1.779883623123169,
+      "rewards/rejected": -3.886474132537842,
+      "step": 840
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.1280387858572667e-09,
+      "logits/chosen": -1.925265908241272,
+      "logits/rejected": -1.8459047079086304,
+      "logps/chosen": -552.0723876953125,
+      "logps/rejected": -599.8142700195312,
+      "loss": 0.0739,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -2.3117988109588623,
+      "rewards/margins": 1.3644450902938843,
+      "rewards/rejected": -3.676244020462036,
+      "step": 850
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.03448615738172e-09,
+      "logits/chosen": -1.9360536336898804,
+      "logits/rejected": -1.8282134532928467,
+      "logps/chosen": -535.2977294921875,
+      "logps/rejected": -555.2935791015625,
+      "loss": 0.0656,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -2.1976685523986816,
+      "rewards/margins": 1.5509238243103027,
+      "rewards/rejected": -3.748591899871826,
+      "step": 860
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 3.3064328257259575e-10,
+      "logits/chosen": -1.9918015003204346,
+      "logits/rejected": -1.8840529918670654,
+      "logps/chosen": -587.255615234375,
+      "logps/rejected": -566.5502319335938,
+      "loss": 0.0679,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -2.329481840133667,
+      "rewards/margins": 1.393025279045105,
+      "rewards/rejected": -3.7225069999694824,
+      "step": 870
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 1.7611898088715216e-11,
+      "logits/chosen": -2.004169225692749,
+      "logits/rejected": -1.8871746063232422,
+      "logps/chosen": -655.3201293945312,
+      "logps/rejected": -616.4334106445312,
+      "loss": 0.0723,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -2.3969874382019043,
+      "rewards/margins": 1.6344892978668213,
+      "rewards/rejected": -4.031477451324463,
+      "step": 880
+    },
     {
       "epoch": 1.0,
+      "step": 883,
       "total_flos": 0.0,
+      "train_loss": 0.11349766382510908,
+      "train_runtime": 8005.048,
+      "train_samples_per_second": 14.12,
+      "train_steps_per_second": 0.11
     }
   ],
   "logging_steps": 10,
+  "max_steps": 883,
   "num_train_epochs": 1,
+  "save_steps": 100,
   "total_flos": 0.0,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d05f2ea4a8f27ac4989592d034e456f8fe99958c58d076bd3ccb965c582e16a
 size 5944

 version https://git-lfs.github.com/spec/v1
+oid sha256:34facb59b2833ff9a65d1ea6ca0671f7143189081be77d079ad67a7343d5aa7d
 size 5944