Model save

Browse files

Files changed (12) hide show

README.md +17 -22
all_results.json +6 -7
config.json +1 -1
generation_config.json +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
runs/May28_04-13-24_n136-100-194/events.out.tfevents.1716840834.n136-100-194.626228.0 +2 -2
tokenizer.json +0 -1
train_results.json +6 -7
trainer_state.json +524 -1321
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -15,15 +15,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3183
-- Rewards/chosen: -0.6032
-- Rewards/rejected: -2.1160
-- Rewards/accuracies: 0.8711
-- Rewards/margins: 1.5128
-- Logps/rejected: -584.2130
-- Logps/chosen: -439.6992
-- Logits/rejected: -5.8852
-- Logits/chosen: -5.4031
 ## Model description
@@ -42,7 +42,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 5e-07
 - train_batch_size: 8
 - eval_batch_size: 8
 - seed: 42
@@ -58,21 +58,16 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
-|:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.5118        | 0.1151 | 100  | 0.5923          | -0.1120        | -0.4506          | 0.7070             | 0.3386          | -417.6701      | -390.5766    | -2.1984         | -2.2213       |
-| 0.4206        | 0.2303 | 200  | 0.5055          | -0.2913        | -1.0785          | 0.8008             | 0.7872          | -480.4641      | -408.5089    | -3.2280         | -3.1644       |
-| 0.4144        | 0.3454 | 300  | 0.4504          | -0.3084        | -1.2736          | 0.7773             | 0.9651          | -499.9700      | -410.2218    | -4.0963         | -3.8861       |
-| 0.4011        | 0.4606 | 400  | 0.4135          | -0.4247        | -1.5332          | 0.8086             | 1.1086          | -525.9362      | -421.8441    | -4.8370         | -4.5018       |
-| 0.3915        | 0.5757 | 500  | 0.3740          | -0.3892        | -1.7143          | 0.8516             | 1.3251          | -544.0394      | -418.2938    | -5.1877         | -4.7675       |
-| 0.3726        | 0.6908 | 600  | 0.3468          | -0.4807        | -1.8892          | 0.8438             | 1.4085          | -561.5286      | -427.4439    | -5.6248         | -5.1461       |
-| 0.3522        | 0.8060 | 700  | 0.3249          | -0.5431        | -2.0476          | 0.8789             | 1.5044          | -577.3692      | -433.6906    | -5.6819         | -5.2107       |
-| 0.3643        | 0.9211 | 800  | 0.3183          | -0.6032        | -2.1160          | 0.8711             | 1.5128          | -584.2130      | -439.6992    | -5.8852         | -5.4031       |
 ### Framework versions
-- Transformers 4.41.1
 - Pytorch 2.1.2+cu118
 - Datasets 2.16.1
-- Tokenizers 0.19.1

 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.9448
+- Rewards/chosen: 0.2004
+- Rewards/rejected: 1.1728
+- Rewards/accuracies: 0.3984
+- Rewards/margins: -0.9724
+- Logps/rejected: -516.0420
+- Logps/chosen: -390.0737
+- Logits/rejected: -4.6999
+- Logits/chosen: -4.4838
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 1e-07
 - train_batch_size: 8
 - eval_batch_size: 8
 - seed: 42
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.1833        | 0.26  | 100  | 1.8369          | 0.4269         | 1.4521           | 0.375              | -1.0251         | -515.4835      | -389.6206    | -4.7248         | -4.5091       |
+| 0.1786        | 0.51  | 200  | 2.0163          | 0.6049         | 1.7456           | 0.375              | -1.1407         | -514.8965      | -389.2646    | -4.6879         | -4.4698       |
+| 0.1648        | 0.77  | 300  | 1.9448          | 0.2004         | 1.1728           | 0.3984             | -0.9724         | -516.0420      | -390.0737    | -4.6999         | -4.4838       |
 ### Framework versions
+- Transformers 4.38.2
 - Pytorch 2.1.2+cu118
 - Datasets 2.16.1
+- Tokenizers 0.15.2

all_results.json CHANGED Viewed

@@ -1,9 +1,8 @@
 {
-    "epoch": 0.9994242947610823,
-    "total_flos": 0.0,
-    "train_loss": 0.4218231642850533,
-    "train_runtime": 14967.0092,
-    "train_samples": 111134,
-    "train_samples_per_second": 7.425,
-    "train_steps_per_second": 0.058
 }

 {
+    "epoch": 1.0,
+    "train_loss": 0.20245660769055263,
+    "train_runtime": 6146.5091,
+    "train_samples": 50000,
+    "train_samples_per_second": 8.135,
+    "train_steps_per_second": 0.064
 }

config.json CHANGED Viewed

@@ -20,7 +20,7 @@
   "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.40.2",
   "use_cache": false,
   "vocab_size": 32002
 }

   "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.38.2",
   "use_cache": false,
   "vocab_size": 32002
 }

generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 32000,
-  "transformers_version": "4.41.1"
 }

   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 32000,
+  "transformers_version": "4.38.2"
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1772010f50ecbe6265c3f184a8d8b5dc8ab8f62be22d0e73f4e9569d256161d8
 size 4943178720

 version https://git-lfs.github.com/spec/v1
+oid sha256:187e846ead3ab0564bcb0a7a84ca1f61215c51ad31d6787bde0b9c590afffe84
 size 4943178720

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ea8e648eccea058d158b230bb6b95d7502609f2dd4ef32a5d63fbabad21555d
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f8eff5fb96a421c9b488f7c416cb5b17de2c89e59834454a2d19521c4d7408a
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cfe2a9017db3337dfad6fd9632d552b3e3ddfece95fee16dfc25c0568e4b0ece
 size 4540532728

 version https://git-lfs.github.com/spec/v1
+oid sha256:5fad3af7d232c50592e722e3c48aa12e25232dbeb339fef24397174a6edb2821
 size 4540532728

runs/May28_04-13-24_n136-100-194/events.out.tfevents.1716840834.n136-100-194.626228.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5aa738d5cda2197b7ca12a021cbb60a8f7338690ae4d75ed2b26bc86ff7bb96b
-size 28262

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa82fa5ba5bf2ac6de385ad1155c058356b9da3d23c12199f282b73a9e04abb6
+size 34808

tokenizer.json CHANGED Viewed

@@ -152,7 +152,6 @@
     "end_of_word_suffix": null,
     "fuse_unk": true,
     "byte_fallback": true,
-    "ignore_merges": false,
     "vocab": {
       "<unk>": 0,
       "<s>": 1,

     "end_of_word_suffix": null,
     "fuse_unk": true,
     "byte_fallback": true,
     "vocab": {
       "<unk>": 0,
       "<s>": 1,

train_results.json CHANGED Viewed

@@ -1,9 +1,8 @@
 {
-    "epoch": 0.9994242947610823,
-    "total_flos": 0.0,
-    "train_loss": 0.4218231642850533,
-    "train_runtime": 14967.0092,
-    "train_samples": 111134,
-    "train_samples_per_second": 7.425,
-    "train_steps_per_second": 0.058
 }

 {
+    "epoch": 1.0,
+    "train_loss": 0.20245660769055263,
+    "train_runtime": 6146.5091,
+    "train_samples": 50000,
+    "train_samples_per_second": 8.135,
+    "train_steps_per_second": 0.064
 }

trainer_state.json CHANGED Viewed

@@ -1,22 +1,22 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9994242947610823,
   "eval_steps": 100,
-  "global_step": 868,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0011514104778353484,
-      "grad_norm": 35.91765211885503,
-      "learning_rate": 5.747126436781609e-09,
-      "logits/chosen": -2.086653709411621,
-      "logits/rejected": -2.069509267807007,
-      "logps/chosen": -361.22979736328125,
-      "logps/rejected": -328.4201354980469,
-      "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -24,1450 +24,653 @@
       "step": 1
     },
     {
-      "epoch": 0.011514104778353483,
-      "grad_norm": 37.62574042925476,
-      "learning_rate": 5.747126436781609e-08,
-      "logits/chosen": -2.192697763442993,
-      "logits/rejected": -2.1893699169158936,
-      "logps/chosen": -346.8982238769531,
-      "logps/rejected": -305.4053039550781,
-      "loss": 0.6929,
-      "rewards/accuracies": 0.4652777910232544,
-      "rewards/chosen": 0.00022573958267457783,
-      "rewards/margins": 0.00043605040991678834,
-      "rewards/rejected": -0.00021031053620390594,
       "step": 10
     },
     {
-      "epoch": 0.023028209556706966,
-      "grad_norm": 33.76619596156607,
-      "learning_rate": 1.1494252873563217e-07,
-      "logits/chosen": -2.170515775680542,
-      "logits/rejected": -2.1960134506225586,
-      "logps/chosen": -322.89593505859375,
-      "logps/rejected": -279.732177734375,
-      "loss": 0.6923,
-      "rewards/accuracies": 0.550000011920929,
-      "rewards/chosen": 0.006018324755132198,
-      "rewards/margins": 0.0009490437805652618,
-      "rewards/rejected": 0.005069280508905649,
       "step": 20
     },
     {
-      "epoch": 0.03454231433506045,
-      "grad_norm": 36.02949439768653,
-      "learning_rate": 1.7241379310344828e-07,
-      "logits/chosen": -2.226337194442749,
-      "logits/rejected": -2.215334415435791,
-      "logps/chosen": -343.44012451171875,
-      "logps/rejected": -305.6834411621094,
-      "loss": 0.6875,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": 0.0371861457824707,
-      "rewards/margins": 0.012388146482408047,
-      "rewards/rejected": 0.02479800209403038,
       "step": 30
     },
     {
-      "epoch": 0.04605641911341393,
-      "grad_norm": 30.794242683432575,
-      "learning_rate": 2.2988505747126435e-07,
-      "logits/chosen": -2.3109958171844482,
-      "logits/rejected": -2.272737979888916,
-      "logps/chosen": -313.8249206542969,
-      "logps/rejected": -281.3092956542969,
-      "loss": 0.6758,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": 0.10629389435052872,
-      "rewards/margins": 0.035184551030397415,
-      "rewards/rejected": 0.071109339594841,
       "step": 40
     },
     {
-      "epoch": 0.057570523891767415,
-      "grad_norm": 29.832104382822315,
-      "learning_rate": 2.873563218390804e-07,
-      "logits/chosen": -2.4144537448883057,
-      "logits/rejected": -2.4051060676574707,
-      "logps/chosen": -335.85626220703125,
-      "logps/rejected": -322.4024658203125,
-      "loss": 0.664,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": 0.20595140755176544,
-      "rewards/margins": 0.058795731514692307,
-      "rewards/rejected": 0.14715565741062164,
       "step": 50
     },
     {
-      "epoch": 0.0690846286701209,
-      "grad_norm": 27.97699348851217,
-      "learning_rate": 3.4482758620689656e-07,
-      "logits/chosen": -2.4252865314483643,
-      "logits/rejected": -2.4110381603240967,
-      "logps/chosen": -293.0983581542969,
-      "logps/rejected": -276.4584655761719,
-      "loss": 0.6437,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": 0.26091432571411133,
-      "rewards/margins": 0.12072187662124634,
-      "rewards/rejected": 0.140192449092865,
       "step": 60
     },
     {
-      "epoch": 0.08059873344847437,
-      "grad_norm": 26.14817360357517,
-      "learning_rate": 4.0229885057471266e-07,
-      "logits/chosen": -2.5252156257629395,
-      "logits/rejected": -2.488867998123169,
-      "logps/chosen": -341.91156005859375,
-      "logps/rejected": -308.27032470703125,
-      "loss": 0.6192,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": 0.3610069155693054,
-      "rewards/margins": 0.20518210530281067,
-      "rewards/rejected": 0.15582481026649475,
       "step": 70
     },
     {
-      "epoch": 0.09211283822682786,
-      "grad_norm": 26.01503586020309,
-      "learning_rate": 4.597701149425287e-07,
-      "logits/chosen": -2.443207263946533,
-      "logits/rejected": -2.4321365356445312,
-      "logps/chosen": -303.1759948730469,
-      "logps/rejected": -293.99212646484375,
-      "loss": 0.5946,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": 0.2370336949825287,
-      "rewards/margins": 0.22374853491783142,
-      "rewards/rejected": 0.013285147957503796,
       "step": 80
     },
     {
-      "epoch": 0.10362694300518134,
-      "grad_norm": 28.597789728089687,
-      "learning_rate": 4.999817969178237e-07,
-      "logits/chosen": -2.468017578125,
-      "logits/rejected": -2.45894718170166,
-      "logps/chosen": -341.286376953125,
-      "logps/rejected": -346.0598449707031,
-      "loss": 0.5438,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": 0.2997075915336609,
-      "rewards/margins": 0.4598621726036072,
-      "rewards/rejected": -0.16015461087226868,
       "step": 90
     },
     {
-      "epoch": 0.11514104778353483,
-      "grad_norm": 31.239635888342793,
-      "learning_rate": 4.996582603056428e-07,
-      "logits/chosen": -2.290760040283203,
-      "logits/rejected": -2.2722649574279785,
-      "logps/chosen": -325.2711181640625,
-      "logps/rejected": -352.16949462890625,
-      "loss": 0.5118,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -0.0031170793808996677,
-      "rewards/margins": 0.5678674578666687,
-      "rewards/rejected": -0.5709845423698425,
       "step": 100
     },
     {
-      "epoch": 0.11514104778353483,
-      "eval_logits/chosen": -2.2212953567504883,
-      "eval_logits/rejected": -2.1984219551086426,
-      "eval_logps/chosen": -390.5766296386719,
-      "eval_logps/rejected": -417.6701354980469,
-      "eval_loss": 0.592314600944519,
-      "eval_rewards/accuracies": 0.70703125,
-      "eval_rewards/chosen": -0.11199207603931427,
-      "eval_rewards/margins": 0.3385947644710541,
-      "eval_rewards/rejected": -0.45058679580688477,
-      "eval_runtime": 98.608,
-      "eval_samples_per_second": 20.282,
-      "eval_steps_per_second": 0.325,
       "step": 100
     },
     {
-      "epoch": 0.1266551525618883,
-      "grad_norm": 28.87850245767613,
-      "learning_rate": 4.989308132738126e-07,
-      "logits/chosen": -2.224853754043579,
-      "logits/rejected": -2.1996631622314453,
-      "logps/chosen": -334.91888427734375,
-      "logps/rejected": -380.91668701171875,
-      "loss": 0.4719,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": 0.0493912398815155,
-      "rewards/margins": 0.8100606203079224,
-      "rewards/rejected": -0.7606694102287292,
       "step": 110
     },
     {
-      "epoch": 0.1381692573402418,
-      "grad_norm": 29.398659404338673,
-      "learning_rate": 4.978006327248536e-07,
-      "logits/chosen": -2.199742555618286,
-      "logits/rejected": -2.1492202281951904,
-      "logps/chosen": -314.296142578125,
-      "logps/rejected": -369.991455078125,
-      "loss": 0.4704,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": 0.09014983475208282,
-      "rewards/margins": 0.9132173657417297,
-      "rewards/rejected": -0.8230674862861633,
       "step": 120
     },
     {
-      "epoch": 0.1496833621185953,
-      "grad_norm": 30.44019666597221,
-      "learning_rate": 4.962695471250032e-07,
-      "logits/chosen": -2.1790311336517334,
-      "logits/rejected": -2.1547985076904297,
-      "logps/chosen": -302.8690490722656,
-      "logps/rejected": -415.23095703125,
-      "loss": 0.4555,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": 0.09897075593471527,
-      "rewards/margins": 1.2424136400222778,
-      "rewards/rejected": -1.1434428691864014,
       "step": 130
     },
     {
-      "epoch": 0.16119746689694875,
-      "grad_norm": 33.58601902040164,
-      "learning_rate": 4.94340033546025e-07,
-      "logits/chosen": -2.2502989768981934,
-      "logits/rejected": -2.2536580562591553,
-      "logps/chosen": -325.1845397949219,
-      "logps/rejected": -431.7062072753906,
-      "loss": 0.4345,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": 0.23212842643260956,
-      "rewards/margins": 1.2962288856506348,
-      "rewards/rejected": -1.0641005039215088,
       "step": 140
     },
     {
-      "epoch": 0.17271157167530224,
-      "grad_norm": 32.120902840689595,
-      "learning_rate": 4.920152136576705e-07,
-      "logits/chosen": -2.44754958152771,
-      "logits/rejected": -2.4280953407287598,
-      "logps/chosen": -325.13916015625,
-      "logps/rejected": -465.1835021972656,
-      "loss": 0.4604,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": 0.07414035499095917,
-      "rewards/margins": 1.312412977218628,
-      "rewards/rejected": -1.2382725477218628,
       "step": 150
     },
     {
-      "epoch": 0.18422567645365573,
-      "grad_norm": 27.142754060910285,
-      "learning_rate": 4.892988486772756e-07,
-      "logits/chosen": -2.7220418453216553,
-      "logits/rejected": -2.731748342514038,
-      "logps/chosen": -341.7224426269531,
-      "logps/rejected": -451.0387268066406,
-      "loss": 0.4331,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": 0.20678754150867462,
-      "rewards/margins": 1.3990733623504639,
-      "rewards/rejected": -1.1922857761383057,
       "step": 160
     },
     {
-      "epoch": 0.19573978123200922,
-      "grad_norm": 29.918359187167102,
-      "learning_rate": 4.861953332846629e-07,
-      "logits/chosen": -2.796257495880127,
-      "logits/rejected": -2.810292959213257,
-      "logps/chosen": -360.57257080078125,
-      "logps/rejected": -441.2469787597656,
-      "loss": 0.4495,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": 0.04986714571714401,
-      "rewards/margins": 1.442570447921753,
-      "rewards/rejected": -1.3927034139633179,
       "step": 170
     },
     {
-      "epoch": 0.20725388601036268,
-      "grad_norm": 28.18581518610586,
-      "learning_rate": 4.827096885121953e-07,
-      "logits/chosen": -2.9461441040039062,
-      "logits/rejected": -2.936654567718506,
-      "logps/chosen": -342.01666259765625,
-      "logps/rejected": -421.7103576660156,
-      "loss": 0.435,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -0.026858195662498474,
-      "rewards/margins": 1.3959574699401855,
-      "rewards/rejected": -1.4228156805038452,
       "step": 180
     },
     {
-      "epoch": 0.21876799078871617,
-      "grad_norm": 35.53737142925795,
-      "learning_rate": 4.788475536214821e-07,
-      "logits/chosen": -3.022078275680542,
-      "logits/rejected": -3.0052285194396973,
-      "logps/chosen": -336.94830322265625,
-      "logps/rejected": -493.62359619140625,
-      "loss": 0.4228,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": 0.03777497634291649,
-      "rewards/margins": 1.5011249780654907,
-      "rewards/rejected": -1.4633500576019287,
       "step": 190
     },
     {
-      "epoch": 0.23028209556706966,
-      "grad_norm": 32.357788149040054,
-      "learning_rate": 4.746151769798818e-07,
-      "logits/chosen": -3.098576545715332,
-      "logits/rejected": -3.122755527496338,
-      "logps/chosen": -350.237060546875,
-      "logps/rejected": -476.60345458984375,
-      "loss": 0.4206,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": 0.029024356976151466,
-      "rewards/margins": 1.669870376586914,
-      "rewards/rejected": -1.6408460140228271,
       "step": 200
     },
     {
-      "epoch": 0.23028209556706966,
-      "eval_logits/chosen": -3.164449691772461,
-      "eval_logits/rejected": -3.2280213832855225,
-      "eval_logps/chosen": -408.5089416503906,
-      "eval_logps/rejected": -480.46405029296875,
-      "eval_loss": 0.5054616928100586,
-      "eval_rewards/accuracies": 0.80078125,
-      "eval_rewards/chosen": -0.2913154363632202,
-      "eval_rewards/margins": 0.7872099280357361,
-      "eval_rewards/rejected": -1.078525424003601,
-      "eval_runtime": 98.2744,
-      "eval_samples_per_second": 20.351,
-      "eval_steps_per_second": 0.326,
       "step": 200
     },
     {
-      "epoch": 0.24179620034542315,
-      "grad_norm": 33.674165033906036,
-      "learning_rate": 4.7001940595156055e-07,
-      "logits/chosen": -3.1950924396514893,
-      "logits/rejected": -3.276893138885498,
-      "logps/chosen": -364.2984313964844,
-      "logps/rejected": -458.85418701171875,
-      "loss": 0.4096,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -0.04986700415611267,
-      "rewards/margins": 1.6173715591430664,
-      "rewards/rejected": -1.6672385931015015,
       "step": 210
     },
     {
-      "epoch": 0.2533103051237766,
-      "grad_norm": 33.42353087043008,
-      "learning_rate": 4.650676758194623e-07,
-      "logits/chosen": -3.289186477661133,
-      "logits/rejected": -3.4233367443084717,
-      "logps/chosen": -340.89410400390625,
-      "logps/rejected": -531.8297729492188,
-      "loss": 0.417,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -0.3013092875480652,
-      "rewards/margins": 2.0576224327087402,
-      "rewards/rejected": -2.35893177986145,
       "step": 220
     },
     {
-      "epoch": 0.26482440990213013,
-      "grad_norm": 28.030706610514635,
-      "learning_rate": 4.5976799775611215e-07,
-      "logits/chosen": -3.4384427070617676,
-      "logits/rejected": -3.6002049446105957,
-      "logps/chosen": -357.27099609375,
-      "logps/rejected": -521.6351318359375,
-      "loss": 0.4404,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -0.060726016759872437,
-      "rewards/margins": 2.054325580596924,
-      "rewards/rejected": -2.115051746368408,
       "step": 230
     },
     {
-      "epoch": 0.2763385146804836,
-      "grad_norm": 30.164608033500873,
-      "learning_rate": 4.5412894586271543e-07,
-      "logits/chosen": -3.5104153156280518,
-      "logits/rejected": -3.591907024383545,
-      "logps/chosen": -341.6837463378906,
-      "logps/rejected": -471.0796813964844,
-      "loss": 0.4392,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -0.23911134898662567,
-      "rewards/margins": 1.611322045326233,
-      "rewards/rejected": -1.850433588027954,
       "step": 240
     },
     {
-      "epoch": 0.28785261945883706,
-      "grad_norm": 31.949435858685035,
-      "learning_rate": 4.481596432975201e-07,
-      "logits/chosen": -3.528832197189331,
-      "logits/rejected": -3.651289463043213,
-      "logps/chosen": -336.5597229003906,
-      "logps/rejected": -484.8773498535156,
-      "loss": 0.425,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": 0.026675838977098465,
-      "rewards/margins": 1.7153713703155518,
-      "rewards/rejected": -1.6886956691741943,
       "step": 250
     },
     {
-      "epoch": 0.2993667242371906,
-      "grad_norm": 27.939909687462926,
-      "learning_rate": 4.41869747515886e-07,
-      "logits/chosen": -3.489166736602783,
-      "logits/rejected": -3.7278106212615967,
-      "logps/chosen": -356.98907470703125,
-      "logps/rejected": -521.9197387695312,
-      "loss": 0.4148,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": 0.07938538491725922,
-      "rewards/margins": 2.32578706741333,
-      "rewards/rejected": -2.24640154838562,
       "step": 260
     },
     {
-      "epoch": 0.31088082901554404,
-      "grad_norm": 34.336437982786,
-      "learning_rate": 4.352694346459396e-07,
-      "logits/chosen": -3.69819974899292,
-      "logits/rejected": -3.856245756149292,
-      "logps/chosen": -312.3550109863281,
-      "logps/rejected": -512.3087768554688,
-      "loss": 0.3868,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": 0.007610364351421595,
-      "rewards/margins": 2.3179588317871094,
-      "rewards/rejected": -2.3103487491607666,
       "step": 270
     },
     {
-      "epoch": 0.3223949337938975,
-      "grad_norm": 31.93422033932675,
-      "learning_rate": 4.2836938302509256e-07,
-      "logits/chosen": -3.8322901725769043,
-      "logits/rejected": -4.021459579467773,
-      "logps/chosen": -364.43157958984375,
-      "logps/rejected": -556.7454223632812,
-      "loss": 0.3795,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -0.3510279357433319,
-      "rewards/margins": 2.118349075317383,
-      "rewards/rejected": -2.469377040863037,
       "step": 280
     },
     {
-      "epoch": 0.333909038572251,
-      "grad_norm": 43.67643614347539,
-      "learning_rate": 4.2118075592405874e-07,
-      "logits/chosen": -4.014069080352783,
-      "logits/rejected": -4.166284561157227,
-      "logps/chosen": -366.17498779296875,
-      "logps/rejected": -511.95806884765625,
-      "loss": 0.4028,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.3753136992454529,
-      "rewards/margins": 1.9316318035125732,
-      "rewards/rejected": -2.306945562362671,
       "step": 290
     },
     {
-      "epoch": 0.3454231433506045,
-      "grad_norm": 33.05155256360138,
-      "learning_rate": 4.137151834863213e-07,
-      "logits/chosen": -3.932748794555664,
-      "logits/rejected": -4.1272077560424805,
-      "logps/chosen": -338.482666015625,
-      "logps/rejected": -491.4756774902344,
-      "loss": 0.4144,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -0.12368359416723251,
-      "rewards/margins": 1.6778045892715454,
-      "rewards/rejected": -1.8014881610870361,
       "step": 300
     },
     {
-      "epoch": 0.3454231433506045,
-      "eval_logits/chosen": -3.886050224304199,
-      "eval_logits/rejected": -4.0962815284729,
-      "eval_logps/chosen": -410.2217712402344,
-      "eval_logps/rejected": -499.97003173828125,
-      "eval_loss": 0.45044589042663574,
-      "eval_rewards/accuracies": 0.77734375,
-      "eval_rewards/chosen": -0.3084433674812317,
-      "eval_rewards/margins": 0.9651419520378113,
-      "eval_rewards/rejected": -1.273585319519043,
-      "eval_runtime": 99.0297,
-      "eval_samples_per_second": 20.196,
-      "eval_steps_per_second": 0.323,
       "step": 300
     },
     {
-      "epoch": 0.356937248128958,
-      "grad_norm": 30.758950038626843,
-      "learning_rate": 4.059847439122671e-07,
-      "logits/chosen": -4.072343826293945,
-      "logits/rejected": -4.278454780578613,
-      "logps/chosen": -332.38323974609375,
-      "logps/rejected": -486.20587158203125,
-      "loss": 0.4126,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": 0.11183549463748932,
-      "rewards/margins": 1.9423106908798218,
-      "rewards/rejected": -1.8304752111434937,
       "step": 310
     },
     {
-      "epoch": 0.36845135290731146,
-      "grad_norm": 35.899670349090925,
-      "learning_rate": 3.98001943918432e-07,
-      "logits/chosen": -4.233328819274902,
-      "logits/rejected": -4.456056594848633,
-      "logps/chosen": -370.2253723144531,
-      "logps/rejected": -577.809814453125,
-      "loss": 0.3732,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -0.1710590422153473,
-      "rewards/margins": 2.226891279220581,
-      "rewards/rejected": -2.3979504108428955,
       "step": 320
     },
     {
-      "epoch": 0.3799654576856649,
-      "grad_norm": 31.506974249108822,
-      "learning_rate": 3.8977969850346866e-07,
-      "logits/chosen": -4.291365146636963,
-      "logits/rejected": -4.589537143707275,
-      "logps/chosen": -402.2667541503906,
-      "logps/rejected": -580.32080078125,
-      "loss": 0.4158,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -0.40963658690452576,
-      "rewards/margins": 2.1939713954925537,
-      "rewards/rejected": -2.6036081314086914,
       "step": 330
     },
     {
-      "epoch": 0.39147956246401844,
-      "grad_norm": 42.312479747132286,
-      "learning_rate": 3.8133131005357465e-07,
-      "logits/chosen": -4.51456356048584,
-      "logits/rejected": -4.711074352264404,
-      "logps/chosen": -356.7383117675781,
-      "logps/rejected": -599.3222045898438,
-      "loss": 0.3868,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.3934357762336731,
-      "rewards/margins": 2.4568190574645996,
-      "rewards/rejected": -2.850255012512207,
       "step": 340
     },
     {
-      "epoch": 0.4029936672423719,
-      "grad_norm": 34.94322397599626,
-      "learning_rate": 3.7267044682118435e-07,
-      "logits/chosen": -4.381545066833496,
-      "logits/rejected": -4.7945661544799805,
-      "logps/chosen": -396.62408447265625,
-      "logps/rejected": -617.2008666992188,
-      "loss": 0.3886,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -0.23957356810569763,
-      "rewards/margins": 2.6808698177337646,
-      "rewards/rejected": -2.920443296432495,
       "step": 350
     },
     {
-      "epoch": 0.41450777202072536,
-      "grad_norm": 35.153895155661694,
-      "learning_rate": 3.638111208117425e-07,
-      "logits/chosen": -4.376262664794922,
-      "logits/rejected": -4.689536094665527,
-      "logps/chosen": -387.55474853515625,
-      "logps/rejected": -586.8858642578125,
-      "loss": 0.4037,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -0.23621347546577454,
-      "rewards/margins": 2.256948232650757,
-      "rewards/rejected": -2.493161678314209,
       "step": 360
     },
     {
-      "epoch": 0.4260218767990789,
-      "grad_norm": 30.56527510711544,
-      "learning_rate": 3.5476766511433605e-07,
-      "logits/chosen": -4.566588878631592,
-      "logits/rejected": -4.897808074951172,
-      "logps/chosen": -381.00604248046875,
-      "logps/rejected": -585.059814453125,
-      "loss": 0.3902,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.14318397641181946,
-      "rewards/margins": 2.517329692840576,
-      "rewards/rejected": -2.6605141162872314,
       "step": 370
     },
     {
-      "epoch": 0.43753598157743234,
-      "grad_norm": 34.017679923693805,
-      "learning_rate": 3.455547107128602e-07,
-      "logits/chosen": -4.60725736618042,
-      "logits/rejected": -5.102498531341553,
-      "logps/chosen": -385.83770751953125,
-      "logps/rejected": -623.3347778320312,
-      "loss": 0.3929,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.5362241268157959,
-      "rewards/margins": 2.6802401542663574,
-      "rewards/rejected": -3.2164645195007324,
       "step": 380
     },
     {
-      "epoch": 0.44905008635578586,
-      "grad_norm": 33.15867623899776,
-      "learning_rate": 3.361871628152338e-07,
-      "logits/chosen": -4.563677787780762,
-      "logits/rejected": -4.989599227905273,
-      "logps/chosen": -367.84814453125,
-      "logps/rejected": -567.6351318359375,
-      "loss": 0.4213,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -0.3700157105922699,
-      "rewards/margins": 2.4626548290252686,
-      "rewards/rejected": -2.8326706886291504,
       "step": 390
     },
     {
-      "epoch": 0.4605641911341393,
-      "grad_norm": 35.10207305823101,
-      "learning_rate": 3.2668017673896077e-07,
-      "logits/chosen": -4.686192035675049,
-      "logits/rejected": -5.130132675170898,
-      "logps/chosen": -351.6319885253906,
-      "logps/rejected": -523.5940551757812,
-      "loss": 0.4011,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -0.2101125717163086,
-      "rewards/margins": 2.3180549144744873,
-      "rewards/rejected": -2.528167247772217,
-      "step": 400
-    },
-    {
-      "epoch": 0.4605641911341393,
-      "eval_logits/chosen": -4.5018205642700195,
-      "eval_logits/rejected": -4.837046146392822,
-      "eval_logps/chosen": -421.8441162109375,
-      "eval_logps/rejected": -525.9361572265625,
-      "eval_loss": 0.4135480225086212,
-      "eval_rewards/accuracies": 0.80859375,
-      "eval_rewards/chosen": -0.42466747760772705,
-      "eval_rewards/margins": 1.1085797548294067,
-      "eval_rewards/rejected": -1.5332471132278442,
-      "eval_runtime": 98.3292,
-      "eval_samples_per_second": 20.34,
-      "eval_steps_per_second": 0.325,
-      "step": 400
-    },
-    {
-      "epoch": 0.4720782959124928,
-      "grad_norm": 33.086992992339596,
-      "learning_rate": 3.1704913339205103e-07,
-      "logits/chosen": -4.71237850189209,
-      "logits/rejected": -5.09951639175415,
-      "logps/chosen": -392.43292236328125,
-      "logps/rejected": -596.8004150390625,
-      "loss": 0.3894,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -0.45191723108291626,
-      "rewards/margins": 2.4984166622161865,
-      "rewards/rejected": -2.950334072113037,
-      "step": 410
-    },
-    {
-      "epoch": 0.4835924006908463,
-      "grad_norm": 36.9499485623677,
-      "learning_rate": 3.0730961438896885e-07,
-      "logits/chosen": -4.71737003326416,
-      "logits/rejected": -5.089630603790283,
-      "logps/chosen": -371.7138977050781,
-      "logps/rejected": -539.5205078125,
-      "loss": 0.3986,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -0.6353754997253418,
-      "rewards/margins": 1.956162452697754,
-      "rewards/rejected": -2.591538190841675,
-      "step": 420
-    },
-    {
-      "epoch": 0.49510650546919976,
-      "grad_norm": 28.416064555595714,
-      "learning_rate": 2.9747737684186795e-07,
-      "logits/chosen": -4.5956220626831055,
-      "logits/rejected": -5.009639263153076,
-      "logps/chosen": -388.5729064941406,
-      "logps/rejected": -566.389892578125,
-      "loss": 0.3953,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.5186115503311157,
-      "rewards/margins": 2.118881940841675,
-      "rewards/rejected": -2.63749361038208,
-      "step": 430
-    },
-    {
-      "epoch": 0.5066206102475532,
-      "grad_norm": 35.02068361332514,
-      "learning_rate": 2.8756832786789663e-07,
-      "logits/chosen": -4.5723748207092285,
-      "logits/rejected": -5.229958534240723,
-      "logps/chosen": -344.8235778808594,
-      "logps/rejected": -562.1149291992188,
-      "loss": 0.3753,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -0.18356148898601532,
-      "rewards/margins": 2.6801793575286865,
-      "rewards/rejected": -2.863740921020508,
-      "step": 440
-    },
-    {
-      "epoch": 0.5181347150259067,
-      "grad_norm": 29.90766637224572,
-      "learning_rate": 2.7759849885381747e-07,
-      "logits/chosen": -4.58120059967041,
-      "logits/rejected": -5.108014106750488,
-      "logps/chosen": -380.8218688964844,
-      "logps/rejected": -558.5294189453125,
-      "loss": 0.395,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -0.36003825068473816,
-      "rewards/margins": 2.234218120574951,
-      "rewards/rejected": -2.594256639480591,
-      "step": 450
-    },
-    {
-      "epoch": 0.5296488198042603,
-      "grad_norm": 43.539308942722826,
-      "learning_rate": 2.675840195195762e-07,
-      "logits/chosen": -4.849000453948975,
-      "logits/rejected": -5.308794975280762,
-      "logps/chosen": -353.55523681640625,
-      "logps/rejected": -619.9716796875,
-      "loss": 0.3685,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -0.29138100147247314,
-      "rewards/margins": 2.825038433074951,
-      "rewards/rejected": -3.116419553756714,
-      "step": 460
-    },
-    {
-      "epoch": 0.5411629245826137,
-      "grad_norm": 33.774855687056665,
-      "learning_rate": 2.575410918227829e-07,
-      "logits/chosen": -4.863161087036133,
-      "logits/rejected": -5.457709312438965,
-      "logps/chosen": -411.6463317871094,
-      "logps/rejected": -598.97314453125,
-      "loss": 0.3821,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.46561044454574585,
-      "rewards/margins": 2.4459636211395264,
-      "rewards/rejected": -2.911574602127075,
-      "step": 470
-    },
-    {
-      "epoch": 0.5526770293609672,
-      "grad_norm": 33.53580470090372,
-      "learning_rate": 2.474859637463226e-07,
-      "logits/chosen": -5.079291343688965,
-      "logits/rejected": -5.424225807189941,
-      "logps/chosen": -389.027099609375,
-      "logps/rejected": -587.9437255859375,
-      "loss": 0.3962,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -0.4632614254951477,
-      "rewards/margins": 2.3001296520233154,
-      "rewards/rejected": -2.7633910179138184,
-      "step": 480
-    },
-    {
-      "epoch": 0.5641911341393206,
-      "grad_norm": 32.1453411001328,
-      "learning_rate": 2.3743490301150355e-07,
-      "logits/chosen": -5.007067680358887,
-      "logits/rejected": -5.361691474914551,
-      "logps/chosen": -343.4484558105469,
-      "logps/rejected": -570.6577758789062,
-      "loss": 0.3902,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -0.14810001850128174,
-      "rewards/margins": 2.4624667167663574,
-      "rewards/rejected": -2.6105666160583496,
-      "step": 490
-    },
-    {
-      "epoch": 0.5757052389176741,
-      "grad_norm": 32.90845084744282,
-      "learning_rate": 2.274041707592724e-07,
-      "logits/chosen": -4.921438694000244,
-      "logits/rejected": -5.355481147766113,
-      "logps/chosen": -339.01129150390625,
-      "logps/rejected": -556.4103393554688,
-      "loss": 0.3915,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -0.14777924120426178,
-      "rewards/margins": 2.432879686355591,
-      "rewards/rejected": -2.5806591510772705,
-      "step": 500
-    },
-    {
-      "epoch": 0.5757052389176741,
-      "eval_logits/chosen": -4.767510890960693,
-      "eval_logits/rejected": -5.187655925750732,
-      "eval_logps/chosen": -418.29376220703125,
-      "eval_logps/rejected": -544.0393676757812,
-      "eval_loss": 0.37398749589920044,
-      "eval_rewards/accuracies": 0.8515625,
-      "eval_rewards/chosen": -0.389164000749588,
-      "eval_rewards/margins": 1.3251150846481323,
-      "eval_rewards/rejected": -1.7142791748046875,
-      "eval_runtime": 98.0381,
-      "eval_samples_per_second": 20.4,
-      "eval_steps_per_second": 0.326,
-      "step": 500
-    },
-    {
-      "epoch": 0.5872193436960277,
-      "grad_norm": 31.42761305876207,
-      "learning_rate": 2.17409995242075e-07,
-      "logits/chosen": -5.038609504699707,
-      "logits/rejected": -5.722345352172852,
-      "logps/chosen": -372.905517578125,
-      "logps/rejected": -569.4352416992188,
-      "loss": 0.376,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -0.27033573389053345,
-      "rewards/margins": 2.4031970500946045,
-      "rewards/rejected": -2.6735329627990723,
-      "step": 510
-    },
-    {
-      "epoch": 0.5987334484743811,
-      "grad_norm": 29.61275457382243,
-      "learning_rate": 2.0746854556892544e-07,
-      "logits/chosen": -5.438863754272461,
-      "logits/rejected": -5.798094749450684,
-      "logps/chosen": -407.27008056640625,
-      "logps/rejected": -620.6509399414062,
-      "loss": 0.3645,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -0.43467459082603455,
-      "rewards/margins": 2.4455971717834473,
-      "rewards/rejected": -2.8802719116210938,
-      "step": 520
-    },
-    {
-      "epoch": 0.6102475532527346,
-      "grad_norm": 27.24117353879226,
-      "learning_rate": 1.9759590554616173e-07,
-      "logits/chosen": -5.715832710266113,
-      "logits/rejected": -6.058187961578369,
-      "logps/chosen": -397.95849609375,
-      "logps/rejected": -609.6741943359375,
-      "loss": 0.3968,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.6830942034721375,
-      "rewards/margins": 2.4185569286346436,
-      "rewards/rejected": -3.101651191711426,
-      "step": 530
-    },
-    {
-      "epoch": 0.6217616580310881,
-      "grad_norm": 30.859422948077256,
-      "learning_rate": 1.8780804765620746e-07,
-      "logits/chosen": -5.4331769943237305,
-      "logits/rejected": -5.7857160568237305,
-      "logps/chosen": -373.3824462890625,
-      "logps/rejected": -528.5029296875,
-      "loss": 0.4178,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.4058764576911926,
-      "rewards/margins": 1.9241279363632202,
-      "rewards/rejected": -2.3300044536590576,
-      "step": 540
-    },
-    {
-      "epoch": 0.6332757628094415,
-      "grad_norm": 35.78902948656132,
-      "learning_rate": 1.7812080721643973e-07,
-      "logits/chosen": -5.20429801940918,
-      "logits/rejected": -5.622688293457031,
-      "logps/chosen": -401.1048889160156,
-      "logps/rejected": -605.438232421875,
-      "loss": 0.3956,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -0.27011531591415405,
-      "rewards/margins": 2.323632001876831,
-      "rewards/rejected": -2.593747615814209,
-      "step": 550
-    },
-    {
-      "epoch": 0.644789867587795,
-      "grad_norm": 31.09337668064834,
-      "learning_rate": 1.6854985675997063e-07,
-      "logits/chosen": -5.3274736404418945,
-      "logits/rejected": -5.779025554656982,
-      "logps/chosen": -370.87823486328125,
-      "logps/rejected": -599.370361328125,
-      "loss": 0.377,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -0.30361196398735046,
-      "rewards/margins": 2.5692386627197266,
-      "rewards/rejected": -2.8728506565093994,
-      "step": 560
-    },
-    {
-      "epoch": 0.6563039723661486,
-      "grad_norm": 31.49748801480019,
-      "learning_rate": 1.5911068067978818e-07,
-      "logits/chosen": -5.422667503356934,
-      "logits/rejected": -5.991160869598389,
-      "logps/chosen": -363.42791748046875,
-      "logps/rejected": -606.8687744140625,
-      "loss": 0.3651,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -0.3893515467643738,
-      "rewards/margins": 2.7044646739959717,
-      "rewards/rejected": -3.093816041946411,
-      "step": 570
-    },
-    {
-      "epoch": 0.667818077144502,
-      "grad_norm": 40.80686884426901,
-      "learning_rate": 1.4981855017728197e-07,
-      "logits/chosen": -5.2194623947143555,
-      "logits/rejected": -5.8604302406311035,
-      "logps/chosen": -378.5892028808594,
-      "logps/rejected": -623.4224853515625,
-      "loss": 0.3681,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -0.4009127616882324,
-      "rewards/margins": 2.839203357696533,
-      "rewards/rejected": -3.2401161193847656,
-      "step": 580
-    },
-    {
-      "epoch": 0.6793321819228555,
-      "grad_norm": 35.637123676945,
-      "learning_rate": 1.406884985556804e-07,
-      "logits/chosen": -5.340333461761475,
-      "logits/rejected": -5.9213457107543945,
-      "logps/chosen": -366.98126220703125,
-      "logps/rejected": -646.6055297851562,
-      "loss": 0.3892,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -0.3502456843852997,
-      "rewards/margins": 3.1350584030151367,
-      "rewards/rejected": -3.4853038787841797,
-      "step": 590
-    },
-    {
-      "epoch": 0.690846286701209,
-      "grad_norm": 38.133176182262396,
-      "learning_rate": 1.3173529689837354e-07,
-      "logits/chosen": -5.227208137512207,
-      "logits/rejected": -5.730982780456543,
-      "logps/chosen": -406.6194152832031,
-      "logps/rejected": -642.0016479492188,
-      "loss": 0.3726,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -0.19344040751457214,
-      "rewards/margins": 2.756740093231201,
-      "rewards/rejected": -2.9501805305480957,
-      "step": 600
-    },
-    {
-      "epoch": 0.690846286701209,
-      "eval_logits/chosen": -5.146116256713867,
-      "eval_logits/rejected": -5.624752044677734,
-      "eval_logps/chosen": -427.4439392089844,
-      "eval_logps/rejected": -561.528564453125,
-      "eval_loss": 0.3467547297477722,
-      "eval_rewards/accuracies": 0.84375,
-      "eval_rewards/chosen": -0.4806651175022125,
-      "eval_rewards/margins": 1.408505916595459,
-      "eval_rewards/rejected": -1.8891710042953491,
-      "eval_runtime": 98.3003,
-      "eval_samples_per_second": 20.346,
-      "eval_steps_per_second": 0.326,
-      "step": 600
-    },
-    {
-      "epoch": 0.7023603914795624,
-      "grad_norm": 35.76369238749813,
-      "learning_rate": 1.2297343017146726e-07,
-      "logits/chosen": -5.63295316696167,
-      "logits/rejected": -6.0680012702941895,
-      "logps/chosen": -352.22650146484375,
-      "logps/rejected": -569.6236572265625,
-      "loss": 0.3654,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -0.400468111038208,
-      "rewards/margins": 2.252286672592163,
-      "rewards/rejected": -2.65275502204895,
-      "step": 610
-    },
-    {
-      "epoch": 0.713874496257916,
-      "grad_norm": 42.53908245265289,
-      "learning_rate": 1.1441707378923474e-07,
-      "logits/chosen": -5.555817604064941,
-      "logits/rejected": -5.891648292541504,
-      "logps/chosen": -372.3026123046875,
-      "logps/rejected": -608.4457397460938,
-      "loss": 0.3719,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -0.5105666518211365,
-      "rewards/margins": 2.334003448486328,
-      "rewards/rejected": -2.844569683074951,
-      "step": 620
-    },
-    {
-      "epoch": 0.7253886010362695,
-      "grad_norm": 33.40462593975916,
-      "learning_rate": 1.06080070680377e-07,
-      "logits/chosen": -5.389917850494385,
-      "logits/rejected": -5.883559226989746,
-      "logps/chosen": -380.6363525390625,
-      "logps/rejected": -589.5970458984375,
-      "loss": 0.3608,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -0.4320860803127289,
-      "rewards/margins": 2.423119068145752,
-      "rewards/rejected": -2.8552052974700928,
-      "step": 630
-    },
-    {
-      "epoch": 0.7369027058146229,
-      "grad_norm": 40.31781331240861,
-      "learning_rate": 9.797590889219587e-08,
-      "logits/chosen": -5.418898582458496,
-      "logits/rejected": -6.029601097106934,
-      "logps/chosen": -331.7992248535156,
-      "logps/rejected": -644.7623291015625,
-      "loss": 0.4071,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -0.26965656876564026,
-      "rewards/margins": 3.317509174346924,
-      "rewards/rejected": -3.5871658325195312,
-      "step": 640
-    },
-    {
-      "epoch": 0.7484168105929764,
-      "grad_norm": 30.964195430126203,
-      "learning_rate": 9.011769976891367e-08,
-      "logits/chosen": -5.33644962310791,
-      "logits/rejected": -5.905170440673828,
-      "logps/chosen": -370.828369140625,
-      "logps/rejected": -630.619140625,
-      "loss": 0.3809,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -0.340393990278244,
-      "rewards/margins": 2.9275107383728027,
-      "rewards/rejected": -3.267904758453369,
-      "step": 650
-    },
-    {
-      "epoch": 0.7599309153713298,
-      "grad_norm": 34.09027033994428,
-      "learning_rate": 8.251815673944218e-08,
-      "logits/chosen": -5.566973686218262,
-      "logits/rejected": -5.901907444000244,
-      "logps/chosen": -373.8709411621094,
-      "logps/rejected": -626.88720703125,
-      "loss": 0.3664,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.31639060378074646,
-      "rewards/margins": 2.5317635536193848,
-      "rewards/rejected": -2.848154067993164,
-      "step": 660
-    },
-    {
-      "epoch": 0.7714450201496834,
-      "grad_norm": 33.748663190230474,
-      "learning_rate": 7.518957474892148e-08,
-      "logits/chosen": -5.544904708862305,
-      "logits/rejected": -6.055120468139648,
-      "logps/chosen": -366.33306884765625,
-      "logps/rejected": -662.8927001953125,
-      "loss": 0.3675,
-      "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": -0.4155319333076477,
-      "rewards/margins": 3.206387758255005,
-      "rewards/rejected": -3.621919631958008,
-      "step": 670
-    },
-    {
-      "epoch": 0.7829591249280369,
-      "grad_norm": 33.43366335799461,
-      "learning_rate": 6.814381036730274e-08,
-      "logits/chosen": -5.3579840660095215,
-      "logits/rejected": -5.930968284606934,
-      "logps/chosen": -384.45245361328125,
-      "logps/rejected": -620.3960571289062,
-      "loss": 0.3748,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -0.3938636779785156,
-      "rewards/margins": 2.738201856613159,
-      "rewards/rejected": -3.132065773010254,
-      "step": 680
-    },
-    {
-      "epoch": 0.7944732297063903,
-      "grad_norm": 31.210525154632403,
-      "learning_rate": 6.139226260715872e-08,
-      "logits/chosen": -5.434956073760986,
-      "logits/rejected": -5.966610908508301,
-      "logps/chosen": -387.60162353515625,
-      "logps/rejected": -664.8744506835938,
-      "loss": 0.355,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -0.4180675446987152,
-      "rewards/margins": 2.967360019683838,
-      "rewards/rejected": -3.385427474975586,
-      "step": 690
-    },
-    {
-      "epoch": 0.8059873344847438,
-      "grad_norm": 33.963445753535076,
-      "learning_rate": 5.4945854481754734e-08,
-      "logits/chosen": -5.527676105499268,
-      "logits/rejected": -5.960885047912598,
-      "logps/chosen": -374.95916748046875,
-      "logps/rejected": -630.1693725585938,
-      "loss": 0.3522,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -0.3166103959083557,
-      "rewards/margins": 2.8152191638946533,
-      "rewards/rejected": -3.1318297386169434,
-      "step": 700
-    },
-    {
-      "epoch": 0.8059873344847438,
-      "eval_logits/chosen": -5.210726261138916,
-      "eval_logits/rejected": -5.681924343109131,
-      "eval_logps/chosen": -433.6905517578125,
-      "eval_logps/rejected": -577.3692016601562,
-      "eval_loss": 0.32489100098609924,
-      "eval_rewards/accuracies": 0.87890625,
-      "eval_rewards/chosen": -0.5431313514709473,
-      "eval_rewards/margins": 1.5044457912445068,
-      "eval_rewards/rejected": -2.047577142715454,
-      "eval_runtime": 98.0334,
-      "eval_samples_per_second": 20.401,
-      "eval_steps_per_second": 0.326,
-      "step": 700
-    },
-    {
-      "epoch": 0.8175014392630973,
-      "grad_norm": 32.382102785679976,
-      "learning_rate": 4.881501533321605e-08,
-      "logits/chosen": -5.631700038909912,
-      "logits/rejected": -6.175845146179199,
-      "logps/chosen": -364.59674072265625,
-      "logps/rejected": -615.4799194335938,
-      "loss": 0.3861,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -0.4184879660606384,
-      "rewards/margins": 2.884592294692993,
-      "rewards/rejected": -3.3030803203582764,
-      "step": 710
-    },
-    {
-      "epoch": 0.8290155440414507,
-      "grad_norm": 29.844564520231344,
-      "learning_rate": 4.300966395938377e-08,
-      "logits/chosen": -5.579652309417725,
-      "logits/rejected": -6.021969795227051,
-      "logps/chosen": -410.3070373535156,
-      "logps/rejected": -654.1072387695312,
-      "loss": 0.3805,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -0.40225619077682495,
-      "rewards/margins": 2.8050906658172607,
-      "rewards/rejected": -3.2073471546173096,
-      "step": 720
-    },
-    {
-      "epoch": 0.8405296488198043,
-      "grad_norm": 34.64605949847163,
-      "learning_rate": 3.7539192566655246e-08,
-      "logits/chosen": -5.749828338623047,
-      "logits/rejected": -6.230714321136475,
-      "logps/chosen": -372.4962463378906,
-      "logps/rejected": -620.4830932617188,
-      "loss": 0.3701,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -0.3709852397441864,
-      "rewards/margins": 2.7844834327697754,
-      "rewards/rejected": -3.155468702316284,
-      "step": 730
-    },
-    {
-      "epoch": 0.8520437535981578,
-      "grad_norm": 38.917435902608844,
-      "learning_rate": 3.24124515747731e-08,
-      "logits/chosen": -5.770384311676025,
-      "logits/rejected": -6.440248966217041,
-      "logps/chosen": -377.38360595703125,
-      "logps/rejected": -670.9470825195312,
-      "loss": 0.3725,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -0.46737533807754517,
-      "rewards/margins": 3.3466858863830566,
-      "rewards/rejected": -3.814060926437378,
-      "step": 740
-    },
-    {
-      "epoch": 0.8635578583765112,
-      "grad_norm": 35.39576347923302,
-      "learning_rate": 2.763773529814506e-08,
-      "logits/chosen": -5.80182409286499,
-      "logits/rejected": -6.183619976043701,
-      "logps/chosen": -363.37359619140625,
-      "logps/rejected": -643.1031494140625,
-      "loss": 0.3736,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -0.513085663318634,
-      "rewards/margins": 2.7367725372314453,
-      "rewards/rejected": -3.2498581409454346,
-      "step": 750
-    },
-    {
-      "epoch": 0.8750719631548647,
-      "grad_norm": 35.82536365897154,
-      "learning_rate": 2.3222768526860698e-08,
-      "logits/chosen": -5.800836563110352,
-      "logits/rejected": -6.234482288360596,
-      "logps/chosen": -365.31903076171875,
-      "logps/rejected": -579.0399169921875,
-      "loss": 0.3663,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -0.5012763738632202,
-      "rewards/margins": 2.1673426628112793,
-      "rewards/rejected": -2.668619394302368,
-      "step": 760
-    },
-    {
-      "epoch": 0.8865860679332181,
-      "grad_norm": 37.880330092886545,
-      "learning_rate": 1.9174694029115146e-08,
-      "logits/chosen": -5.784181594848633,
-      "logits/rejected": -6.484677314758301,
-      "logps/chosen": -376.74908447265625,
-      "logps/rejected": -637.3211059570312,
-      "loss": 0.38,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": -0.3697873055934906,
-      "rewards/margins": 3.116102933883667,
-      "rewards/rejected": -3.4858901500701904,
-      "step": 770
-    },
-    {
-      "epoch": 0.8981001727115717,
-      "grad_norm": 37.173154353795034,
-      "learning_rate": 1.5500060995258134e-08,
-      "logits/chosen": -5.590546607971191,
-      "logits/rejected": -6.252056121826172,
-      "logps/chosen": -404.06219482421875,
-      "logps/rejected": -671.0790405273438,
-      "loss": 0.3644,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -0.4821314811706543,
-      "rewards/margins": 2.973552703857422,
-      "rewards/rejected": -3.455684185028076,
-      "step": 780
-    },
-    {
-      "epoch": 0.9096142774899252,
-      "grad_norm": 38.483209821819536,
-      "learning_rate": 1.2204814442165812e-08,
-      "logits/chosen": -5.847277641296387,
-      "logits/rejected": -6.545414924621582,
-      "logps/chosen": -402.4599609375,
-      "logps/rejected": -618.3992309570312,
-      "loss": 0.3744,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -0.5441657900810242,
-      "rewards/margins": 2.8156542778015137,
-      "rewards/rejected": -3.3598198890686035,
-      "step": 790
-    },
-    {
-      "epoch": 0.9211283822682786,
-      "grad_norm": 36.88952100776894,
-      "learning_rate": 9.294285595075669e-09,
-      "logits/chosen": -5.882547378540039,
-      "logits/rejected": -6.232880115509033,
-      "logps/chosen": -359.8563537597656,
-      "logps/rejected": -655.06787109375,
-      "loss": 0.3643,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -0.496969074010849,
-      "rewards/margins": 2.759918689727783,
-      "rewards/rejected": -3.256887912750244,
-      "step": 800
-    },
-    {
-      "epoch": 0.9211283822682786,
-      "eval_logits/chosen": -5.403136253356934,
-      "eval_logits/rejected": -5.885165214538574,
-      "eval_logps/chosen": -439.6992492675781,
-      "eval_logps/rejected": -584.2129516601562,
-      "eval_loss": 0.31831786036491394,
-      "eval_rewards/accuracies": 0.87109375,
-      "eval_rewards/chosen": -0.6032183170318604,
-      "eval_rewards/margins": 1.5127967596054077,
-      "eval_rewards/rejected": -2.1160147190093994,
-      "eval_runtime": 98.1126,
-      "eval_samples_per_second": 20.385,
-      "eval_steps_per_second": 0.326,
-      "step": 800
-    },
-    {
-      "epoch": 0.9326424870466321,
-      "grad_norm": 43.94120514478602,
-      "learning_rate": 6.773183262446914e-09,
-      "logits/chosen": -5.6489362716674805,
-      "logits/rejected": -6.28032112121582,
-      "logps/chosen": -353.1646423339844,
-      "logps/rejected": -609.9522705078125,
-      "loss": 0.3848,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.40985745191574097,
-      "rewards/margins": 2.7903153896331787,
-      "rewards/rejected": -3.2001731395721436,
-      "step": 810
-    },
-    {
-      "epoch": 0.9441565918249856,
-      "grad_norm": 33.525448706821926,
-      "learning_rate": 4.645586217799452e-09,
-      "logits/chosen": -5.750053882598877,
-      "logits/rejected": -6.382951259613037,
-      "logps/chosen": -408.31915283203125,
-      "logps/rejected": -624.9613037109375,
-      "loss": 0.3682,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -0.44873589277267456,
-      "rewards/margins": 2.5182459354400635,
-      "rewards/rejected": -2.966981887817383,
-      "step": 820
-    },
-    {
-      "epoch": 0.9556706966033391,
-      "grad_norm": 32.59312352646331,
-      "learning_rate": 2.9149366008568987e-09,
-      "logits/chosen": -5.68507194519043,
-      "logits/rejected": -6.2285284996032715,
-      "logps/chosen": -345.0586853027344,
-      "logps/rejected": -635.7188720703125,
-      "loss": 0.3761,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -0.39172735810279846,
-      "rewards/margins": 2.9998083114624023,
-      "rewards/rejected": -3.391535520553589,
-      "step": 830
-    },
-    {
-      "epoch": 0.9671848013816926,
-      "grad_norm": 37.49243505993372,
-      "learning_rate": 1.5840343486700215e-09,
-      "logits/chosen": -5.730424404144287,
-      "logits/rejected": -6.221343040466309,
-      "logps/chosen": -356.298583984375,
-      "logps/rejected": -621.7361450195312,
-      "loss": 0.3928,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -0.4219423830509186,
-      "rewards/margins": 2.8504931926727295,
-      "rewards/rejected": -3.272435426712036,
-      "step": 840
-    },
-    {
-      "epoch": 0.9786989061600461,
-      "grad_norm": 33.08948980944996,
-      "learning_rate": 6.550326657293881e-10,
-      "logits/chosen": -5.9162678718566895,
-      "logits/rejected": -6.479850769042969,
-      "logps/chosen": -360.3614196777344,
-      "logps/rejected": -608.4212646484375,
-      "loss": 0.3596,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -0.3865709900856018,
-      "rewards/margins": 2.8733856678009033,
-      "rewards/rejected": -3.2599568367004395,
-      "step": 850
-    },
-    {
-      "epoch": 0.9902130109383995,
-      "grad_norm": 33.68247028780298,
-      "learning_rate": 1.2943454039654467e-10,
-      "logits/chosen": -5.6706414222717285,
-      "logits/rejected": -6.1612443923950195,
-      "logps/chosen": -388.79510498046875,
-      "logps/rejected": -634.7048950195312,
-      "loss": 0.3777,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -0.3972472846508026,
-      "rewards/margins": 2.8383138179779053,
-      "rewards/rejected": -3.2355613708496094,
-      "step": 860
-    },
-    {
-      "epoch": 0.9994242947610823,
-      "step": 868,
       "total_flos": 0.0,
-      "train_loss": 0.4218231642850533,
-      "train_runtime": 14967.0092,
-      "train_samples_per_second": 7.425,
-      "train_steps_per_second": 0.058
     }
   ],
   "logging_steps": 10,
-  "max_steps": 868,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
   "total_flos": 0.0,
   "train_batch_size": 8,
   "trial_name": null,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 100,
+  "global_step": 391,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0,
+      "grad_norm": 2089.5337638761494,
+      "learning_rate": 2.5e-09,
+      "logits/chosen": -4.623842239379883,
+      "logits/rejected": -4.85917854309082,
+      "logps/chosen": -239.31422424316406,
+      "logps/rejected": -207.56365966796875,
+      "loss": 0.6952,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
       "step": 1
     },
     {
+      "epoch": 0.03,
+      "grad_norm": 2112.4857671472687,
+      "learning_rate": 2.5e-08,
+      "logits/chosen": -4.333562850952148,
+      "logits/rejected": -4.643319129943848,
+      "logps/chosen": -265.2981262207031,
+      "logps/rejected": -215.68804931640625,
+      "loss": 0.7355,
+      "rewards/accuracies": 0.3888888955116272,
+      "rewards/chosen": -0.09561138600111008,
+      "rewards/margins": -0.10567205399274826,
+      "rewards/rejected": 0.010060659609735012,
       "step": 10
     },
     {
+      "epoch": 0.05,
+      "grad_norm": 1939.2525079641944,
+      "learning_rate": 5e-08,
+      "logits/chosen": -4.508406162261963,
+      "logits/rejected": -4.7436203956604,
+      "logps/chosen": -267.76934814453125,
+      "logps/rejected": -216.88119506835938,
+      "loss": 0.6656,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.08529385179281235,
+      "rewards/margins": 0.22122922539710999,
+      "rewards/rejected": -0.13593538105487823,
       "step": 20
     },
     {
+      "epoch": 0.08,
+      "grad_norm": 1485.5526937989268,
+      "learning_rate": 7.5e-08,
+      "logits/chosen": -4.591097354888916,
+      "logits/rejected": -4.771042823791504,
+      "logps/chosen": -257.5138244628906,
+      "logps/rejected": -215.06607055664062,
+      "loss": 0.4916,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.5094950795173645,
+      "rewards/margins": 0.7761520147323608,
+      "rewards/rejected": -0.2666569650173187,
       "step": 30
     },
     {
+      "epoch": 0.1,
+      "grad_norm": 1059.7800988486467,
+      "learning_rate": 1e-07,
+      "logits/chosen": -4.61653995513916,
+      "logits/rejected": -4.705571174621582,
+      "logps/chosen": -250.05783081054688,
+      "logps/rejected": -220.47665405273438,
+      "loss": 0.3139,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 1.7706722021102905,
+      "rewards/margins": 2.1734442710876465,
+      "rewards/rejected": -0.4027720093727112,
       "step": 40
     },
     {
+      "epoch": 0.13,
+      "grad_norm": 837.9194721075112,
+      "learning_rate": 9.979985922607475e-08,
+      "logits/chosen": -4.497745513916016,
+      "logits/rejected": -4.6963934898376465,
+      "logps/chosen": -266.4471740722656,
+      "logps/rejected": -227.05908203125,
+      "loss": 0.2475,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 2.7611026763916016,
+      "rewards/margins": 3.3548762798309326,
+      "rewards/rejected": -0.5937734246253967,
       "step": 50
     },
     {
+      "epoch": 0.15,
+      "grad_norm": 912.9246800740217,
+      "learning_rate": 9.92010391574745e-08,
+      "logits/chosen": -4.585003852844238,
+      "logits/rejected": -4.705927848815918,
+      "logps/chosen": -235.20071411132812,
+      "logps/rejected": -217.2942352294922,
+      "loss": 0.2013,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": 2.9608712196350098,
+      "rewards/margins": 4.097281455993652,
+      "rewards/rejected": -1.1364095211029053,
       "step": 60
     },
     {
+      "epoch": 0.18,
+      "grad_norm": 634.4685088072516,
+      "learning_rate": 9.820833372667812e-08,
+      "logits/chosen": -4.462503910064697,
+      "logits/rejected": -4.6857805252075195,
+      "logps/chosen": -246.69186401367188,
+      "logps/rejected": -220.57937622070312,
+      "loss": 0.1884,
+      "rewards/accuracies": 0.956250011920929,
+      "rewards/chosen": 3.2250447273254395,
+      "rewards/margins": 4.633510112762451,
+      "rewards/rejected": -1.4084659814834595,
       "step": 70
     },
     {
+      "epoch": 0.2,
+      "grad_norm": 468.8604524803785,
+      "learning_rate": 9.682969016701356e-08,
+      "logits/chosen": -4.449667453765869,
+      "logits/rejected": -4.664923667907715,
+      "logps/chosen": -253.8452606201172,
+      "logps/rejected": -233.0582733154297,
+      "loss": 0.1796,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 3.6873557567596436,
+      "rewards/margins": 5.057134628295898,
+      "rewards/rejected": -1.3697788715362549,
       "step": 80
     },
     {
+      "epoch": 0.23,
+      "grad_norm": 958.5162002808887,
+      "learning_rate": 9.507614539004081e-08,
+      "logits/chosen": -4.535862445831299,
+      "logits/rejected": -4.733909606933594,
+      "logps/chosen": -243.66317749023438,
+      "logps/rejected": -206.82388305664062,
+      "loss": 0.1733,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": 3.7747840881347656,
+      "rewards/margins": 5.771730899810791,
+      "rewards/rejected": -1.9969465732574463,
       "step": 90
     },
     {
+      "epoch": 0.26,
+      "grad_norm": 928.8107393024507,
+      "learning_rate": 9.296173762811083e-08,
+      "logits/chosen": -4.406120777130127,
+      "logits/rejected": -4.672289848327637,
+      "logps/chosen": -248.62539672851562,
+      "logps/rejected": -231.67758178710938,
+      "loss": 0.1833,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": 4.046411037445068,
+      "rewards/margins": 6.330681324005127,
+      "rewards/rejected": -2.2842705249786377,
       "step": 100
     },
     {
+      "epoch": 0.26,
+      "eval_logits/chosen": -4.5091094970703125,
+      "eval_logits/rejected": -4.724847316741943,
+      "eval_logps/chosen": -389.6205749511719,
+      "eval_logps/rejected": -515.4835205078125,
+      "eval_loss": 1.8368816375732422,
+      "eval_rewards/accuracies": 0.375,
+      "eval_rewards/chosen": 0.4269474744796753,
+      "eval_rewards/margins": -1.0251328945159912,
+      "eval_rewards/rejected": 1.452080249786377,
+      "eval_runtime": 97.8781,
+      "eval_samples_per_second": 20.434,
+      "eval_steps_per_second": 0.327,
       "step": 100
     },
     {
+      "epoch": 0.28,
+      "grad_norm": 759.2228167566217,
+      "learning_rate": 9.050339404945832e-08,
+      "logits/chosen": -4.45731258392334,
+      "logits/rejected": -4.700920581817627,
+      "logps/chosen": -240.77047729492188,
+      "logps/rejected": -220.7100830078125,
+      "loss": 0.1645,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 4.207625865936279,
+      "rewards/margins": 6.219720363616943,
+      "rewards/rejected": -2.012094259262085,
       "step": 110
     },
     {
+      "epoch": 0.31,
+      "grad_norm": 615.4147404438793,
+      "learning_rate": 8.77207952455395e-08,
+      "logits/chosen": -4.41110897064209,
+      "logits/rejected": -4.632037162780762,
+      "logps/chosen": -266.83837890625,
+      "logps/rejected": -232.83670043945312,
+      "loss": 0.1648,
+      "rewards/accuracies": 0.956250011920929,
+      "rewards/chosen": 4.575605869293213,
+      "rewards/margins": 6.689634799957275,
+      "rewards/rejected": -2.1140289306640625,
       "step": 120
     },
     {
+      "epoch": 0.33,
+      "grad_norm": 1154.0005388666061,
+      "learning_rate": 8.463621767547997e-08,
+      "logits/chosen": -4.474618434906006,
+      "logits/rejected": -4.724778652191162,
+      "logps/chosen": -250.192626953125,
+      "logps/rejected": -220.4983673095703,
+      "loss": 0.1701,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 4.125626564025879,
+      "rewards/margins": 6.710474967956543,
+      "rewards/rejected": -2.5848488807678223,
       "step": 130
     },
     {
+      "epoch": 0.36,
+      "grad_norm": 510.3907389648352,
+      "learning_rate": 8.127435532896387e-08,
+      "logits/chosen": -4.497905254364014,
+      "logits/rejected": -4.757509708404541,
+      "logps/chosen": -276.1819763183594,
+      "logps/rejected": -237.9337921142578,
+      "loss": 0.169,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 4.006547451019287,
+      "rewards/margins": 6.8867011070251465,
+      "rewards/rejected": -2.880154848098755,
       "step": 140
     },
     {
+      "epoch": 0.38,
+      "grad_norm": 616.3949177365913,
+      "learning_rate": 7.766212203526569e-08,
+      "logits/chosen": -4.483530521392822,
+      "logits/rejected": -4.700650691986084,
+      "logps/chosen": -244.07785034179688,
+      "logps/rejected": -224.0546417236328,
+      "loss": 0.1668,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": 4.170205116271973,
+      "rewards/margins": 6.6378936767578125,
+      "rewards/rejected": -2.4676883220672607,
       "step": 150
     },
     {
+      "epoch": 0.41,
+      "grad_norm": 759.2665515018776,
+      "learning_rate": 7.382843600106538e-08,
+      "logits/chosen": -4.538361072540283,
+      "logits/rejected": -4.685894966125488,
+      "logps/chosen": -243.0140380859375,
+      "logps/rejected": -220.0860137939453,
+      "loss": 0.1473,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": 4.22122859954834,
+      "rewards/margins": 6.459697723388672,
+      "rewards/rejected": -2.238469362258911,
       "step": 160
     },
     {
+      "epoch": 0.43,
+      "grad_norm": 688.1440407430587,
+      "learning_rate": 6.980398830195784e-08,
+      "logits/chosen": -4.427027702331543,
+      "logits/rejected": -4.675489902496338,
+      "logps/chosen": -251.1200408935547,
+      "logps/rejected": -225.5527801513672,
+      "loss": 0.1434,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 4.977096080780029,
+      "rewards/margins": 7.851990699768066,
+      "rewards/rejected": -2.874894618988037,
       "step": 170
     },
     {
+      "epoch": 0.46,
+      "grad_norm": 572.2642343737211,
+      "learning_rate": 6.562099718102787e-08,
+      "logits/chosen": -4.530760765075684,
+      "logits/rejected": -4.731973171234131,
+      "logps/chosen": -228.52304077148438,
+      "logps/rejected": -202.01510620117188,
+      "loss": 0.1552,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 4.1703057289123535,
+      "rewards/margins": 7.167737007141113,
+      "rewards/rejected": -2.9974308013916016,
       "step": 180
     },
     {
+      "epoch": 0.49,
+      "grad_norm": 887.5255514170451,
+      "learning_rate": 6.131295012148612e-08,
+      "logits/chosen": -4.499785423278809,
+      "logits/rejected": -4.621634006500244,
+      "logps/chosen": -251.9990692138672,
+      "logps/rejected": -240.3909149169922,
+      "loss": 0.1634,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": 4.446890830993652,
+      "rewards/margins": 7.0593156814575195,
+      "rewards/rejected": -2.6124250888824463,
       "step": 190
     },
     {
+      "epoch": 0.51,
+      "grad_norm": 622.6699519046258,
+      "learning_rate": 5.691433575823665e-08,
+      "logits/chosen": -4.48135232925415,
+      "logits/rejected": -4.617772102355957,
+      "logps/chosen": -243.34725952148438,
+      "logps/rejected": -220.18392944335938,
+      "loss": 0.1786,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": 4.395993709564209,
+      "rewards/margins": 6.814687252044678,
+      "rewards/rejected": -2.4186930656433105,
       "step": 200
     },
     {
+      "epoch": 0.51,
+      "eval_logits/chosen": -4.4697723388671875,
+      "eval_logits/rejected": -4.687928199768066,
+      "eval_logps/chosen": -389.2646179199219,
+      "eval_logps/rejected": -514.896484375,
+      "eval_loss": 2.016343355178833,
+      "eval_rewards/accuracies": 0.375,
+      "eval_rewards/chosen": 0.6049206256866455,
+      "eval_rewards/margins": -1.140692114830017,
+      "eval_rewards/rejected": 1.745612621307373,
+      "eval_runtime": 97.8297,
+      "eval_samples_per_second": 20.444,
+      "eval_steps_per_second": 0.327,
       "step": 200
     },
     {
+      "epoch": 0.54,
+      "grad_norm": 473.28271440178054,
+      "learning_rate": 5.2460367774593905e-08,
+      "logits/chosen": -4.541897773742676,
+      "logits/rejected": -4.740262031555176,
+      "logps/chosen": -255.6215362548828,
+      "logps/rejected": -234.78518676757812,
+      "loss": 0.1232,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": 5.131775856018066,
+      "rewards/margins": 8.201360702514648,
+      "rewards/rejected": -3.069584846496582,
       "step": 210
     },
     {
+      "epoch": 0.56,
+      "grad_norm": 670.7484200931372,
+      "learning_rate": 4.798670299452925e-08,
+      "logits/chosen": -4.39837646484375,
+      "logits/rejected": -4.688643455505371,
+      "logps/chosen": -253.91787719726562,
+      "logps/rejected": -231.707275390625,
+      "loss": 0.1672,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": 4.446724891662598,
+      "rewards/margins": 7.963796138763428,
+      "rewards/rejected": -3.517070770263672,
       "step": 220
     },
     {
+      "epoch": 0.59,
+      "grad_norm": 763.2480410824999,
+      "learning_rate": 4.3529155927297226e-08,
+      "logits/chosen": -4.47940731048584,
+      "logits/rejected": -4.748034954071045,
+      "logps/chosen": -252.20700073242188,
+      "logps/rejected": -230.70425415039062,
+      "loss": 0.1691,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 4.38104248046875,
+      "rewards/margins": 7.8776116371154785,
+      "rewards/rejected": -3.4965691566467285,
       "step": 230
     },
     {
+      "epoch": 0.61,
+      "grad_norm": 547.6628902362396,
+      "learning_rate": 3.9123412049691636e-08,
+      "logits/chosen": -4.450512886047363,
+      "logits/rejected": -4.651386260986328,
+      "logps/chosen": -263.7304382324219,
+      "logps/rejected": -227.78604125976562,
+      "loss": 0.1511,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 4.546363353729248,
+      "rewards/margins": 7.972568511962891,
+      "rewards/rejected": -3.4262046813964844,
       "step": 240
     },
     {
+      "epoch": 0.64,
+      "grad_norm": 706.6026662780071,
+      "learning_rate": 3.480474212128766e-08,
+      "logits/chosen": -4.571944236755371,
+      "logits/rejected": -4.786678791046143,
+      "logps/chosen": -240.4440155029297,
+      "logps/rejected": -212.46694946289062,
+      "loss": 0.1403,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 4.128727912902832,
+      "rewards/margins": 6.557607173919678,
+      "rewards/rejected": -2.428879976272583,
       "step": 250
     },
     {
+      "epoch": 0.66,
+      "grad_norm": 957.1848027668926,
+      "learning_rate": 3.060771981975726e-08,
+      "logits/chosen": -4.445496082305908,
+      "logits/rejected": -4.674472808837891,
+      "logps/chosen": -244.96701049804688,
+      "logps/rejected": -227.3423614501953,
+      "loss": 0.1506,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": 4.540780067443848,
+      "rewards/margins": 8.337722778320312,
+      "rewards/rejected": -3.7969424724578857,
       "step": 260
     },
     {
+      "epoch": 0.69,
+      "grad_norm": 1053.6903730937584,
+      "learning_rate": 2.6565944956764818e-08,
+      "logits/chosen": -4.53262996673584,
+      "logits/rejected": -4.71115255355835,
+      "logps/chosen": -252.1263427734375,
+      "logps/rejected": -221.7955322265625,
+      "loss": 0.1551,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 4.453462600708008,
+      "rewards/margins": 7.838715553283691,
+      "rewards/rejected": -3.385251998901367,
       "step": 270
     },
     {
+      "epoch": 0.72,
+      "grad_norm": 661.3688193511013,
+      "learning_rate": 2.2711774490274766e-08,
+      "logits/chosen": -4.489356994628906,
+      "logits/rejected": -4.654987812042236,
+      "logps/chosen": -254.680908203125,
+      "logps/rejected": -248.8947296142578,
+      "loss": 0.1253,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 4.912972450256348,
+      "rewards/margins": 7.8906402587890625,
+      "rewards/rejected": -2.9776668548583984,
       "step": 280
     },
     {
+      "epoch": 0.74,
+      "grad_norm": 1908.0202284500367,
+      "learning_rate": 1.9076063486687256e-08,
+      "logits/chosen": -4.361441135406494,
+      "logits/rejected": -4.647955417633057,
+      "logps/chosen": -262.6406555175781,
+      "logps/rejected": -221.6370086669922,
+      "loss": 0.1481,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": 4.983874320983887,
+      "rewards/margins": 7.9876885414123535,
+      "rewards/rejected": -3.0038130283355713,
       "step": 290
     },
     {
+      "epoch": 0.77,
+      "grad_norm": 734.7948711655655,
+      "learning_rate": 1.5687918106563324e-08,
+      "logits/chosen": -4.47251033782959,
+      "logits/rejected": -4.634402275085449,
+      "logps/chosen": -243.4433135986328,
+      "logps/rejected": -222.4509735107422,
+      "loss": 0.1648,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": 4.982421398162842,
+      "rewards/margins": 8.225171089172363,
+      "rewards/rejected": -3.2427496910095215,
       "step": 300
     },
     {
+      "epoch": 0.77,
+      "eval_logits/chosen": -4.4838151931762695,
+      "eval_logits/rejected": -4.69987678527832,
+      "eval_logps/chosen": -390.0736999511719,
+      "eval_logps/rejected": -516.0419921875,
+      "eval_loss": 1.9448436498641968,
+      "eval_rewards/accuracies": 0.3984375,
+      "eval_rewards/chosen": 0.2003953605890274,
+      "eval_rewards/margins": -0.972442626953125,
+      "eval_rewards/rejected": 1.1728378534317017,
+      "eval_runtime": 97.9077,
+      "eval_samples_per_second": 20.427,
+      "eval_steps_per_second": 0.327,
       "step": 300
     },
     {
+      "epoch": 0.79,
+      "grad_norm": 701.7075104371141,
+      "learning_rate": 1.257446259144494e-08,
+      "logits/chosen": -4.397843360900879,
+      "logits/rejected": -4.662208557128906,
+      "logps/chosen": -251.11611938476562,
+      "logps/rejected": -229.4883270263672,
+      "loss": 0.1577,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": 5.011745929718018,
+      "rewards/margins": 8.656941413879395,
+      "rewards/rejected": -3.6451950073242188,
       "step": 310
     },
     {
+      "epoch": 0.82,
+      "grad_norm": 1065.7098800029996,
+      "learning_rate": 9.760622117187234e-09,
+      "logits/chosen": -4.4547929763793945,
+      "logits/rejected": -4.7404327392578125,
+      "logps/chosen": -235.986083984375,
+      "logps/rejected": -213.1405029296875,
+      "loss": 0.1434,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": 4.589102745056152,
+      "rewards/margins": 7.9336113929748535,
+      "rewards/rejected": -3.344507932662964,
       "step": 320
     },
     {
+      "epoch": 0.84,
+      "grad_norm": 766.1086061468453,
+      "learning_rate": 7.2689232521989885e-09,
+      "logits/chosen": -4.407891750335693,
+      "logits/rejected": -4.665772914886475,
+      "logps/chosen": -258.3376159667969,
+      "logps/rejected": -240.0522003173828,
+      "loss": 0.1405,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 4.90563440322876,
+      "rewards/margins": 8.58189868927002,
+      "rewards/rejected": -3.6762642860412598,
       "step": 330
     },
     {
+      "epoch": 0.87,
+      "grad_norm": 626.4348398301977,
+      "learning_rate": 5.119313618049309e-09,
+      "logits/chosen": -4.429708003997803,
+      "logits/rejected": -4.715014457702637,
+      "logps/chosen": -263.54986572265625,
+      "logps/rejected": -213.69723510742188,
+      "loss": 0.1494,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 5.298083305358887,
+      "rewards/margins": 8.755678176879883,
+      "rewards/rejected": -3.457595109939575,
       "step": 340
     },
     {
+      "epoch": 0.9,
+      "grad_norm": 564.1193509438065,
+      "learning_rate": 3.3290021961708158e-09,
+      "logits/chosen": -4.445944309234619,
+      "logits/rejected": -4.576190948486328,
+      "logps/chosen": -247.17697143554688,
+      "logps/rejected": -233.48477172851562,
+      "loss": 0.1576,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": 4.14711332321167,
+      "rewards/margins": 7.0045037269592285,
+      "rewards/rejected": -2.8573899269104004,
       "step": 350
     },
     {
+      "epoch": 0.92,
+      "grad_norm": 651.5911217726903,
+      "learning_rate": 1.9123215591052013e-09,
+      "logits/chosen": -4.436100482940674,
+      "logits/rejected": -4.62412166595459,
+      "logps/chosen": -253.4558563232422,
+      "logps/rejected": -233.94869995117188,
+      "loss": 0.1582,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 4.089536190032959,
+      "rewards/margins": 7.332627296447754,
+      "rewards/rejected": -3.243091583251953,
       "step": 360
     },
     {
+      "epoch": 0.95,
+      "grad_norm": 610.6809759122384,
+      "learning_rate": 8.806131292167618e-10,
+      "logits/chosen": -4.4610724449157715,
+      "logits/rejected": -4.592678070068359,
+      "logps/chosen": -247.8229217529297,
+      "logps/rejected": -242.95114135742188,
+      "loss": 0.1649,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": 4.499147415161133,
+      "rewards/margins": 7.5511980056762695,
+      "rewards/rejected": -3.052050828933716,
       "step": 370
     },
     {
+      "epoch": 0.97,
+      "grad_norm": 661.3141861471707,
+      "learning_rate": 2.4213638345040867e-10,
+      "logits/chosen": -4.557965278625488,
+      "logits/rejected": -4.776811122894287,
+      "logps/chosen": -252.97561645507812,
+      "logps/rejected": -227.4269561767578,
+      "loss": 0.1552,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": 4.553546905517578,
+      "rewards/margins": 8.004728317260742,
+      "rewards/rejected": -3.4511806964874268,
       "step": 380
     },
     {
+      "epoch": 1.0,
+      "grad_norm": 1178.6266155115975,
+      "learning_rate": 2.0027310073833516e-12,
+      "logits/chosen": -4.544768810272217,
+      "logits/rejected": -4.75381326675415,
+      "logps/chosen": -250.1166534423828,
+      "logps/rejected": -226.92916870117188,
+      "loss": 0.1545,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": 4.777965068817139,
+      "rewards/margins": 7.9850053787231445,
+      "rewards/rejected": -3.2070395946502686,
       "step": 390
     },
     {
+      "epoch": 1.0,
+      "step": 391,
       "total_flos": 0.0,
+      "train_loss": 0.20245660769055263,
+      "train_runtime": 6146.5091,
+      "train_samples_per_second": 8.135,
+      "train_steps_per_second": 0.064
     }
   ],
   "logging_steps": 10,
+  "max_steps": 391,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
   "total_flos": 0.0,
   "train_batch_size": 8,
   "trial_name": null,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aab4573f211e1825da610c91d86ed7a8bc0cfa8f8bba8dbb6800dc69b7080723
-size 6328

 version https://git-lfs.github.com/spec/v1
+oid sha256:b64dfab1ce040e27997d2752ad0f6bcc64c589d63538334728b2c1dabfd13511
+size 6264