Model save

Browse files

Files changed (8) hide show

README.md +22 -21
adapter_model.safetensors +1 -1
all_results.json +17 -17
eval_results.json +13 -13
runs/Mar01_10-22-14_gpu4-119-4/events.out.tfevents.1709249008.gpu4-119-4.1841365.0 +2 -2
runs/Mar01_10-22-14_gpu4-119-4/events.out.tfevents.1709257307.gpu4-119-4.1841365.1 +3 -0
train_results.json +5 -5
trainer_state.json +830 -78

README.md CHANGED Viewed

@@ -2,13 +2,9 @@
 license: mit
 library_name: peft
 tags:
-- alignment-handbook
-- generated_from_trainer
 - trl
 - dpo
 - generated_from_trainer
-datasets:
-- HuggingFaceH4/ultrafeedback_binarized
 base_model: microsoft/phi-2
 model-index:
 - name: phi-2-dpo-ultrachat-lora
@@ -20,17 +16,17 @@ should probably proofread and complete it, then remove this comment. -->
 # phi-2-dpo-ultrachat-lora
-This model is a fine-tuned version of [lole25/phi-2-sft-ultrachat-lora](https://huggingface.co/lole25/phi-2-sft-ultrachat-lora) on the HuggingFaceH4/ultrafeedback_binarized dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6912
-- Rewards/chosen: -0.0072
-- Rewards/rejected: -0.0111
-- Rewards/accuracies: 0.3180
-- Rewards/margins: 0.0040
-- Logps/rejected: -95.3090
-- Logps/chosen: -92.4438
-- Logits/rejected: 0.8021
-- Logits/chosen: 0.7828
 ## Model description
@@ -61,16 +57,21 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 1
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
-|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.693         | 0.21  | 100  | 0.6931          | -0.0005        | -0.0008          | 0.2680             | 0.0004          | -94.2804       | -91.7748     | 0.8176          | 0.7998        |
-| 0.6922        | 0.42  | 200  | 0.6924          | -0.0018        | -0.0032          | 0.3020             | 0.0014          | -94.5141       | -91.9068     | 0.8121          | 0.7941        |
-| 0.6917        | 0.63  | 300  | 0.6917          | -0.0049        | -0.0077          | 0.3100             | 0.0028          | -94.9659       | -92.2189     | 0.8057          | 0.7870        |
-| 0.6905        | 0.84  | 400  | 0.6913          | -0.0070        | -0.0105          | 0.3280             | 0.0036          | -95.2509       | -92.4247     | 0.8012          | 0.7827        |
 ### Framework versions

 license: mit
 library_name: peft
 tags:
 - trl
 - dpo
 - generated_from_trainer
 base_model: microsoft/phi-2
 model-index:
 - name: phi-2-dpo-ultrachat-lora
 # phi-2-dpo-ultrachat-lora
+This model is a fine-tuned version of [microsoft/phi-2](https://huggingface.co/microsoft/phi-2) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6872
+- Rewards/chosen: -0.0312
+- Rewards/rejected: -0.0436
+- Rewards/accuracies: 0.3340
+- Rewards/margins: 0.0124
+- Logps/rejected: -98.5542
+- Logps/chosen: -94.8435
+- Logits/rejected: 0.7532
+- Logits/chosen: 0.7326
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 2
 ### Training results
+| Training Loss | Epoch | Step | Logits/chosen | Logits/rejected | Logps/chosen | Logps/rejected | Validation Loss | Rewards/accuracies | Rewards/chosen | Rewards/margins | Rewards/rejected |
+|:-------------:|:-----:|:----:|:-------------:|:---------------:|:------------:|:--------------:|:---------------:|:------------------:|:--------------:|:---------------:|:----------------:|
+| 0.693         | 0.21  | 100  | 0.7998        | 0.8176          | -91.7748     | -94.2804       | 0.6931          | 0.2680             | -0.0005        | 0.0004          | -0.0008          |
+| 0.6922        | 0.42  | 200  | 0.7941        | 0.8121          | -91.9068     | -94.5141       | 0.6924          | 0.3020             | -0.0018        | 0.0014          | -0.0032          |
+| 0.6917        | 0.63  | 300  | 0.7870        | 0.8057          | -92.2189     | -94.9659       | 0.6917          | 0.3100             | -0.0049        | 0.0028          | -0.0077          |
+| 0.6905        | 0.84  | 400  | 0.7827        | 0.8012          | -92.4247     | -95.2509       | 0.6913          | 0.3280             | -0.0070        | 0.0036          | -0.0105          |
+| 0.6898        | 1.05  | 500  | 0.6900        | -0.0142         | -0.0205      | 0.3360         | 0.0064          | -96.2490           | -93.1429       | 0.7903          | 0.7711           |
+| 0.6882        | 1.26  | 600  | 0.6887        | -0.0217         | -0.0306      | 0.3340         | 0.0089          | -97.2594           | -93.8981       | 0.7722          | 0.7527           |
+| 0.6858        | 1.47  | 700  | 0.6879        | -0.0274         | -0.0383      | 0.3280         | 0.0108          | -98.0249           | -94.4717       | 0.7600          | 0.7395           |
+| 0.6857        | 1.67  | 800  | 0.6874        | -0.0303         | -0.0423      | 0.3340         | 0.0120          | -98.4270           | -94.7618       | 0.7548          | 0.7341           |
+| 0.6866        | 1.88  | 900  | 0.6872        | -0.0313         | -0.0437      | 0.3420         | 0.0124          | -98.5655           | -94.8550       | 0.7528          | 0.7321           |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2fa1266189ba9f031fe9920131fb977dc48c5ca5c6db3dad77ed60ef0e45d05b
 size 41977616

 version https://git-lfs.github.com/spec/v1
+oid sha256:03a564973f08ad1b996adb14089e1d24c9d0ffd3e6da6652e793b9c19210b312
 size 41977616

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
-    "epoch": 1.0,
-    "eval_logits/chosen": 0.7827913761138916,
-    "eval_logits/rejected": 0.8020623326301575,
-    "eval_logps/chosen": -92.44380187988281,
-    "eval_logps/rejected": -95.30902099609375,
-    "eval_loss": 0.6912217736244202,
-    "eval_rewards/accuracies": 0.3179999887943268,
-    "eval_rewards/chosen": -0.00716440798714757,
-    "eval_rewards/margins": 0.00395576748996973,
-    "eval_rewards/rejected": -0.011120175942778587,
-    "eval_runtime": 273.2522,
     "eval_samples": 2000,
-    "eval_samples_per_second": 7.319,
-    "eval_steps_per_second": 0.457,
-    "train_loss": 0.6920521804121805,
-    "train_runtime": 6813.2628,
     "train_samples": 30567,
-    "train_samples_per_second": 4.486,
-    "train_steps_per_second": 0.07
 }

 {
+    "epoch": 2.0,
+    "eval_logits/chosen": 0.7325530052185059,
+    "eval_logits/rejected": 0.7531598806381226,
+    "eval_logps/chosen": -94.8434829711914,
+    "eval_logps/rejected": -98.55415344238281,
+    "eval_loss": 0.687246561050415,
+    "eval_rewards/accuracies": 0.33399999141693115,
+    "eval_rewards/chosen": -0.03116113506257534,
+    "eval_rewards/margins": 0.012410260736942291,
+    "eval_rewards/rejected": -0.04357139766216278,
+    "eval_runtime": 272.5724,
     "eval_samples": 2000,
+    "eval_samples_per_second": 7.337,
+    "eval_steps_per_second": 0.459,
+    "train_loss": 0.3994182998029441,
+    "train_runtime": 8026.3391,
     "train_samples": 30567,
+    "train_samples_per_second": 7.617,
+    "train_steps_per_second": 0.119
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 1.0,
-    "eval_logits/chosen": 0.7827913761138916,
-    "eval_logits/rejected": 0.8020623326301575,
-    "eval_logps/chosen": -92.44380187988281,
-    "eval_logps/rejected": -95.30902099609375,
-    "eval_loss": 0.6912217736244202,
-    "eval_rewards/accuracies": 0.3179999887943268,
-    "eval_rewards/chosen": -0.00716440798714757,
-    "eval_rewards/margins": 0.00395576748996973,
-    "eval_rewards/rejected": -0.011120175942778587,
-    "eval_runtime": 273.2522,
     "eval_samples": 2000,
-    "eval_samples_per_second": 7.319,
-    "eval_steps_per_second": 0.457
 }

 {
+    "epoch": 2.0,
+    "eval_logits/chosen": 0.7325530052185059,
+    "eval_logits/rejected": 0.7531598806381226,
+    "eval_logps/chosen": -94.8434829711914,
+    "eval_logps/rejected": -98.55415344238281,
+    "eval_loss": 0.687246561050415,
+    "eval_rewards/accuracies": 0.33399999141693115,
+    "eval_rewards/chosen": -0.03116113506257534,
+    "eval_rewards/margins": 0.012410260736942291,
+    "eval_rewards/rejected": -0.04357139766216278,
+    "eval_runtime": 272.5724,
     "eval_samples": 2000,
+    "eval_samples_per_second": 7.337,
+    "eval_steps_per_second": 0.459
 }

runs/Mar01_10-22-14_gpu4-119-4/events.out.tfevents.1709249008.gpu4-119-4.1841365.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f82f02aa55fcc970e5d579ac9bdb2e52d9bb9e91dd1ec8ccf21d6bee8280044e
-size 40230

 version https://git-lfs.github.com/spec/v1
+oid sha256:53fa2c7156918af2e86794d36bc57146c6256b04f9f11982581c5d9d612686d6
+size 43754

runs/Mar01_10-22-14_gpu4-119-4/events.out.tfevents.1709257307.gpu4-119-4.1841365.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5fe03d74aa04b2919e7ad4d520740505dc619f70188a5eca953e98fc156aaf23
+size 828

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "train_loss": 0.6920521804121805,
-    "train_runtime": 6813.2628,
     "train_samples": 30567,
-    "train_samples_per_second": 4.486,
-    "train_steps_per_second": 0.07
 }

 {
+    "epoch": 2.0,
+    "train_loss": 0.3994182998029441,
+    "train_runtime": 8026.3391,
     "train_samples": 30567,
+    "train_samples_per_second": 7.617,
+    "train_steps_per_second": 0.119
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9984301412872841,
   "eval_steps": 100,
-  "global_step": 477,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -648,116 +648,868 @@
     },
     {
       "epoch": 0.86,
-      "learning_rate": 2.9492720416985004e-07,
-      "logits/chosen": 0.8186850547790527,
-      "logits/rejected": 0.8151271939277649,
-      "logps/chosen": -95.82102966308594,
-      "logps/rejected": -80.586669921875,
       "loss": 0.6916,
-      "rewards/accuracies": 0.3375000059604645,
-      "rewards/chosen": -0.00794359389692545,
-      "rewards/margins": 0.003056485904380679,
-      "rewards/rejected": -0.011000080034136772,
       "step": 410
     },
     {
       "epoch": 0.88,
-      "learning_rate": 2.1464952759020857e-07,
-      "logits/chosen": 0.7571959495544434,
-      "logits/rejected": 0.8163139224052429,
-      "logps/chosen": -95.65677642822266,
-      "logps/rejected": -97.86299896240234,
-      "loss": 0.6915,
-      "rewards/accuracies": 0.3125,
-      "rewards/chosen": -0.00859010498970747,
-      "rewards/margins": 0.0028384437318891287,
-      "rewards/rejected": -0.011428548023104668,
       "step": 420
     },
     {
       "epoch": 0.9,
-      "learning_rate": 1.4662207078575685e-07,
-      "logits/chosen": 0.8645572662353516,
-      "logits/rejected": 0.887597918510437,
-      "logps/chosen": -83.41182708740234,
-      "logps/rejected": -90.17640686035156,
-      "loss": 0.6913,
-      "rewards/accuracies": 0.39375001192092896,
-      "rewards/chosen": -0.006618577986955643,
-      "rewards/margins": 0.004637080244719982,
-      "rewards/rejected": -0.011255658231675625,
       "step": 430
     },
     {
       "epoch": 0.92,
-      "learning_rate": 9.120948298936422e-08,
-      "logits/chosen": 0.7825466394424438,
-      "logits/rejected": 0.8328782916069031,
-      "logps/chosen": -109.79942321777344,
-      "logps/rejected": -82.07637023925781,
-      "loss": 0.6911,
-      "rewards/accuracies": 0.34375,
-      "rewards/chosen": -0.005336672533303499,
-      "rewards/margins": 0.005987245589494705,
-      "rewards/rejected": -0.011323917657136917,
       "step": 440
     },
     {
       "epoch": 0.94,
-      "learning_rate": 4.870879364444109e-08,
-      "logits/chosen": 0.774901270866394,
-      "logits/rejected": 0.8499285578727722,
-      "logps/chosen": -81.24304962158203,
-      "logps/rejected": -71.88755798339844,
-      "loss": 0.6911,
-      "rewards/accuracies": 0.29374998807907104,
-      "rewards/chosen": -0.005921828560531139,
-      "rewards/margins": 0.0035197760444134474,
-      "rewards/rejected": -0.00944160483777523,
       "step": 450
     },
     {
       "epoch": 0.96,
-      "learning_rate": 1.93478202307823e-08,
-      "logits/chosen": 0.8049672842025757,
-      "logits/rejected": 0.8570533990859985,
-      "logps/chosen": -105.7918930053711,
-      "logps/rejected": -87.53938293457031,
-      "loss": 0.6907,
-      "rewards/accuracies": 0.3187499940395355,
-      "rewards/chosen": -0.005085950251668692,
-      "rewards/margins": 0.0068057505413889885,
-      "rewards/rejected": -0.011891700327396393,
       "step": 460
     },
     {
       "epoch": 0.98,
-      "learning_rate": 3.283947088983663e-09,
-      "logits/chosen": 0.8561135530471802,
-      "logits/rejected": 0.8520036935806274,
-      "logps/chosen": -115.6650390625,
-      "logps/rejected": -110.88753509521484,
-      "loss": 0.6903,
-      "rewards/accuracies": 0.39375001192092896,
-      "rewards/chosen": -0.006030657794326544,
-      "rewards/margins": 0.00688832625746727,
-      "rewards/rejected": -0.012918984517455101,
       "step": 470
     },
     {
       "epoch": 1.0,
-      "step": 477,
       "total_flos": 0.0,
-      "train_loss": 0.6920521804121805,
-      "train_runtime": 6813.2628,
-      "train_samples_per_second": 4.486,
-      "train_steps_per_second": 0.07
     }
   ],
   "logging_steps": 10,
-  "max_steps": 477,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 100,
   "total_flos": 0.0,
   "train_batch_size": 4,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9968602825745683,
   "eval_steps": 100,
+  "global_step": 954,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     },
     {
       "epoch": 0.86,
+      "learning_rate": 3.5218566107988872e-06,
+      "logits/chosen": 0.8185564279556274,
+      "logits/rejected": 0.8151994943618774,
+      "logps/chosen": -95.8418960571289,
+      "logps/rejected": -80.64591979980469,
       "loss": 0.6916,
+      "rewards/accuracies": 0.33125001192092896,
+      "rewards/chosen": -0.008152286522090435,
+      "rewards/margins": 0.003440212458372116,
+      "rewards/rejected": -0.011592499911785126,
       "step": 410
     },
     {
       "epoch": 0.88,
+      "learning_rate": 3.437648009023905e-06,
+      "logits/chosen": 0.7549771070480347,
+      "logits/rejected": 0.8158624768257141,
+      "logps/chosen": -95.72089385986328,
+      "logps/rejected": -97.96694946289062,
+      "loss": 0.6914,
+      "rewards/accuracies": 0.34375,
+      "rewards/chosen": -0.00923125259578228,
+      "rewards/margins": 0.0032367813400924206,
+      "rewards/rejected": -0.012468034401535988,
       "step": 420
     },
     {
       "epoch": 0.9,
+      "learning_rate": 3.352182461642929e-06,
+      "logits/chosen": 0.862383246421814,
+      "logits/rejected": 0.8848444819450378,
+      "logps/chosen": -83.51128387451172,
+      "logps/rejected": -90.3624038696289,
+      "loss": 0.6909,
+      "rewards/accuracies": 0.41874998807907104,
+      "rewards/chosen": -0.0076131029054522514,
+      "rewards/margins": 0.005502562969923019,
+      "rewards/rejected": -0.013115664944052696,
       "step": 430
     },
     {
       "epoch": 0.92,
+      "learning_rate": 3.265574537815398e-06,
+      "logits/chosen": 0.7784366011619568,
+      "logits/rejected": 0.8296224474906921,
+      "logps/chosen": -109.9617919921875,
+      "logps/rejected": -82.34262084960938,
+      "loss": 0.6907,
+      "rewards/accuracies": 0.3499999940395355,
+      "rewards/chosen": -0.006960420869290829,
+      "rewards/margins": 0.007026113569736481,
+      "rewards/rejected": -0.013986535370349884,
       "step": 440
     },
     {
       "epoch": 0.94,
+      "learning_rate": 3.177940338091043e-06,
+      "logits/chosen": 0.769826352596283,
+      "logits/rejected": 0.8450337648391724,
+      "logps/chosen": -81.3624496459961,
+      "logps/rejected": -72.23616027832031,
+      "loss": 0.6903,
+      "rewards/accuracies": 0.30000001192092896,
+      "rewards/chosen": -0.00711588840931654,
+      "rewards/margins": 0.005811682902276516,
+      "rewards/rejected": -0.012927571311593056,
       "step": 450
     },
     {
       "epoch": 0.96,
+      "learning_rate": 3.089397338773569e-06,
+      "logits/chosen": 0.7976155877113342,
+      "logits/rejected": 0.8512013554573059,
+      "logps/chosen": -106.02879333496094,
+      "logps/rejected": -88.0615234375,
+      "loss": 0.6899,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": -0.007455066777765751,
+      "rewards/margins": 0.00965816993266344,
+      "rewards/rejected": -0.017113234847784042,
       "step": 460
     },
     {
       "epoch": 0.98,
+      "learning_rate": 3.0000642344401115e-06,
+      "logits/chosen": 0.8498729467391968,
+      "logits/rejected": 0.8459364771842957,
+      "logps/chosen": -116.07499694824219,
+      "logps/rejected": -111.56224060058594,
+      "loss": 0.6892,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.010130222886800766,
+      "rewards/margins": 0.009535903111100197,
+      "rewards/rejected": -0.019666125997900963,
       "step": 470
     },
     {
       "epoch": 1.0,
+      "learning_rate": 2.9100607788275547e-06,
+      "logits/chosen": 0.8643083572387695,
+      "logits/rejected": 0.8725606799125671,
+      "logps/chosen": -76.1094741821289,
+      "logps/rejected": -66.09565734863281,
+      "loss": 0.6903,
+      "rewards/accuracies": 0.26875001192092896,
+      "rewards/chosen": -0.010615186765789986,
+      "rewards/margins": 0.004579311236739159,
+      "rewards/rejected": -0.015194499865174294,
+      "step": 480
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 2.8195076242990124e-06,
+      "logits/chosen": 0.8051859736442566,
+      "logits/rejected": 0.8318646550178528,
+      "logps/chosen": -93.38316345214844,
+      "logps/rejected": -100.01469421386719,
+      "loss": 0.6903,
+      "rewards/accuracies": 0.35624998807907104,
+      "rewards/chosen": -0.014997744932770729,
+      "rewards/margins": 0.004119081888347864,
+      "rewards/rejected": -0.019116824492812157,
+      "step": 490
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 2.72852616010567e-06,
+      "logits/chosen": 0.8241451978683472,
+      "logits/rejected": 0.8089090585708618,
+      "logps/chosen": -102.48905181884766,
+      "logps/rejected": -102.73881530761719,
+      "loss": 0.6898,
+      "rewards/accuracies": 0.39375001192092896,
+      "rewards/chosen": -0.013014930300414562,
+      "rewards/margins": 0.011042198166251183,
+      "rewards/rejected": -0.02405713126063347,
+      "step": 500
+    },
+    {
+      "epoch": 1.05,
+      "eval_logits/chosen": 0.7711244225502014,
+      "eval_logits/rejected": 0.7902986407279968,
+      "eval_logps/chosen": -93.14293670654297,
+      "eval_logps/rejected": -96.24901580810547,
+      "eval_loss": 0.6899796724319458,
+      "eval_rewards/accuracies": 0.335999995470047,
+      "eval_rewards/chosen": -0.014155692420899868,
+      "eval_rewards/margins": 0.006364365108311176,
+      "eval_rewards/rejected": -0.020520057529211044,
+      "eval_runtime": 272.796,
+      "eval_samples_per_second": 7.331,
+      "eval_steps_per_second": 0.458,
+      "step": 500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 2.637238349660819e-06,
+      "logits/chosen": 0.8259177207946777,
+      "logits/rejected": 0.8255017995834351,
+      "logps/chosen": -92.70307159423828,
+      "logps/rejected": -90.75215148925781,
+      "loss": 0.6893,
+      "rewards/accuracies": 0.35624998807907104,
+      "rewards/chosen": -0.016096794977784157,
+      "rewards/margins": 0.006517867557704449,
+      "rewards/rejected": -0.02261466160416603,
+      "step": 510
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 2.5457665670441937e-06,
+      "logits/chosen": 0.8241807222366333,
+      "logits/rejected": 0.8674284219741821,
+      "logps/chosen": -103.48587799072266,
+      "logps/rejected": -95.00794219970703,
+      "loss": 0.6887,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.012511089444160461,
+      "rewards/margins": 0.011780844070017338,
+      "rewards/rejected": -0.024291934445500374,
+      "step": 520
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 2.4542334329558075e-06,
+      "logits/chosen": 0.8090038299560547,
+      "logits/rejected": 0.8909789323806763,
+      "logps/chosen": -108.34500885009766,
+      "logps/rejected": -90.74520111083984,
+      "loss": 0.6897,
+      "rewards/accuracies": 0.38749998807907104,
+      "rewards/chosen": -0.013912905938923359,
+      "rewards/margins": 0.01008325070142746,
+      "rewards/rejected": -0.023996157571673393,
+      "step": 530
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 2.3627616503391813e-06,
+      "logits/chosen": 0.7575622797012329,
+      "logits/rejected": 0.7894734144210815,
+      "logps/chosen": -103.4853515625,
+      "logps/rejected": -89.14204406738281,
+      "loss": 0.6886,
+      "rewards/accuracies": 0.36250001192092896,
+      "rewards/chosen": -0.01601695641875267,
+      "rewards/margins": 0.009688997641205788,
+      "rewards/rejected": -0.025705954059958458,
+      "step": 540
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 2.271473839894331e-06,
+      "logits/chosen": 0.7494063377380371,
+      "logits/rejected": 0.7767230272293091,
+      "logps/chosen": -93.18793487548828,
+      "logps/rejected": -85.53865814208984,
+      "loss": 0.689,
+      "rewards/accuracies": 0.34375,
+      "rewards/chosen": -0.015046611428260803,
+      "rewards/margins": 0.009437174536287785,
+      "rewards/rejected": -0.024483786895871162,
+      "step": 550
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 2.1804923757009885e-06,
+      "logits/chosen": 0.7773897051811218,
+      "logits/rejected": 0.8226049542427063,
+      "logps/chosen": -118.14359283447266,
+      "logps/rejected": -118.2892837524414,
+      "loss": 0.6883,
+      "rewards/accuracies": 0.39375001192092896,
+      "rewards/chosen": -0.01944814994931221,
+      "rewards/margins": 0.012502019293606281,
+      "rewards/rejected": -0.03195016831159592,
+      "step": 560
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 2.089939221172446e-06,
+      "logits/chosen": 0.7639147639274597,
+      "logits/rejected": 0.8038470149040222,
+      "logps/chosen": -96.55006408691406,
+      "logps/rejected": -94.61703491210938,
+      "loss": 0.6893,
+      "rewards/accuracies": 0.36250001192092896,
+      "rewards/chosen": -0.01976608671247959,
+      "rewards/margins": 0.01228870265185833,
+      "rewards/rejected": -0.03205478936433792,
+      "step": 570
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1.9999357655598894e-06,
+      "logits/chosen": 0.799372673034668,
+      "logits/rejected": 0.7758508920669556,
+      "logps/chosen": -107.0300521850586,
+      "logps/rejected": -101.98541259765625,
+      "loss": 0.6898,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": -0.023156706243753433,
+      "rewards/margins": 0.0033106685150414705,
+      "rewards/rejected": -0.026467373594641685,
+      "step": 580
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 1.9106026612264316e-06,
+      "logits/chosen": 0.8342978358268738,
+      "logits/rejected": 0.818748950958252,
+      "logps/chosen": -82.849609375,
+      "logps/rejected": -82.92151641845703,
+      "loss": 0.6875,
+      "rewards/accuracies": 0.34375,
+      "rewards/chosen": -0.021987412124872208,
+      "rewards/margins": 0.00925590842962265,
+      "rewards/rejected": -0.03124331869184971,
+      "step": 590
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 1.8220596619089576e-06,
+      "logits/chosen": 0.7792515158653259,
+      "logits/rejected": 0.7631284594535828,
+      "logps/chosen": -108.453369140625,
+      "logps/rejected": -109.84110260009766,
+      "loss": 0.6882,
+      "rewards/accuracies": 0.3812499940395355,
+      "rewards/chosen": -0.024591121822595596,
+      "rewards/margins": 0.010857349261641502,
+      "rewards/rejected": -0.03544846922159195,
+      "step": 600
+    },
+    {
+      "epoch": 1.26,
+      "eval_logits/chosen": 0.7526758909225464,
+      "eval_logits/rejected": 0.7722000479698181,
+      "eval_logps/chosen": -93.8980941772461,
+      "eval_logps/rejected": -97.25941467285156,
+      "eval_loss": 0.6886565089225769,
+      "eval_rewards/accuracies": 0.33399999141693115,
+      "eval_rewards/chosen": -0.02170729637145996,
+      "eval_rewards/margins": 0.008916829712688923,
+      "eval_rewards/rejected": -0.03062412701547146,
+      "eval_runtime": 272.575,
+      "eval_samples_per_second": 7.337,
+      "eval_steps_per_second": 0.459,
+      "step": 600
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 1.7344254621846018e-06,
+      "logits/chosen": 0.7705439329147339,
+      "logits/rejected": 0.7898679375648499,
+      "logps/chosen": -114.97818756103516,
+      "logps/rejected": -105.07425689697266,
+      "loss": 0.6871,
+      "rewards/accuracies": 0.35624998807907104,
+      "rewards/chosen": -0.020355116575956345,
+      "rewards/margins": 0.01100640743970871,
+      "rewards/rejected": -0.031361524015665054,
+      "step": 610
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 1.647817538357072e-06,
+      "logits/chosen": 0.8015000224113464,
+      "logits/rejected": 0.8592731356620789,
+      "logps/chosen": -105.63825988769531,
+      "logps/rejected": -101.30821228027344,
+      "loss": 0.6877,
+      "rewards/accuracies": 0.38749998807907104,
+      "rewards/chosen": -0.025122905150055885,
+      "rewards/margins": 0.012796345166862011,
+      "rewards/rejected": -0.03791924566030502,
+      "step": 620
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 1.5623519909760953e-06,
+      "logits/chosen": 0.72571861743927,
+      "logits/rejected": 0.7672609090805054,
+      "logps/chosen": -95.39134216308594,
+      "logps/rejected": -91.43064880371094,
+      "loss": 0.6875,
+      "rewards/accuracies": 0.3125,
+      "rewards/chosen": -0.023522889241576195,
+      "rewards/margins": 0.008042030036449432,
+      "rewards/rejected": -0.031564921140670776,
+      "step": 630
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.4781433892011132e-06,
+      "logits/chosen": 0.7983066439628601,
+      "logits/rejected": 0.828285813331604,
+      "logps/chosen": -91.58604431152344,
+      "logps/rejected": -98.34529876708984,
+      "loss": 0.6877,
+      "rewards/accuracies": 0.3375000059604645,
+      "rewards/chosen": -0.02216607704758644,
+      "rewards/margins": 0.009402362629771233,
+      "rewards/rejected": -0.03156844526529312,
+      "step": 640
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 1.3953046172178413e-06,
+      "logits/chosen": 0.8052563667297363,
+      "logits/rejected": 0.861487090587616,
+      "logps/chosen": -102.22875213623047,
+      "logps/rejected": -115.90311431884766,
+      "loss": 0.688,
+      "rewards/accuracies": 0.39375001192092896,
+      "rewards/chosen": -0.02779082953929901,
+      "rewards/margins": 0.011276346631348133,
+      "rewards/rejected": -0.03906718268990517,
+      "step": 650
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.3139467229135999e-06,
+      "logits/chosen": 0.7473502159118652,
+      "logits/rejected": 0.7619670629501343,
+      "logps/chosen": -81.72496032714844,
+      "logps/rejected": -88.32991027832031,
+      "loss": 0.6867,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": -0.023514125496149063,
+      "rewards/margins": 0.01081976480782032,
+      "rewards/rejected": -0.034333888441324234,
+      "step": 660
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.2341787690142436e-06,
+      "logits/chosen": 0.677151083946228,
+      "logits/rejected": 0.7038652300834656,
+      "logps/chosen": -116.34004211425781,
+      "logps/rejected": -98.69480895996094,
+      "loss": 0.6883,
+      "rewards/accuracies": 0.3687500059604645,
+      "rewards/chosen": -0.024621013551950455,
+      "rewards/margins": 0.016095632687211037,
+      "rewards/rejected": -0.040716640651226044,
+      "step": 670
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 1.1561076868822756e-06,
+      "logits/chosen": 0.7057438492774963,
+      "logits/rejected": 0.734573483467102,
+      "logps/chosen": -77.70423889160156,
+      "logps/rejected": -83.44449615478516,
+      "loss": 0.6875,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": -0.029654154554009438,
+      "rewards/margins": 0.00593325262889266,
+      "rewards/rejected": -0.035587407648563385,
+      "step": 680
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 1.079838133172111e-06,
+      "logits/chosen": 0.7637497186660767,
+      "logits/rejected": 0.8190714716911316,
+      "logps/chosen": -95.7881088256836,
+      "logps/rejected": -82.04200744628906,
+      "loss": 0.6882,
+      "rewards/accuracies": 0.35624998807907104,
+      "rewards/chosen": -0.026545196771621704,
+      "rewards/margins": 0.014608954079449177,
+      "rewards/rejected": -0.041154149919748306,
+      "step": 690
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 1.0054723495346484e-06,
+      "logits/chosen": 0.8055804371833801,
+      "logits/rejected": 0.8074037432670593,
+      "logps/chosen": -106.52473449707031,
+      "logps/rejected": -99.84661865234375,
+      "loss": 0.6858,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.03077777661383152,
+      "rewards/margins": 0.016430744901299477,
+      "rewards/rejected": -0.0472085177898407,
+      "step": 700
+    },
+    {
+      "epoch": 1.47,
+      "eval_logits/chosen": 0.7395281791687012,
+      "eval_logits/rejected": 0.7599726319313049,
+      "eval_logps/chosen": -94.4716567993164,
+      "eval_logps/rejected": -98.02493286132812,
+      "eval_loss": 0.6878523826599121,
+      "eval_rewards/accuracies": 0.328000009059906,
+      "eval_rewards/chosen": -0.02744293212890625,
+      "eval_rewards/margins": 0.010836233384907246,
+      "eval_rewards/rejected": -0.03827916085720062,
+      "eval_runtime": 272.6941,
+      "eval_samples_per_second": 7.334,
+      "eval_steps_per_second": 0.458,
+      "step": 700
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 9.331100255592437e-07,
+      "logits/chosen": 0.7606201767921448,
+      "logits/rejected": 0.8386918306350708,
+      "logps/chosen": -89.20939636230469,
+      "logps/rejected": -82.81990814208984,
+      "loss": 0.6861,
+      "rewards/accuracies": 0.3062500059604645,
+      "rewards/chosen": -0.022489020600914955,
+      "rewards/margins": 0.012643699534237385,
+      "rewards/rejected": -0.03513271361589432,
+      "step": 710
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 8.628481651367876e-07,
+      "logits/chosen": 0.771535336971283,
+      "logits/rejected": 0.8548757433891296,
+      "logps/chosen": -113.86335754394531,
+      "logps/rejected": -101.86293029785156,
+      "loss": 0.6856,
+      "rewards/accuracies": 0.35624998807907104,
+      "rewards/chosen": -0.02375701069831848,
+      "rewards/margins": 0.01785343512892723,
+      "rewards/rejected": -0.041610442101955414,
+      "step": 720
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 7.947809564230446e-07,
+      "logits/chosen": 0.7982994914054871,
+      "logits/rejected": 0.8568431735038757,
+      "logps/chosen": -98.13008880615234,
+      "logps/rejected": -97.87364196777344,
+      "loss": 0.6874,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.03274186700582504,
+      "rewards/margins": 0.010785898193717003,
+      "rewards/rejected": -0.0435277596116066,
+      "step": 730
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 7.289996455765749e-07,
+      "logits/chosen": 0.7194357514381409,
+      "logits/rejected": 0.7669156789779663,
+      "logps/chosen": -88.61851501464844,
+      "logps/rejected": -82.62269592285156,
+      "loss": 0.6889,
+      "rewards/accuracies": 0.2562499940395355,
+      "rewards/chosen": -0.02295432984828949,
+      "rewards/margins": 0.008415495045483112,
+      "rewards/rejected": -0.03136982396245003,
+      "step": 740
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 6.655924144404907e-07,
+      "logits/chosen": 0.7268679141998291,
+      "logits/rejected": 0.7419520616531372,
+      "logps/chosen": -90.82257843017578,
+      "logps/rejected": -87.84976196289062,
+      "loss": 0.687,
+      "rewards/accuracies": 0.35624998807907104,
+      "rewards/chosen": -0.024226779118180275,
+      "rewards/margins": 0.014533626846969128,
+      "rewards/rejected": -0.03876040503382683,
+      "step": 750
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 6.046442623320145e-07,
+      "logits/chosen": 0.775734543800354,
+      "logits/rejected": 0.8094171285629272,
+      "logps/chosen": -111.5390853881836,
+      "logps/rejected": -107.2262954711914,
+      "loss": 0.6868,
+      "rewards/accuracies": 0.36250001192092896,
+      "rewards/chosen": -0.035627130419015884,
+      "rewards/margins": 0.011030396446585655,
+      "rewards/rejected": -0.04665752500295639,
+      "step": 760
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 5.462368920983249e-07,
+      "logits/chosen": 0.7696752548217773,
+      "logits/rejected": 0.7860345840454102,
+      "logps/chosen": -86.94595336914062,
+      "logps/rejected": -74.9552230834961,
+      "loss": 0.6867,
+      "rewards/accuracies": 0.3125,
+      "rewards/chosen": -0.02532133087515831,
+      "rewards/margins": 0.010699031874537468,
+      "rewards/rejected": -0.03602036461234093,
+      "step": 770
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 4.904486005914027e-07,
+      "logits/chosen": 0.7500615119934082,
+      "logits/rejected": 0.7661712765693665,
+      "logps/chosen": -119.89558410644531,
+      "logps/rejected": -111.26094055175781,
+      "loss": 0.6851,
+      "rewards/accuracies": 0.3812499940395355,
+      "rewards/chosen": -0.02393215522170067,
+      "rewards/margins": 0.01878645084798336,
+      "rewards/rejected": -0.04271860793232918,
+      "step": 780
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 4.373541737087264e-07,
+      "logits/chosen": 0.7226775288581848,
+      "logits/rejected": 0.7507297992706299,
+      "logps/chosen": -103.21110534667969,
+      "logps/rejected": -99.74224853515625,
+      "loss": 0.6876,
+      "rewards/accuracies": 0.29374998807907104,
+      "rewards/chosen": -0.028694171458482742,
+      "rewards/margins": 0.013696588575839996,
+      "rewards/rejected": -0.04239075630903244,
+      "step": 790
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 3.8702478614051353e-07,
+      "logits/chosen": 0.7573332786560059,
+      "logits/rejected": 0.7167325019836426,
+      "logps/chosen": -101.85111236572266,
+      "logps/rejected": -95.10759735107422,
+      "loss": 0.6857,
+      "rewards/accuracies": 0.4124999940395355,
+      "rewards/chosen": -0.02707928977906704,
+      "rewards/margins": 0.022238872945308685,
+      "rewards/rejected": -0.049318164587020874,
+      "step": 800
+    },
+    {
+      "epoch": 1.67,
+      "eval_logits/chosen": 0.7340908646583557,
+      "eval_logits/rejected": 0.7547872066497803,
+      "eval_logps/chosen": -94.76182556152344,
+      "eval_logps/rejected": -98.42695617675781,
+      "eval_loss": 0.687368631362915,
+      "eval_rewards/accuracies": 0.33399999141693115,
+      "eval_rewards/chosen": -0.030344627797603607,
+      "eval_rewards/margins": 0.011954776011407375,
+      "eval_rewards/rejected": -0.04229940101504326,
+      "eval_runtime": 272.7101,
+      "eval_samples_per_second": 7.334,
+      "eval_steps_per_second": 0.458,
+      "step": 800
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 3.3952790595787986e-07,
+      "logits/chosen": 0.8084260821342468,
+      "logits/rejected": 0.8206745982170105,
+      "logps/chosen": -118.43504333496094,
+      "logps/rejected": -105.46468353271484,
+      "loss": 0.6876,
+      "rewards/accuracies": 0.3187499940395355,
+      "rewards/chosen": -0.03346724063158035,
+      "rewards/margins": 0.010504155419766903,
+      "rewards/rejected": -0.04397139698266983,
+      "step": 810
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 2.9492720416985004e-07,
+      "logits/chosen": 0.6800391674041748,
+      "logits/rejected": 0.6965945363044739,
+      "logps/chosen": -96.83241271972656,
+      "logps/rejected": -101.45925903320312,
+      "loss": 0.6869,
+      "rewards/accuracies": 0.3499999940395355,
+      "rewards/chosen": -0.027126986533403397,
+      "rewards/margins": 0.01599222794175148,
+      "rewards/rejected": -0.04311921447515488,
+      "step": 820
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 2.5328246937043526e-07,
+      "logits/chosen": 0.7581857442855835,
+      "logits/rejected": 0.7956913113594055,
+      "logps/chosen": -98.04803466796875,
+      "logps/rejected": -102.8603515625,
+      "loss": 0.6858,
+      "rewards/accuracies": 0.38749998807907104,
+      "rewards/chosen": -0.034231387078762054,
+      "rewards/margins": 0.015285378322005272,
+      "rewards/rejected": -0.049516770988702774,
+      "step": 830
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 2.1464952759020857e-07,
+      "logits/chosen": 0.6740394830703735,
+      "logits/rejected": 0.7218228578567505,
+      "logps/chosen": -96.54594421386719,
+      "logps/rejected": -99.02603912353516,
+      "loss": 0.6878,
+      "rewards/accuracies": 0.30000001192092896,
+      "rewards/chosen": -0.029307430610060692,
+      "rewards/margins": 0.010790064930915833,
+      "rewards/rejected": -0.040097493678331375,
+      "step": 840
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 1.790801674598186e-07,
+      "logits/chosen": 0.7388015985488892,
+      "logits/rejected": 0.7736684083938599,
+      "logps/chosen": -126.44425201416016,
+      "logps/rejected": -102.01686096191406,
+      "loss": 0.686,
+      "rewards/accuracies": 0.39375001192092896,
+      "rewards/chosen": -0.030984923243522644,
+      "rewards/margins": 0.01829494535923004,
+      "rewards/rejected": -0.049279868602752686,
+      "step": 850
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.4662207078575685e-07,
+      "logits/chosen": 0.7661498785018921,
+      "logits/rejected": 0.7773095965385437,
+      "logps/chosen": -92.13005065917969,
+      "logps/rejected": -91.37489318847656,
+      "loss": 0.6844,
+      "rewards/accuracies": 0.33125001192092896,
+      "rewards/chosen": -0.028016680851578712,
+      "rewards/margins": 0.021260341629385948,
+      "rewards/rejected": -0.04927702248096466,
+      "step": 860
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 1.1731874863145143e-07,
+      "logits/chosen": 0.7595205903053284,
+      "logits/rejected": 0.8001340627670288,
+      "logps/chosen": -94.4384765625,
+      "logps/rejected": -92.37102508544922,
+      "loss": 0.687,
+      "rewards/accuracies": 0.3812499940395355,
+      "rewards/chosen": -0.026580199599266052,
+      "rewards/margins": 0.01631156913936138,
+      "rewards/rejected": -0.042891766875982285,
+      "step": 870
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 9.120948298936422e-08,
+      "logits/chosen": 0.7684468030929565,
+      "logits/rejected": 0.8293699026107788,
+      "logps/chosen": -89.8713150024414,
+      "logps/rejected": -87.5567855834961,
+      "loss": 0.6844,
+      "rewards/accuracies": 0.34375,
+      "rewards/chosen": -0.026115071028470993,
+      "rewards/margins": 0.01522884052246809,
+      "rewards/rejected": -0.04134391248226166,
+      "step": 880
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 6.832927412229017e-08,
+      "logits/chosen": 0.7296298742294312,
+      "logits/rejected": 0.769476056098938,
+      "logps/chosen": -93.165283203125,
+      "logps/rejected": -96.9769287109375,
+      "loss": 0.6851,
+      "rewards/accuracies": 0.34375,
+      "rewards/chosen": -0.029177119955420494,
+      "rewards/margins": 0.016743745654821396,
+      "rewards/rejected": -0.04592086747288704,
+      "step": 890
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 4.870879364444109e-08,
+      "logits/chosen": 0.7372065782546997,
+      "logits/rejected": 0.7822612524032593,
+      "logps/chosen": -89.78585052490234,
+      "logps/rejected": -89.9983901977539,
+      "loss": 0.6866,
+      "rewards/accuracies": 0.3499999940395355,
+      "rewards/chosen": -0.028756320476531982,
+      "rewards/margins": 0.017704127356410027,
+      "rewards/rejected": -0.04646044969558716,
+      "step": 900
+    },
+    {
+      "epoch": 1.88,
+      "eval_logits/chosen": 0.732122004032135,
+      "eval_logits/rejected": 0.7528373599052429,
+      "eval_logps/chosen": -94.85501861572266,
+      "eval_logps/rejected": -98.56551361083984,
+      "eval_loss": 0.6872289776802063,
+      "eval_rewards/accuracies": 0.34200000762939453,
+      "eval_rewards/chosen": -0.03127633407711983,
+      "eval_rewards/margins": 0.012408819980919361,
+      "eval_rewards/rejected": -0.043685153126716614,
+      "eval_runtime": 272.6053,
+      "eval_samples_per_second": 7.337,
+      "eval_steps_per_second": 0.459,
+      "step": 900
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 3.237434340521789e-08,
+      "logits/chosen": 0.710226833820343,
+      "logits/rejected": 0.7852008938789368,
+      "logps/chosen": -103.32108306884766,
+      "logps/rejected": -105.41300964355469,
+      "loss": 0.6851,
+      "rewards/accuracies": 0.35624998807907104,
+      "rewards/chosen": -0.030542368069291115,
+      "rewards/margins": 0.015573601238429546,
+      "rewards/rejected": -0.04611596092581749,
+      "step": 910
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 1.93478202307823e-08,
+      "logits/chosen": 0.7026702165603638,
+      "logits/rejected": 0.7310872673988342,
+      "logps/chosen": -98.82904815673828,
+      "logps/rejected": -96.06184387207031,
+      "loss": 0.6866,
+      "rewards/accuracies": 0.33125001192092896,
+      "rewards/chosen": -0.02804415300488472,
+      "rewards/margins": 0.011173558421432972,
+      "rewards/rejected": -0.03921770304441452,
+      "step": 920
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 9.646686570697062e-09,
+      "logits/chosen": 0.7164516448974609,
+      "logits/rejected": 0.8162258863449097,
+      "logps/chosen": -104.56522369384766,
+      "logps/rejected": -101.3372802734375,
+      "loss": 0.6871,
+      "rewards/accuracies": 0.3812499940395355,
+      "rewards/chosen": -0.024641428142786026,
+      "rewards/margins": 0.01806877739727497,
+      "rewards/rejected": -0.042710207402706146,
+      "step": 930
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 3.283947088983663e-09,
+      "logits/chosen": 0.7736842632293701,
+      "logits/rejected": 0.7780998945236206,
+      "logps/chosen": -100.5300064086914,
+      "logps/rejected": -111.0368881225586,
+      "loss": 0.6875,
+      "rewards/accuracies": 0.38749998807907104,
+      "rewards/chosen": -0.0371762290596962,
+      "rewards/margins": 0.015147706493735313,
+      "rewards/rejected": -0.05232393741607666,
+      "step": 940
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 2.681312309735229e-10,
+      "logits/chosen": 0.8036483526229858,
+      "logits/rejected": 0.8175506591796875,
+      "logps/chosen": -94.41046905517578,
+      "logps/rejected": -104.76774597167969,
+      "loss": 0.6875,
+      "rewards/accuracies": 0.3062500059604645,
+      "rewards/chosen": -0.03001193329691887,
+      "rewards/margins": 0.011342789977788925,
+      "rewards/rejected": -0.04135472699999809,
+      "step": 950
+    },
+    {
+      "epoch": 2.0,
+      "step": 954,
       "total_flos": 0.0,
+      "train_loss": 0.3994182998029441,
+      "train_runtime": 8026.3391,
+      "train_samples_per_second": 7.617,
+      "train_steps_per_second": 0.119
     }
   ],
   "logging_steps": 10,
+  "max_steps": 954,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 100,
   "total_flos": 0.0,
   "train_batch_size": 4,