Model save

Browse files

Files changed (8) hide show

README.md +17 -1
all_results.json +5 -5
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +615 -453
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -16,6 +16,16 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-dpo-full
 This model is a fine-tuned version of [HuggingFaceH4/mistral-7b-sft-beta](https://huggingface.co/HuggingFaceH4/mistral-7b-sft-beta) on the None dataset.
 ## Model description
@@ -37,7 +47,7 @@ The following hyperparameters were used during training:
 - learning_rate: 5e-07
 - train_batch_size: 8
 - eval_batch_size: 8
-- seed: 5
 - distributed_type: multi-GPU
 - num_devices: 8
 - gradient_accumulation_steps: 2
@@ -50,6 +60,12 @@ The following hyperparameters were used during training:
 ### Training results
 ### Framework versions

 # zephyr-7b-dpo-full
 This model is a fine-tuned version of [HuggingFaceH4/mistral-7b-sft-beta](https://huggingface.co/HuggingFaceH4/mistral-7b-sft-beta) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.2130
+- Rewards/chosen: -0.8895
+- Rewards/rejected: -1.4961
+- Rewards/accuracies: 0.7070
+- Rewards/margins: 0.6066
+- Logps/rejected: -406.9670
+- Logps/chosen: -345.9897
+- Logits/rejected: -2.3161
+- Logits/chosen: -2.3381
 ## Model description
 - learning_rate: 5e-07
 - train_batch_size: 8
 - eval_batch_size: 8
+- seed: 4
 - distributed_type: multi-GPU
 - num_devices: 8
 - gradient_accumulation_steps: 2
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.2738        | 0.21  | 100  | 0.2945          | -0.3021        | -0.6399          | 0.7148             | 0.3378          | -321.3399      | -287.2470    | -2.6731         | -2.6882       |
+| 0.1875        | 0.42  | 200  | 0.2041          | -0.9537        | -1.4882          | 0.7227             | 0.5345          | -406.1715      | -352.4083    | -2.3390         | -2.3602       |
+| 0.2103        | 0.63  | 300  | 0.2195          | -0.8401        | -1.4223          | 0.7070             | 0.5822          | -399.5840      | -341.0494    | -2.3533         | -2.3750       |
+| 0.2051        | 0.84  | 400  | 0.2130          | -0.8895        | -1.4961          | 0.7070             | 0.6066          | -406.9670      | -345.9897    | -2.3161         | -2.3381       |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.15393988585766452,
-    "train_runtime": 3212.9353,
-    "train_samples": 51894,
-    "train_samples_per_second": 16.152,
-    "train_steps_per_second": 0.126
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.24355335988758997,
+    "train_runtime": 3944.1561,
+    "train_samples": 61134,
+    "train_samples_per_second": 15.5,
+    "train_steps_per_second": 0.121
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5db9799c54db506dd6903dff305f805519c471c8230ee55006d50eaef6fcf71d
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:d29920218c4a133ce76bacf8aa2f4ff53ad258527de6d8efd5893da84fc28ec7
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41c77f02ad4513a905d9fda2f3c23b348a672959edfad115e308cb5ada0dc69b
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:61c2e9bfab01e957057b099136868b877e15e7a35dba4def807e0f8f92bce022
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba5c5aaecef82703271e9f4ba884d0379738164b9d77f821c0eac7bfcacdf762
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:826a87bf163d8df999f71d47df0d236c315eb251119b93437a07eae548662e31
 size 4540516344

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.15393988585766452,
-    "train_runtime": 3212.9353,
-    "train_samples": 51894,
-    "train_samples_per_second": 16.152,
-    "train_steps_per_second": 0.126
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.24355335988758997,
+    "train_runtime": 3944.1561,
+    "train_samples": 61134,
+    "train_samples_per_second": 15.5,
+    "train_steps_per_second": 0.121
 }

trainer_state.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.998766954377312,
-  "eval_steps": 1000,
-  "global_step": 405,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 1.2195121951219512e-08,
-      "logits/chosen": -2.8695335388183594,
-      "logits/rejected": -2.8522377014160156,
-      "logps/chosen": -537.80126953125,
-      "logps/rejected": -108.91968536376953,
-      "loss": 0.5601,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -24,576 +24,738 @@
     },
     {
       "epoch": 0.02,
-      "learning_rate": 1.219512195121951e-07,
-      "logits/chosen": -2.8006718158721924,
-      "logits/rejected": -2.7512741088867188,
-      "logps/chosen": -339.0959167480469,
-      "logps/rejected": -113.41566467285156,
-      "loss": 0.5529,
-      "rewards/accuracies": 0.5763888955116272,
-      "rewards/chosen": 0.0014224686892703176,
-      "rewards/margins": 0.0021842769347131252,
-      "rewards/rejected": -0.0007618081872351468,
       "step": 10
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 2.439024390243902e-07,
-      "logits/chosen": -2.815359592437744,
-      "logits/rejected": -2.8071651458740234,
-      "logps/chosen": -435.11260986328125,
-      "logps/rejected": -116.19319152832031,
-      "loss": 0.5366,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": 0.022735606878995895,
-      "rewards/margins": 0.04114392399787903,
-      "rewards/rejected": -0.018408317118883133,
       "step": 20
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 3.6585365853658536e-07,
-      "logits/chosen": -2.7216827869415283,
-      "logits/rejected": -2.68468976020813,
-      "logps/chosen": -437.6546325683594,
-      "logps/rejected": -142.09629821777344,
-      "loss": 0.4702,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": 0.08811721950769424,
-      "rewards/margins": 0.21381433308124542,
-      "rewards/rejected": -0.12569710612297058,
       "step": 30
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 4.878048780487804e-07,
-      "logits/chosen": -2.589413642883301,
-      "logits/rejected": -2.5702805519104004,
-      "logps/chosen": -415.1499938964844,
-      "logps/rejected": -170.38934326171875,
-      "loss": 0.3716,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": 0.013831913471221924,
-      "rewards/margins": 0.4765930771827698,
-      "rewards/rejected": -0.4627610743045807,
       "step": 40
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 4.992461696250783e-07,
-      "logits/chosen": -2.469589948654175,
-      "logits/rejected": -2.456850528717041,
-      "logps/chosen": -421.22100830078125,
-      "logps/rejected": -211.1681671142578,
-      "loss": 0.281,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.12107028812170029,
-      "rewards/margins": 0.793075680732727,
-      "rewards/rejected": -0.9141460657119751,
       "step": 50
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 4.966461721767899e-07,
-      "logits/chosen": -2.380545139312744,
-      "logits/rejected": -2.347712755203247,
-      "logps/chosen": -379.7464599609375,
-      "logps/rejected": -211.6461944580078,
-      "loss": 0.1977,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -0.34397271275520325,
-      "rewards/margins": 0.8727855682373047,
-      "rewards/rejected": -1.216758370399475,
       "step": 60
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 4.922100518015975e-07,
-      "logits/chosen": -2.382647752761841,
-      "logits/rejected": -2.3510990142822266,
-      "logps/chosen": -435.24627685546875,
-      "logps/rejected": -257.90399169921875,
-      "loss": 0.1791,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -0.3540270924568176,
-      "rewards/margins": 1.2106399536132812,
-      "rewards/rejected": -1.5646671056747437,
       "step": 70
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 4.859708325770919e-07,
-      "logits/chosen": -2.32224178314209,
-      "logits/rejected": -2.277831554412842,
-      "logps/chosen": -448.172607421875,
-      "logps/rejected": -297.2752685546875,
-      "loss": 0.1592,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -0.37227025628089905,
-      "rewards/margins": 1.5082250833511353,
-      "rewards/rejected": -1.880495309829712,
       "step": 80
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 4.779749614980225e-07,
-      "logits/chosen": -2.3661742210388184,
-      "logits/rejected": -2.33076810836792,
-      "logps/chosen": -458.77081298828125,
-      "logps/rejected": -333.3035888671875,
-      "loss": 0.1222,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -0.7345383763313293,
-      "rewards/margins": 1.5108360052108765,
-      "rewards/rejected": -2.2453744411468506,
       "step": 90
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 4.682819627081427e-07,
-      "logits/chosen": -2.335977554321289,
-      "logits/rejected": -2.281729221343994,
-      "logps/chosen": -503.5619201660156,
-      "logps/rejected": -364.14862060546875,
-      "loss": 0.1166,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.8016496896743774,
-      "rewards/margins": 1.7226619720458984,
-      "rewards/rejected": -2.5243115425109863,
       "step": 100
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 4.569639943810477e-07,
-      "logits/chosen": -2.3253397941589355,
-      "logits/rejected": -2.2732253074645996,
-      "logps/chosen": -540.4392700195312,
-      "logps/rejected": -381.0623474121094,
-      "loss": 0.0958,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -0.9782747030258179,
-      "rewards/margins": 1.7351051568984985,
-      "rewards/rejected": -2.7133796215057373,
       "step": 110
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 4.4410531154874543e-07,
-      "logits/chosen": -2.319655418395996,
-      "logits/rejected": -2.269864082336426,
-      "logps/chosen": -528.8589477539062,
-      "logps/rejected": -398.9247741699219,
-      "loss": 0.0964,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -0.9485586881637573,
-      "rewards/margins": 1.865126609802246,
-      "rewards/rejected": -2.813685178756714,
       "step": 120
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 4.298016388768561e-07,
-      "logits/chosen": -2.3149333000183105,
-      "logits/rejected": -2.247347116470337,
-      "logps/chosen": -502.3334045410156,
-      "logps/rejected": -388.2889404296875,
-      "loss": 0.1271,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -0.7547552585601807,
-      "rewards/margins": 1.8656883239746094,
-      "rewards/rejected": -2.620443344116211,
       "step": 130
     },
     {
-      "epoch": 0.35,
-      "learning_rate": 4.1415945805573005e-07,
-      "logits/chosen": -2.3083794116973877,
-      "logits/rejected": -2.263607978820801,
-      "logps/chosen": -507.48797607421875,
-      "logps/rejected": -399.94720458984375,
-      "loss": 0.1077,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -0.6250351071357727,
-      "rewards/margins": 2.218956470489502,
-      "rewards/rejected": -2.843991756439209,
       "step": 140
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 3.972952151123984e-07,
-      "logits/chosen": -2.271951198577881,
-      "logits/rejected": -2.212960720062256,
-      "logps/chosen": -497.3548889160156,
-      "logps/rejected": -402.63250732421875,
-      "loss": 0.1228,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -0.729441225528717,
-      "rewards/margins": 2.022250175476074,
-      "rewards/rejected": -2.7516913414001465,
       "step": 150
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 3.793344535444142e-07,
-      "logits/chosen": -2.3041064739227295,
-      "logits/rejected": -2.241098642349243,
-      "logps/chosen": -538.1851806640625,
-      "logps/rejected": -396.97491455078125,
-      "loss": 0.108,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -0.7181452512741089,
-      "rewards/margins": 2.0927627086639404,
-      "rewards/rejected": -2.810908079147339,
       "step": 160
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 3.604108797288461e-07,
-      "logits/chosen": -2.2430710792541504,
-      "logits/rejected": -2.186084270477295,
-      "logps/chosen": -503.18536376953125,
-      "logps/rejected": -424.78863525390625,
-      "loss": 0.0967,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -0.9911813735961914,
-      "rewards/margins": 2.0638327598571777,
-      "rewards/rejected": -3.055014133453369,
       "step": 170
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 3.40665367563858e-07,
-      "logits/chosen": -2.2562966346740723,
-      "logits/rejected": -2.17518949508667,
-      "logps/chosen": -452.6295471191406,
-      "logps/rejected": -332.67901611328125,
-      "loss": 0.1233,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -0.7905207276344299,
-      "rewards/margins": 1.5971567630767822,
-      "rewards/rejected": -2.3876776695251465,
       "step": 180
     },
     {
-      "epoch": 0.47,
-      "learning_rate": 3.202449097526798e-07,
-      "logits/chosen": -2.253117084503174,
-      "logits/rejected": -2.1730282306671143,
-      "logps/chosen": -486.3101501464844,
-      "logps/rejected": -395.2755432128906,
-      "loss": 0.1155,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.9943073987960815,
-      "rewards/margins": 1.831038475036621,
-      "rewards/rejected": -2.825345993041992,
       "step": 190
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 2.993015235369905e-07,
-      "logits/chosen": -2.2392661571502686,
-      "logits/rejected": -2.1586246490478516,
-      "logps/chosen": -517.7527465820312,
-      "logps/rejected": -401.18096923828125,
-      "loss": 0.1106,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": -0.8338342905044556,
-      "rewards/margins": 1.99163818359375,
-      "rewards/rejected": -2.825472354888916,
       "step": 200
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 2.7799111902582693e-07,
-      "logits/chosen": -2.195733070373535,
-      "logits/rejected": -2.118263006210327,
-      "logps/chosen": -480.4593200683594,
-      "logps/rejected": -390.95550537109375,
-      "loss": 0.1078,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -0.9628806114196777,
-      "rewards/margins": 1.8329284191131592,
-      "rewards/rejected": -2.795809268951416,
       "step": 210
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 2.564723385445869e-07,
-      "logits/chosen": -2.1850428581237793,
-      "logits/rejected": -2.105459213256836,
-      "logps/chosen": -511.00762939453125,
-      "logps/rejected": -415.4864807128906,
-      "loss": 0.1227,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -0.7178577184677124,
-      "rewards/margins": 2.1069018840789795,
-      "rewards/rejected": -2.8247594833374023,
       "step": 220
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 2.3490537564442845e-07,
-      "logits/chosen": -2.2125039100646973,
-      "logits/rejected": -2.1424784660339355,
-      "logps/chosen": -482.50213623046875,
-      "logps/rejected": -388.6355285644531,
-      "loss": 0.1171,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -0.7609508037567139,
-      "rewards/margins": 1.9426014423370361,
-      "rewards/rejected": -2.703552722930908,
       "step": 230
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 2.1345078256378801e-07,
-      "logits/chosen": -2.201641798019409,
-      "logits/rejected": -2.111548900604248,
-      "logps/chosen": -484.5047912597656,
-      "logps/rejected": -418.87945556640625,
-      "loss": 0.0928,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -0.7977638244628906,
-      "rewards/margins": 2.190457344055176,
-      "rewards/rejected": -2.9882209300994873,
       "step": 240
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 1.9226827501969865e-07,
-      "logits/chosen": -2.181918144226074,
-      "logits/rejected": -2.0827794075012207,
-      "logps/chosen": -518.0274658203125,
-      "logps/rejected": -448.84912109375,
-      "loss": 0.1207,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": -0.8979538083076477,
-      "rewards/margins": 2.4133543968200684,
-      "rewards/rejected": -3.3113083839416504,
       "step": 250
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 1.715155432264775e-07,
-      "logits/chosen": -2.1671414375305176,
-      "logits/rejected": -2.077252149581909,
-      "logps/chosen": -475.8624572753906,
-      "logps/rejected": -393.2193298339844,
-      "loss": 0.1295,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -0.9034333229064941,
-      "rewards/margins": 1.9351081848144531,
-      "rewards/rejected": -2.8385415077209473,
       "step": 260
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 1.51347077992983e-07,
-      "logits/chosen": -2.1908605098724365,
-      "logits/rejected": -2.0970406532287598,
-      "logps/chosen": -487.83563232421875,
-      "logps/rejected": -409.66546630859375,
-      "loss": 0.1009,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -0.9220987558364868,
-      "rewards/margins": 1.9496616125106812,
-      "rewards/rejected": -2.871760845184326,
       "step": 270
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 1.3191302063739906e-07,
-      "logits/chosen": -2.190361261367798,
-      "logits/rejected": -2.0984115600585938,
-      "logps/chosen": -508.9253845214844,
-      "logps/rejected": -422.1849060058594,
-      "loss": 0.0899,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -1.112410545349121,
-      "rewards/margins": 1.9581248760223389,
-      "rewards/rejected": -3.070535659790039,
       "step": 280
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 1.1335804528119475e-07,
-      "logits/chosen": -2.1762964725494385,
-      "logits/rejected": -2.0631372928619385,
-      "logps/chosen": -554.19580078125,
-      "logps/rejected": -427.8614196777344,
-      "loss": 0.084,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -1.0812236070632935,
-      "rewards/margins": 2.109238862991333,
-      "rewards/rejected": -3.190462827682495,
       "step": 290
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 9.582028184286423e-08,
-      "logits/chosen": -2.1851372718811035,
-      "logits/rejected": -2.1166481971740723,
-      "logps/chosen": -458.4752502441406,
-      "logps/rejected": -388.1811828613281,
-      "loss": 0.1002,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -0.9944161176681519,
-      "rewards/margins": 1.8174244165420532,
-      "rewards/rejected": -2.811840534210205,
       "step": 300
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 7.943028774907065e-08,
-      "logits/chosen": -2.173356533050537,
-      "logits/rejected": -2.102245330810547,
-      "logps/chosen": -476.6107482910156,
-      "logps/rejected": -382.61737060546875,
-      "loss": 0.1083,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -0.709411084651947,
-      "rewards/margins": 2.04428768157959,
-      "rewards/rejected": -2.7536988258361816,
       "step": 310
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 6.431007601814637e-08,
-      "logits/chosen": -2.2670390605926514,
-      "logits/rejected": -2.171151638031006,
-      "logps/chosen": -525.9238891601562,
-      "logps/rejected": -428.8578186035156,
-      "loss": 0.0967,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.9797876477241516,
-      "rewards/margins": 2.1045024394989014,
-      "rewards/rejected": -3.084290027618408,
       "step": 320
     },
     {
-      "epoch": 0.81,
-      "learning_rate": 5.0572206951246e-08,
-      "logits/chosen": -2.2066216468811035,
-      "logits/rejected": -2.0978851318359375,
-      "logps/chosen": -530.3206787109375,
-      "logps/rejected": -422.1839904785156,
-      "loss": 0.0962,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -0.7779099941253662,
-      "rewards/margins": 2.2902636528015137,
-      "rewards/rejected": -3.068173885345459,
       "step": 330
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 3.831895019292897e-08,
-      "logits/chosen": -2.2389538288116455,
-      "logits/rejected": -2.1464695930480957,
-      "logps/chosen": -548.3888549804688,
-      "logps/rejected": -455.033935546875,
-      "loss": 0.0911,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -0.8341192007064819,
-      "rewards/margins": 2.394991874694824,
-      "rewards/rejected": -3.2291111946105957,
       "step": 340
     },
     {
-      "epoch": 0.86,
-      "learning_rate": 2.764152339909756e-08,
-      "logits/chosen": -2.2050280570983887,
-      "logits/rejected": -2.1107256412506104,
-      "logps/chosen": -484.3163146972656,
-      "logps/rejected": -392.2890319824219,
-      "loss": 0.1003,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.9081208109855652,
-      "rewards/margins": 1.9725834131240845,
-      "rewards/rejected": -2.880704402923584,
       "step": 350
     },
     {
-      "epoch": 0.89,
-      "learning_rate": 1.861941317991664e-08,
-      "logits/chosen": -2.1940646171569824,
-      "logits/rejected": -2.1099205017089844,
-      "logps/chosen": -481.4151306152344,
-      "logps/rejected": -388.9750061035156,
-      "loss": 0.1004,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -0.9678090810775757,
-      "rewards/margins": 1.6934540271759033,
-      "rewards/rejected": -2.6612629890441895,
       "step": 360
     },
     {
-      "epoch": 0.91,
-      "learning_rate": 1.13197833728636e-08,
-      "logits/chosen": -2.192645788192749,
-      "logits/rejected": -2.105945110321045,
-      "logps/chosen": -499.65277099609375,
-      "logps/rejected": -396.80560302734375,
-      "loss": 0.101,
       "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -0.8237529993057251,
-      "rewards/margins": 2.0019845962524414,
-      "rewards/rejected": -2.825737714767456,
       "step": 370
     },
     {
-      "epoch": 0.94,
-      "learning_rate": 5.79697505093521e-09,
-      "logits/chosen": -2.1727986335754395,
-      "logits/rejected": -2.0996174812316895,
-      "logps/chosen": -452.10504150390625,
-      "logps/rejected": -356.10546875,
-      "loss": 0.0947,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.6749576330184937,
-      "rewards/margins": 1.8276859521865845,
-      "rewards/rejected": -2.5026438236236572,
       "step": 380
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 2.092101988131256e-09,
-      "logits/chosen": -2.247488498687744,
-      "logits/rejected": -2.1600608825683594,
-      "logps/chosen": -512.2217407226562,
-      "logps/rejected": -402.2645568847656,
-      "loss": 0.0923,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -0.7571254968643188,
-      "rewards/margins": 2.047520399093628,
-      "rewards/rejected": -2.8046462535858154,
       "step": 390
     },
     {
-      "epoch": 0.99,
-      "learning_rate": 2.327445937151673e-10,
-      "logits/chosen": -2.178170680999756,
-      "logits/rejected": -2.1037449836730957,
-      "logps/chosen": -498.6328125,
-      "logps/rejected": -398.8753967285156,
-      "loss": 0.11,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -0.8009634017944336,
-      "rewards/margins": 1.9531538486480713,
-      "rewards/rejected": -2.754117250442505,
       "step": 400
     },
     {
       "epoch": 1.0,
-      "step": 405,
       "total_flos": 0.0,
-      "train_loss": 0.15393988585766452,
-      "train_runtime": 3212.9353,
-      "train_samples_per_second": 16.152,
-      "train_steps_per_second": 0.126
     }
   ],
   "logging_steps": 10,
-  "max_steps": 405,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "total_flos": 0.0,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 100,
+  "global_step": 478,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 1.0416666666666666e-08,
+      "logits/chosen": -2.7386245727539062,
+      "logits/rejected": -2.7273669242858887,
+      "logps/chosen": -262.8376159667969,
+      "logps/rejected": -255.88758850097656,
+      "loss": 0.3809,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
     },
     {
       "epoch": 0.02,
+      "learning_rate": 1.0416666666666667e-07,
+      "logits/chosen": -2.7419159412384033,
+      "logits/rejected": -2.73586106300354,
+      "logps/chosen": -305.9677429199219,
+      "logps/rejected": -270.49627685546875,
+      "loss": 0.3844,
+      "rewards/accuracies": 0.4236111044883728,
+      "rewards/chosen": -8.022645488381386e-06,
+      "rewards/margins": -0.00040632300078868866,
+      "rewards/rejected": 0.0003983003261964768,
       "step": 10
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 2.0833333333333333e-07,
+      "logits/chosen": -2.797684907913208,
+      "logits/rejected": -2.7782931327819824,
+      "logps/chosen": -296.00689697265625,
+      "logps/rejected": -258.25726318359375,
+      "loss": 0.3829,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": 0.0003913758264388889,
+      "rewards/margins": 0.0022823966573923826,
+      "rewards/rejected": -0.0018910206854343414,
       "step": 20
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 3.1249999999999997e-07,
+      "logits/chosen": -2.8223657608032227,
+      "logits/rejected": -2.794595718383789,
+      "logps/chosen": -300.7593078613281,
+      "logps/rejected": -259.7913513183594,
+      "loss": 0.3883,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.0001883889053715393,
+      "rewards/margins": 0.009234221652150154,
+      "rewards/rejected": -0.009422610513865948,
       "step": 30
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": -2.757336139678955,
+      "logits/rejected": -2.73185396194458,
+      "logps/chosen": -257.5922546386719,
+      "logps/rejected": -249.6249237060547,
+      "loss": 0.3746,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.006459876894950867,
+      "rewards/margins": 0.02206435427069664,
+      "rewards/rejected": -0.028524229303002357,
       "step": 40
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 4.999733114418725e-07,
+      "logits/chosen": -2.7224113941192627,
+      "logits/rejected": -2.710090160369873,
+      "logps/chosen": -256.6429138183594,
+      "logps/rejected": -250.55154418945312,
+      "loss": 0.3673,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.03372717648744583,
+      "rewards/margins": 0.0691945031285286,
+      "rewards/rejected": -0.10292167961597443,
       "step": 50
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 4.990398100856366e-07,
+      "logits/chosen": -2.6469366550445557,
+      "logits/rejected": -2.6182854175567627,
+      "logps/chosen": -267.1353454589844,
+      "logps/rejected": -257.6127014160156,
+      "loss": 0.3612,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.10208804905414581,
+      "rewards/margins": 0.08831791579723358,
+      "rewards/rejected": -0.1904059499502182,
       "step": 60
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 4.967775735898179e-07,
+      "logits/chosen": -2.662863254547119,
+      "logits/rejected": -2.6449124813079834,
+      "logps/chosen": -291.5115051269531,
+      "logps/rejected": -291.73223876953125,
+      "loss": 0.3288,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.1798349767923355,
+      "rewards/margins": 0.17585726082324982,
+      "rewards/rejected": -0.3556922674179077,
       "step": 70
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 4.931986719649298e-07,
+      "logits/chosen": -2.698970079421997,
+      "logits/rejected": -2.6765952110290527,
+      "logps/chosen": -304.83587646484375,
+      "logps/rejected": -304.4337463378906,
+      "loss": 0.3139,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.27432456612586975,
+      "rewards/margins": 0.17791275680065155,
+      "rewards/rejected": -0.4522373080253601,
       "step": 80
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 4.883222001996351e-07,
+      "logits/chosen": -2.6964175701141357,
+      "logits/rejected": -2.668422222137451,
+      "logps/chosen": -279.7590637207031,
+      "logps/rejected": -279.1517639160156,
+      "loss": 0.2697,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.34315305948257446,
+      "rewards/margins": 0.24895183742046356,
+      "rewards/rejected": -0.5921049118041992,
       "step": 90
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 4.821741763807186e-07,
+      "logits/chosen": -2.638505220413208,
+      "logits/rejected": -2.639235258102417,
+      "logps/chosen": -318.7078857421875,
+      "logps/rejected": -320.1378173828125,
+      "loss": 0.2738,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.38339221477508545,
+      "rewards/margins": 0.3063567578792572,
+      "rewards/rejected": -0.689749002456665,
       "step": 100
     },
     {
+      "epoch": 0.21,
+      "eval_logits/chosen": -2.6881661415100098,
+      "eval_logits/rejected": -2.6731417179107666,
+      "eval_logps/chosen": -287.24700927734375,
+      "eval_logps/rejected": -321.3398742675781,
+      "eval_loss": 0.2944861948490143,
+      "eval_rewards/accuracies": 0.71484375,
+      "eval_rewards/chosen": -0.3020733892917633,
+      "eval_rewards/margins": 0.337792307138443,
+      "eval_rewards/rejected": -0.6398657560348511,
+      "eval_runtime": 53.3678,
+      "eval_samples_per_second": 37.476,
+      "eval_steps_per_second": 0.6,
+      "step": 100
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.747874028753375e-07,
+      "logits/chosen": -2.6743226051330566,
+      "logits/rejected": -2.6426432132720947,
+      "logps/chosen": -332.5823669433594,
+      "logps/rejected": -325.58184814453125,
+      "loss": 0.2961,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.36884671449661255,
+      "rewards/margins": 0.30729353427886963,
+      "rewards/rejected": -0.6761402487754822,
       "step": 110
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 4.662012913161997e-07,
+      "logits/chosen": -2.6002402305603027,
+      "logits/rejected": -2.60917329788208,
+      "logps/chosen": -267.86614990234375,
+      "logps/rejected": -302.95538330078125,
+      "loss": 0.2585,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.3666726052761078,
+      "rewards/margins": 0.3358650505542755,
+      "rewards/rejected": -0.7025377154350281,
       "step": 120
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 4.5646165232345103e-07,
+      "logits/chosen": -2.5904266834259033,
+      "logits/rejected": -2.5732221603393555,
+      "logps/chosen": -293.5733947753906,
+      "logps/rejected": -323.77679443359375,
+      "loss": 0.2348,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.5687397122383118,
+      "rewards/margins": 0.2948606014251709,
+      "rewards/rejected": -0.8636003732681274,
       "step": 130
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 4.456204510851956e-07,
+      "logits/chosen": -2.5775017738342285,
+      "logits/rejected": -2.5546040534973145,
+      "logps/chosen": -323.5328674316406,
+      "logps/rejected": -327.654052734375,
+      "loss": 0.2218,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.5967830419540405,
+      "rewards/margins": 0.36974120140075684,
+      "rewards/rejected": -0.9665242433547974,
       "step": 140
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 4.337355301007335e-07,
+      "logits/chosen": -2.4853436946868896,
+      "logits/rejected": -2.4797251224517822,
+      "logps/chosen": -325.6590881347656,
+      "logps/rejected": -327.2002868652344,
+      "loss": 0.2394,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.6125308275222778,
+      "rewards/margins": 0.353943407535553,
+      "rewards/rejected": -0.966474175453186,
       "step": 150
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 4.2087030056579986e-07,
+      "logits/chosen": -2.431196928024292,
+      "logits/rejected": -2.418900728225708,
+      "logps/chosen": -343.87994384765625,
+      "logps/rejected": -368.2380676269531,
+      "loss": 0.2398,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.6931950449943542,
+      "rewards/margins": 0.4944288730621338,
+      "rewards/rejected": -1.1876238584518433,
       "step": 160
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 4.070934040463998e-07,
+      "logits/chosen": -2.5277438163757324,
+      "logits/rejected": -2.5002598762512207,
+      "logps/chosen": -368.4566650390625,
+      "logps/rejected": -341.0594787597656,
+      "loss": 0.2543,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.4498482346534729,
+      "rewards/margins": 0.39794427156448364,
+      "rewards/rejected": -0.8477924466133118,
       "step": 170
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 3.9247834624635404e-07,
+      "logits/chosen": -2.5052051544189453,
+      "logits/rejected": -2.4971730709075928,
+      "logps/chosen": -310.55523681640625,
+      "logps/rejected": -364.71453857421875,
+      "loss": 0.2338,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.5203171372413635,
+      "rewards/margins": 0.49080243706703186,
+      "rewards/rejected": -1.0111196041107178,
       "step": 180
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 3.7710310482256523e-07,
+      "logits/chosen": -2.355747699737549,
+      "logits/rejected": -2.3024649620056152,
+      "logps/chosen": -370.7752380371094,
+      "logps/rejected": -393.657470703125,
+      "loss": 0.2009,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.9750235676765442,
+      "rewards/margins": 0.41129952669143677,
+      "rewards/rejected": -1.3863232135772705,
       "step": 190
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 3.610497133404795e-07,
+      "logits/chosen": -2.3048462867736816,
+      "logits/rejected": -2.3025858402252197,
+      "logps/chosen": -336.6009826660156,
+      "logps/rejected": -400.9478454589844,
+      "loss": 0.1875,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -1.0244024991989136,
+      "rewards/margins": 0.624415397644043,
+      "rewards/rejected": -1.648817777633667,
       "step": 200
     },
     {
+      "epoch": 0.42,
+      "eval_logits/chosen": -2.3602054119110107,
+      "eval_logits/rejected": -2.338970184326172,
+      "eval_logps/chosen": -352.4082946777344,
+      "eval_logps/rejected": -406.1714782714844,
+      "eval_loss": 0.20406465232372284,
+      "eval_rewards/accuracies": 0.72265625,
+      "eval_rewards/chosen": -0.9536865949630737,
+      "eval_rewards/margins": 0.5344952940940857,
+      "eval_rewards/rejected": -1.4881819486618042,
+      "eval_runtime": 53.3666,
+      "eval_samples_per_second": 37.477,
+      "eval_steps_per_second": 0.6,
+      "step": 200
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 3.4440382358952115e-07,
+      "logits/chosen": -2.33644437789917,
+      "logits/rejected": -2.250994920730591,
+      "logps/chosen": -398.88409423828125,
+      "logps/rejected": -377.0559997558594,
+      "loss": 0.2167,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -1.0204298496246338,
+      "rewards/margins": 0.3568393886089325,
+      "rewards/rejected": -1.3772691488265991,
       "step": 210
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 3.272542485937368e-07,
+      "logits/chosen": -2.3577969074249268,
+      "logits/rejected": -2.2945871353149414,
+      "logps/chosen": -364.9277038574219,
+      "logps/rejected": -371.2010803222656,
+      "loss": 0.2065,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.8520679473876953,
+      "rewards/margins": 0.4781356453895569,
+      "rewards/rejected": -1.330203652381897,
       "step": 220
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 3.096924887558854e-07,
+      "logits/chosen": -2.3539249897003174,
+      "logits/rejected": -2.313048839569092,
+      "logps/chosen": -376.7759094238281,
+      "logps/rejected": -407.8626708984375,
+      "loss": 0.1894,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.8920862078666687,
+      "rewards/margins": 0.5588781237602234,
+      "rewards/rejected": -1.4509644508361816,
       "step": 230
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 2.9181224366319943e-07,
+      "logits/chosen": -2.3257548809051514,
+      "logits/rejected": -2.310906410217285,
+      "logps/chosen": -399.5565490722656,
+      "logps/rejected": -400.0947265625,
+      "loss": 0.1923,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.9511243104934692,
+      "rewards/margins": 0.562946617603302,
+      "rewards/rejected": -1.5140708684921265,
       "step": 240
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 2.7370891215954565e-07,
+      "logits/chosen": -2.2992796897888184,
+      "logits/rejected": -2.2705976963043213,
+      "logps/chosen": -336.1885986328125,
+      "logps/rejected": -385.8701477050781,
+      "loss": 0.1982,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.8285441398620605,
+      "rewards/margins": 0.6316433548927307,
+      "rewards/rejected": -1.4601874351501465,
       "step": 250
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 2.55479083351317e-07,
+      "logits/chosen": -2.327385425567627,
+      "logits/rejected": -2.3026115894317627,
+      "logps/chosen": -392.62591552734375,
+      "logps/rejected": -422.28448486328125,
+      "loss": 0.2222,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.9515058398246765,
+      "rewards/margins": 0.49343791604042053,
+      "rewards/rejected": -1.4449436664581299,
       "step": 260
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 2.3722002126275822e-07,
+      "logits/chosen": -2.3942108154296875,
+      "logits/rejected": -2.3683059215545654,
+      "logps/chosen": -345.6385498046875,
+      "logps/rejected": -383.3131408691406,
+      "loss": 0.2198,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.9201357960700989,
+      "rewards/margins": 0.3128657937049866,
+      "rewards/rejected": -1.233001470565796,
       "step": 270
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 2.19029145890313e-07,
+      "logits/chosen": -2.3505771160125732,
+      "logits/rejected": -2.3291995525360107,
+      "logps/chosen": -346.64093017578125,
+      "logps/rejected": -383.3504943847656,
+      "loss": 0.2066,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.8398548364639282,
+      "rewards/margins": 0.5200469493865967,
+      "rewards/rejected": -1.359901785850525,
       "step": 280
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 2.0100351342479216e-07,
+      "logits/chosen": -2.3983218669891357,
+      "logits/rejected": -2.356658458709717,
+      "logps/chosen": -379.2950744628906,
+      "logps/rejected": -412.7428283691406,
+      "loss": 0.2171,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.7873485088348389,
+      "rewards/margins": 0.47691774368286133,
+      "rewards/rejected": -1.2642663717269897,
       "step": 290
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 1.8323929841460178e-07,
+      "logits/chosen": -2.331897497177124,
+      "logits/rejected": -2.3235559463500977,
+      "logps/chosen": -356.6403503417969,
+      "logps/rejected": -377.82135009765625,
+      "loss": 0.2103,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.839586615562439,
+      "rewards/margins": 0.46369633078575134,
+      "rewards/rejected": -1.3032829761505127,
+      "step": 300
+    },
+    {
+      "epoch": 0.63,
+      "eval_logits/chosen": -2.3750030994415283,
+      "eval_logits/rejected": -2.3532962799072266,
+      "eval_logps/chosen": -341.04937744140625,
+      "eval_logps/rejected": -399.583984375,
+      "eval_loss": 0.21952193975448608,
+      "eval_rewards/accuracies": 0.70703125,
+      "eval_rewards/chosen": -0.8400974273681641,
+      "eval_rewards/margins": 0.5822098255157471,
+      "eval_rewards/rejected": -1.4223072528839111,
+      "eval_runtime": 53.3824,
+      "eval_samples_per_second": 37.466,
+      "eval_steps_per_second": 0.599,
       "step": 300
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 1.6583128063291573e-07,
+      "logits/chosen": -2.345519542694092,
+      "logits/rejected": -2.3241662979125977,
+      "logps/chosen": -378.9863586425781,
+      "logps/rejected": -402.13153076171875,
+      "loss": 0.2093,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.8223126530647278,
+      "rewards/margins": 0.614983081817627,
+      "rewards/rejected": -1.43729567527771,
       "step": 310
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 1.488723393865766e-07,
+      "logits/chosen": -2.3204216957092285,
+      "logits/rejected": -2.2891576290130615,
+      "logps/chosen": -348.6353454589844,
+      "logps/rejected": -385.66278076171875,
+      "loss": 0.2022,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -1.0812270641326904,
+      "rewards/margins": 0.4006832242012024,
+      "rewards/rejected": -1.4819103479385376,
       "step": 320
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 1.3245295796480788e-07,
+      "logits/chosen": -2.287698745727539,
+      "logits/rejected": -2.279531955718994,
+      "logps/chosen": -390.47540283203125,
+      "logps/rejected": -438.2626037597656,
+      "loss": 0.2029,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -1.0578622817993164,
+      "rewards/margins": 0.43574437499046326,
+      "rewards/rejected": -1.4936068058013916,
       "step": 330
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 1.1666074087171627e-07,
+      "logits/chosen": -2.3450725078582764,
+      "logits/rejected": -2.3226075172424316,
+      "logps/chosen": -381.7784118652344,
+      "logps/rejected": -389.5802001953125,
+      "loss": 0.2096,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.9645330309867859,
+      "rewards/margins": 0.444490522146225,
+      "rewards/rejected": -1.409023642539978,
       "step": 340
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 1.0157994641835734e-07,
+      "logits/chosen": -2.356595277786255,
+      "logits/rejected": -2.3080544471740723,
+      "logps/chosen": -353.982177734375,
+      "logps/rejected": -418.7837829589844,
+      "loss": 0.2127,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.979511559009552,
+      "rewards/margins": 0.5967382788658142,
+      "rewards/rejected": -1.5762498378753662,
       "step": 350
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 8.729103716819111e-08,
+      "logits/chosen": -2.3197410106658936,
+      "logits/rejected": -2.27152419090271,
+      "logps/chosen": -370.5116271972656,
+      "logps/rejected": -402.8948059082031,
+      "loss": 0.2121,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.8492336273193359,
+      "rewards/margins": 0.5515913367271423,
+      "rewards/rejected": -1.4008249044418335,
       "step": 360
     },
     {
+      "epoch": 0.77,
+      "learning_rate": 7.387025063449081e-08,
+      "logits/chosen": -2.3385300636291504,
+      "logits/rejected": -2.309565544128418,
+      "logps/chosen": -328.14276123046875,
+      "logps/rejected": -381.6123962402344,
+      "loss": 0.2268,
       "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.8338375091552734,
+      "rewards/margins": 0.5052274465560913,
+      "rewards/rejected": -1.3390649557113647,
       "step": 370
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 6.138919252022435e-08,
+      "logits/chosen": -2.331386089324951,
+      "logits/rejected": -2.291889190673828,
+      "logps/chosen": -350.16119384765625,
+      "logps/rejected": -381.3484802246094,
+      "loss": 0.2087,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.8641462326049805,
+      "rewards/margins": 0.568858802318573,
+      "rewards/rejected": -1.4330050945281982,
       "step": 380
     },
     {
+      "epoch": 0.82,
+      "learning_rate": 4.991445467064689e-08,
+      "logits/chosen": -2.2733142375946045,
+      "logits/rejected": -2.236274242401123,
+      "logps/chosen": -376.81573486328125,
+      "logps/rejected": -405.6353759765625,
+      "loss": 0.2182,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.889461874961853,
+      "rewards/margins": 0.47357290983200073,
+      "rewards/rejected": -1.363034725189209,
       "step": 390
     },
     {
+      "epoch": 0.84,
+      "learning_rate": 3.9507259776993954e-08,
+      "logits/chosen": -2.32843017578125,
+      "logits/rejected": -2.3155007362365723,
+      "logps/chosen": -367.7158508300781,
+      "logps/rejected": -422.8672790527344,
+      "loss": 0.2051,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -1.0084705352783203,
+      "rewards/margins": 0.5765265226364136,
+      "rewards/rejected": -1.5849970579147339,
       "step": 400
     },
+    {
+      "epoch": 0.84,
+      "eval_logits/chosen": -2.3381025791168213,
+      "eval_logits/rejected": -2.3161401748657227,
+      "eval_logps/chosen": -345.9896545410156,
+      "eval_logps/rejected": -406.967041015625,
+      "eval_loss": 0.21300797164440155,
+      "eval_rewards/accuracies": 0.70703125,
+      "eval_rewards/chosen": -0.8895003199577332,
+      "eval_rewards/margins": 0.6066373586654663,
+      "eval_rewards/rejected": -1.4961377382278442,
+      "eval_runtime": 53.3639,
+      "eval_samples_per_second": 37.479,
+      "eval_steps_per_second": 0.6,
+      "step": 400
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 3.022313472693447e-08,
+      "logits/chosen": -2.309161901473999,
+      "logits/rejected": -2.292067050933838,
+      "logps/chosen": -382.9537353515625,
+      "logps/rejected": -378.39898681640625,
+      "loss": 0.2106,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -1.0024274587631226,
+      "rewards/margins": 0.4243893623352051,
+      "rewards/rejected": -1.426816701889038,
+      "step": 410
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 2.2111614344599684e-08,
+      "logits/chosen": -2.372878074645996,
+      "logits/rejected": -2.3500359058380127,
+      "logps/chosen": -393.245361328125,
+      "logps/rejected": -398.61175537109375,
+      "loss": 0.2155,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.9859229326248169,
+      "rewards/margins": 0.39800676703453064,
+      "rewards/rejected": -1.3839296102523804,
+      "step": 420
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.521597710086439e-08,
+      "logits/chosen": -2.382736921310425,
+      "logits/rejected": -2.330305576324463,
+      "logps/chosen": -380.0002136230469,
+      "logps/rejected": -367.59625244140625,
+      "loss": 0.2061,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.9225358963012695,
+      "rewards/margins": 0.4716859459877014,
+      "rewards/rejected": -1.3942219018936157,
+      "step": 430
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 9.57301420397924e-09,
+      "logits/chosen": -2.359827995300293,
+      "logits/rejected": -2.3190550804138184,
+      "logps/chosen": -396.4924011230469,
+      "logps/rejected": -385.8436279296875,
+      "loss": 0.2136,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.9304088354110718,
+      "rewards/margins": 0.43420737981796265,
+      "rewards/rejected": -1.3646161556243896,
+      "step": 440
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 5.212833302556258e-09,
+      "logits/chosen": -2.361069440841675,
+      "logits/rejected": -2.330132246017456,
+      "logps/chosen": -366.66845703125,
+      "logps/rejected": -462.7421875,
+      "loss": 0.2099,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.8973833322525024,
+      "rewards/margins": 0.8092821836471558,
+      "rewards/rejected": -1.7066656351089478,
+      "step": 450
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.158697848236607e-09,
+      "logits/chosen": -2.313333034515381,
+      "logits/rejected": -2.27656626701355,
+      "logps/chosen": -402.6481628417969,
+      "logps/rejected": -400.33251953125,
+      "loss": 0.2052,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.923121452331543,
+      "rewards/margins": 0.4761527478694916,
+      "rewards/rejected": -1.399274230003357,
+      "step": 460
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 4.269029751107489e-10,
+      "logits/chosen": -2.3397324085235596,
+      "logits/rejected": -2.2944626808166504,
+      "logps/chosen": -405.10040283203125,
+      "logps/rejected": -419.93902587890625,
+      "loss": 0.2137,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.0206491947174072,
+      "rewards/margins": 0.5544232130050659,
+      "rewards/rejected": -1.5750725269317627,
+      "step": 470
+    },
     {
       "epoch": 1.0,
+      "step": 478,
       "total_flos": 0.0,
+      "train_loss": 0.24355335988758997,
+      "train_runtime": 3944.1561,
+      "train_samples_per_second": 15.5,
+      "train_steps_per_second": 0.121
     }
   ],
   "logging_steps": 10,
+  "max_steps": 478,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "total_flos": 0.0,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76d0210c59ef372732294ad05bab0ecc4970a2b01efd3577d96d30570f2f6789
 size 5944

 version https://git-lfs.github.com/spec/v1
+oid sha256:615833a83dcdf021f9a78aad80acb1d830e478b5789aeee61b4cff876fd4f470
 size 5944