Model save

Browse files

Files changed (8) hide show

README.md +1 -17
all_results.json +5 -5
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +454 -616
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -16,16 +16,6 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-dpo-full
 This model is a fine-tuned version of [HuggingFaceH4/mistral-7b-sft-beta](https://huggingface.co/HuggingFaceH4/mistral-7b-sft-beta) on the None dataset.
-It achieves the following results on the evaluation set:
-- Loss: 0.2109
-- Rewards/chosen: -0.8723
-- Rewards/rejected: -1.4751
-- Rewards/accuracies: 0.7109
-- Rewards/margins: 0.6028
-- Logps/rejected: -404.8638
-- Logps/chosen: -344.2667
-- Logits/rejected: -2.3691
-- Logits/chosen: -2.3911
 ## Model description
@@ -47,7 +37,7 @@ The following hyperparameters were used during training:
 - learning_rate: 5e-07
 - train_batch_size: 8
 - eval_batch_size: 8
-- seed: 2
 - distributed_type: multi-GPU
 - num_devices: 8
 - gradient_accumulation_steps: 2
@@ -60,12 +50,6 @@ The following hyperparameters were used during training:
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
-|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.257         | 0.21  | 100  | 0.2233          | -0.5908        | -0.9685          | 0.6836             | 0.3777          | -354.2039      | -316.1246    | -2.6611         | -2.6767       |
-| 0.2208        | 0.42  | 200  | 0.2272          | -0.7331        | -1.2856          | 0.7109             | 0.5525          | -385.9103      | -330.3494    | -2.4448         | -2.4613       |
-| 0.2288        | 0.63  | 300  | 0.2287          | -0.7577        | -1.2990          | 0.7109             | 0.5414          | -387.2565      | -332.8068    | -2.3991         | -2.4209       |
-| 0.2176        | 0.84  | 400  | 0.2109          | -0.8723        | -1.4751          | 0.7109             | 0.6028          | -404.8638      | -344.2667    | -2.3691         | -2.3911       |
 ### Framework versions

 # zephyr-7b-dpo-full
 This model is a fine-tuned version of [HuggingFaceH4/mistral-7b-sft-beta](https://huggingface.co/HuggingFaceH4/mistral-7b-sft-beta) on the None dataset.
 ## Model description
 - learning_rate: 5e-07
 - train_batch_size: 8
 - eval_batch_size: 8
+- seed: 3
 - distributed_type: multi-GPU
 - num_devices: 8
 - gradient_accumulation_steps: 2
 ### Training results
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.24144619029934936,
-    "train_runtime": 3938.2574,
-    "train_samples": 61134,
-    "train_samples_per_second": 15.523,
-    "train_steps_per_second": 0.121
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.1562451661368947,
+    "train_runtime": 3209.2418,
+    "train_samples": 51894,
+    "train_samples_per_second": 16.17,
+    "train_steps_per_second": 0.126
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b36577dc0f9e17cb1d6481265e14d994f4b5d7ca7c866ff9cc4a05c98a756629
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:e746bdb8da0ed3cb92cfb0eac3514bd900c00b492876034642796dd591398a5b
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4173650367bc4f7bc10e7a71f9f14f7e00c26c56d4a13599c12afbedf159b1e
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:54e0fc894931d1546a89c1600598d813b49ed88255568fc1be6110de495a5182
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:265ada71532fd6cb3fd74cb8b5df65731e415f20d182e2ab8443d9ee16dc38e1
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:eaef24f314b05e2dbdc3675cb3e5a19536af34dec86696772f465d0801e7198e
 size 4540516344

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.24144619029934936,
-    "train_runtime": 3938.2574,
-    "train_samples": 61134,
-    "train_samples_per_second": 15.523,
-    "train_steps_per_second": 0.121
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.1562451661368947,
+    "train_runtime": 3209.2418,
+    "train_samples": 51894,
+    "train_samples_per_second": 16.17,
+    "train_steps_per_second": 0.126
 }

trainer_state.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
-  "eval_steps": 100,
-  "global_step": 478,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 1.0416666666666666e-08,
-      "logits/chosen": -2.7050857543945312,
-      "logits/rejected": -2.7461352348327637,
-      "logps/chosen": -137.25845336914062,
-      "logps/rejected": -163.38693237304688,
-      "loss": 0.3798,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -24,738 +24,576 @@
     },
     {
       "epoch": 0.02,
-      "learning_rate": 1.0416666666666667e-07,
-      "logits/chosen": -2.7312276363372803,
-      "logits/rejected": -2.695631742477417,
-      "logps/chosen": -255.1140899658203,
-      "logps/rejected": -238.8600311279297,
-      "loss": 0.3832,
-      "rewards/accuracies": 0.4444444477558136,
-      "rewards/chosen": 0.00027530654915608466,
-      "rewards/margins": 0.0001796479627955705,
-      "rewards/rejected": 9.565857180859894e-05,
       "step": 10
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 2.0833333333333333e-07,
-      "logits/chosen": -2.7509210109710693,
-      "logits/rejected": -2.747286796569824,
-      "logps/chosen": -265.3969421386719,
-      "logps/rejected": -255.56820678710938,
-      "loss": 0.3854,
-      "rewards/accuracies": 0.581250011920929,
-      "rewards/chosen": 0.00011129756603622809,
-      "rewards/margins": 0.0007048381958156824,
-      "rewards/rejected": -0.0005935406079515815,
       "step": 20
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 3.1249999999999997e-07,
-      "logits/chosen": -2.7347323894500732,
-      "logits/rejected": -2.6919784545898438,
-      "logps/chosen": -253.36776733398438,
-      "logps/rejected": -252.7303009033203,
-      "loss": 0.38,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": -0.000633485266007483,
-      "rewards/margins": 0.010046233423054218,
-      "rewards/rejected": -0.010679718106985092,
       "step": 30
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 4.1666666666666667e-07,
-      "logits/chosen": -2.77168607711792,
-      "logits/rejected": -2.758120536804199,
-      "logps/chosen": -274.98394775390625,
-      "logps/rejected": -279.70538330078125,
-      "loss": 0.3835,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": -0.0031148982234299183,
-      "rewards/margins": 0.029972663149237633,
-      "rewards/rejected": -0.033087559044361115,
       "step": 40
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 4.999733114418725e-07,
-      "logits/chosen": -2.7243783473968506,
-      "logits/rejected": -2.704498767852783,
-      "logps/chosen": -288.5676574707031,
-      "logps/rejected": -298.4002685546875,
-      "loss": 0.3671,
-      "rewards/accuracies": 0.59375,
-      "rewards/chosen": -0.06528390944004059,
-      "rewards/margins": 0.036985982209444046,
-      "rewards/rejected": -0.10226988792419434,
       "step": 50
     },
     {
-      "epoch": 0.13,
-      "learning_rate": 4.990398100856366e-07,
-      "logits/chosen": -2.7262027263641357,
-      "logits/rejected": -2.7050204277038574,
-      "logps/chosen": -279.5926208496094,
-      "logps/rejected": -262.58740234375,
-      "loss": 0.3533,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": -0.10228908061981201,
-      "rewards/margins": 0.1109827309846878,
-      "rewards/rejected": -0.21327181160449982,
       "step": 60
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 4.967775735898179e-07,
-      "logits/chosen": -2.7053043842315674,
-      "logits/rejected": -2.688953161239624,
-      "logps/chosen": -275.300048828125,
-      "logps/rejected": -305.97869873046875,
-      "loss": 0.3299,
-      "rewards/accuracies": 0.6187499761581421,
-      "rewards/chosen": -0.20216643810272217,
-      "rewards/margins": 0.10846765339374542,
-      "rewards/rejected": -0.3106341063976288,
       "step": 70
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 4.931986719649298e-07,
-      "logits/chosen": -2.667348861694336,
-      "logits/rejected": -2.642573356628418,
-      "logps/chosen": -273.0858459472656,
-      "logps/rejected": -293.8269958496094,
-      "loss": 0.3092,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -0.19745726883411407,
-      "rewards/margins": 0.2781762480735779,
-      "rewards/rejected": -0.4756334722042084,
       "step": 80
     },
     {
-      "epoch": 0.19,
-      "learning_rate": 4.883222001996351e-07,
-      "logits/chosen": -2.70752215385437,
-      "logits/rejected": -2.672748565673828,
-      "logps/chosen": -307.81634521484375,
-      "logps/rejected": -306.80450439453125,
-      "loss": 0.2907,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.3010396361351013,
-      "rewards/margins": 0.2837219536304474,
-      "rewards/rejected": -0.5847616195678711,
       "step": 90
     },
     {
-      "epoch": 0.21,
-      "learning_rate": 4.821741763807186e-07,
-      "logits/chosen": -2.7240607738494873,
-      "logits/rejected": -2.7015957832336426,
-      "logps/chosen": -307.48590087890625,
-      "logps/rejected": -333.0309143066406,
-      "loss": 0.257,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.41153019666671753,
-      "rewards/margins": 0.28844934701919556,
-      "rewards/rejected": -0.6999796032905579,
-      "step": 100
-    },
-    {
-      "epoch": 0.21,
-      "eval_logits/chosen": -2.6766650676727295,
-      "eval_logits/rejected": -2.6611006259918213,
-      "eval_logps/chosen": -316.1246337890625,
-      "eval_logps/rejected": -354.2039489746094,
-      "eval_loss": 0.2232680767774582,
-      "eval_rewards/accuracies": 0.68359375,
-      "eval_rewards/chosen": -0.590849757194519,
-      "eval_rewards/margins": 0.3776569366455078,
-      "eval_rewards/rejected": -0.9685067534446716,
-      "eval_runtime": 53.2908,
-      "eval_samples_per_second": 37.53,
-      "eval_steps_per_second": 0.6,
       "step": 100
     },
     {
-      "epoch": 0.23,
-      "learning_rate": 4.747874028753375e-07,
-      "logits/chosen": -2.6388416290283203,
-      "logits/rejected": -2.605724573135376,
-      "logps/chosen": -350.2857360839844,
-      "logps/rejected": -358.43157958984375,
-      "loss": 0.2171,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.5632816553115845,
-      "rewards/margins": 0.3817766308784485,
-      "rewards/rejected": -0.9450582265853882,
       "step": 110
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 4.662012913161997e-07,
-      "logits/chosen": -2.67047119140625,
-      "logits/rejected": -2.6297953128814697,
-      "logps/chosen": -331.3866271972656,
-      "logps/rejected": -371.7690124511719,
-      "loss": 0.222,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.6712104082107544,
-      "rewards/margins": 0.4709964394569397,
-      "rewards/rejected": -1.1422069072723389,
       "step": 120
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 4.5646165232345103e-07,
-      "logits/chosen": -2.6677584648132324,
-      "logits/rejected": -2.6427159309387207,
-      "logps/chosen": -312.25030517578125,
-      "logps/rejected": -327.1921081542969,
-      "loss": 0.24,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.5369819402694702,
-      "rewards/margins": 0.4077660143375397,
-      "rewards/rejected": -0.9447479248046875,
       "step": 130
     },
     {
-      "epoch": 0.29,
-      "learning_rate": 4.456204510851956e-07,
-      "logits/chosen": -2.6476733684539795,
-      "logits/rejected": -2.62225341796875,
-      "logps/chosen": -330.7034912109375,
-      "logps/rejected": -354.80743408203125,
-      "loss": 0.2533,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.4313550889492035,
-      "rewards/margins": 0.338148295879364,
-      "rewards/rejected": -0.7695032954216003,
       "step": 140
     },
     {
-      "epoch": 0.31,
-      "learning_rate": 4.337355301007335e-07,
-      "logits/chosen": -2.513697862625122,
-      "logits/rejected": -2.4648990631103516,
-      "logps/chosen": -328.30023193359375,
-      "logps/rejected": -347.6041564941406,
-      "loss": 0.2402,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.5204036831855774,
-      "rewards/margins": 0.49161797761917114,
-      "rewards/rejected": -1.0120216608047485,
       "step": 150
     },
     {
-      "epoch": 0.33,
-      "learning_rate": 4.2087030056579986e-07,
-      "logits/chosen": -2.4941375255584717,
-      "logits/rejected": -2.4758243560791016,
-      "logps/chosen": -356.24566650390625,
-      "logps/rejected": -363.2888488769531,
-      "loss": 0.2215,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.86609947681427,
-      "rewards/margins": 0.23722651600837708,
-      "rewards/rejected": -1.1033260822296143,
       "step": 160
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 4.070934040463998e-07,
-      "logits/chosen": -2.4891974925994873,
-      "logits/rejected": -2.4707045555114746,
-      "logps/chosen": -383.66168212890625,
-      "logps/rejected": -375.74176025390625,
-      "loss": 0.1974,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.7794803380966187,
-      "rewards/margins": 0.34267354011535645,
-      "rewards/rejected": -1.122153878211975,
       "step": 170
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 3.9247834624635404e-07,
-      "logits/chosen": -2.4940543174743652,
-      "logits/rejected": -2.5015830993652344,
-      "logps/chosen": -330.3712463378906,
-      "logps/rejected": -358.96270751953125,
-      "loss": 0.2308,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.6704657077789307,
-      "rewards/margins": 0.3425530791282654,
-      "rewards/rejected": -1.0130188465118408,
       "step": 180
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 3.7710310482256523e-07,
-      "logits/chosen": -2.477426767349243,
-      "logits/rejected": -2.45841383934021,
-      "logps/chosen": -296.64923095703125,
-      "logps/rejected": -332.4583740234375,
-      "loss": 0.231,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -0.5371456742286682,
-      "rewards/margins": 0.42025208473205566,
-      "rewards/rejected": -0.9573977589607239,
       "step": 190
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 3.610497133404795e-07,
-      "logits/chosen": -2.4229977130889893,
-      "logits/rejected": -2.4085991382598877,
-      "logps/chosen": -322.7269287109375,
-      "logps/rejected": -371.9578857421875,
-      "loss": 0.2208,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.751930832862854,
-      "rewards/margins": 0.4476039409637451,
-      "rewards/rejected": -1.1995347738265991,
       "step": 200
     },
     {
-      "epoch": 0.42,
-      "eval_logits/chosen": -2.4612855911254883,
-      "eval_logits/rejected": -2.4448401927948,
-      "eval_logps/chosen": -330.34942626953125,
-      "eval_logps/rejected": -385.9102783203125,
-      "eval_loss": 0.22716985642910004,
-      "eval_rewards/accuracies": 0.7109375,
-      "eval_rewards/chosen": -0.7330977916717529,
-      "eval_rewards/margins": 0.5524721145629883,
-      "eval_rewards/rejected": -1.2855699062347412,
-      "eval_runtime": 53.3284,
-      "eval_samples_per_second": 37.503,
-      "eval_steps_per_second": 0.6,
-      "step": 200
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 3.4440382358952115e-07,
-      "logits/chosen": -2.408134937286377,
-      "logits/rejected": -2.4148223400115967,
-      "logps/chosen": -372.76190185546875,
-      "logps/rejected": -418.78070068359375,
-      "loss": 0.2046,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -0.6905978918075562,
-      "rewards/margins": 0.6037817597389221,
-      "rewards/rejected": -1.294379711151123,
       "step": 210
     },
     {
-      "epoch": 0.46,
-      "learning_rate": 3.272542485937368e-07,
-      "logits/chosen": -2.38100004196167,
-      "logits/rejected": -2.347050189971924,
-      "logps/chosen": -353.50872802734375,
-      "logps/rejected": -374.2055358886719,
-      "loss": 0.2063,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.9314019083976746,
-      "rewards/margins": 0.44626373052597046,
-      "rewards/rejected": -1.3776657581329346,
       "step": 220
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 3.096924887558854e-07,
-      "logits/chosen": -2.389876127243042,
-      "logits/rejected": -2.3756182193756104,
-      "logps/chosen": -341.39056396484375,
-      "logps/rejected": -369.36798095703125,
-      "loss": 0.2182,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.826191246509552,
-      "rewards/margins": 0.4185497760772705,
-      "rewards/rejected": -1.2447409629821777,
       "step": 230
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 2.9181224366319943e-07,
-      "logits/chosen": -2.3420488834381104,
-      "logits/rejected": -2.3420634269714355,
-      "logps/chosen": -394.2783203125,
-      "logps/rejected": -399.3951110839844,
-      "loss": 0.2192,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.8294617533683777,
-      "rewards/margins": 0.4301871359348297,
-      "rewards/rejected": -1.2596489191055298,
       "step": 240
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 2.7370891215954565e-07,
-      "logits/chosen": -2.3694067001342773,
-      "logits/rejected": -2.3614299297332764,
-      "logps/chosen": -344.9835510253906,
-      "logps/rejected": -381.5570068359375,
-      "loss": 0.2272,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -0.754552960395813,
-      "rewards/margins": 0.4908219277858734,
-      "rewards/rejected": -1.2453746795654297,
       "step": 250
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 2.55479083351317e-07,
-      "logits/chosen": -2.3375298976898193,
-      "logits/rejected": -2.3023550510406494,
-      "logps/chosen": -375.9356689453125,
-      "logps/rejected": -364.8614807128906,
-      "loss": 0.212,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.8516572713851929,
-      "rewards/margins": 0.3816768527030945,
-      "rewards/rejected": -1.2333341836929321,
       "step": 260
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 2.3722002126275822e-07,
-      "logits/chosen": -2.316119909286499,
-      "logits/rejected": -2.2816872596740723,
-      "logps/chosen": -356.73175048828125,
-      "logps/rejected": -385.05926513671875,
-      "loss": 0.2223,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.8640978932380676,
-      "rewards/margins": 0.4441055655479431,
-      "rewards/rejected": -1.3082035779953003,
       "step": 270
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 2.19029145890313e-07,
-      "logits/chosen": -2.3629515171051025,
-      "logits/rejected": -2.334725856781006,
-      "logps/chosen": -408.7138671875,
-      "logps/rejected": -445.103515625,
-      "loss": 0.2008,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -0.8993441462516785,
-      "rewards/margins": 0.5636937618255615,
-      "rewards/rejected": -1.4630378484725952,
       "step": 280
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 2.0100351342479216e-07,
-      "logits/chosen": -2.361348867416382,
-      "logits/rejected": -2.3425533771514893,
-      "logps/chosen": -355.1327209472656,
-      "logps/rejected": -361.39288330078125,
-      "loss": 0.2121,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.8374221920967102,
-      "rewards/margins": 0.4722815155982971,
-      "rewards/rejected": -1.3097035884857178,
       "step": 290
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 1.8323929841460178e-07,
-      "logits/chosen": -2.382875680923462,
-      "logits/rejected": -2.3424601554870605,
-      "logps/chosen": -382.7611999511719,
-      "logps/rejected": -380.2561340332031,
-      "loss": 0.2288,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.8600258827209473,
-      "rewards/margins": 0.4243183135986328,
-      "rewards/rejected": -1.2843440771102905,
       "step": 300
     },
     {
-      "epoch": 0.63,
-      "eval_logits/chosen": -2.420907974243164,
-      "eval_logits/rejected": -2.3991498947143555,
-      "eval_logps/chosen": -332.8067932128906,
-      "eval_logps/rejected": -387.25653076171875,
-      "eval_loss": 0.22867938876152039,
-      "eval_rewards/accuracies": 0.7109375,
-      "eval_rewards/chosen": -0.757671594619751,
-      "eval_rewards/margins": 0.5413607358932495,
-      "eval_rewards/rejected": -1.29903244972229,
-      "eval_runtime": 53.3615,
-      "eval_samples_per_second": 37.48,
-      "eval_steps_per_second": 0.6,
-      "step": 300
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 1.6583128063291573e-07,
-      "logits/chosen": -2.3479456901550293,
-      "logits/rejected": -2.308645248413086,
-      "logps/chosen": -374.3102111816406,
-      "logps/rejected": -374.8952941894531,
-      "loss": 0.234,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -0.8235334157943726,
-      "rewards/margins": 0.4518548846244812,
-      "rewards/rejected": -1.275388240814209,
       "step": 310
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 1.488723393865766e-07,
-      "logits/chosen": -2.407579183578491,
-      "logits/rejected": -2.397592544555664,
-      "logps/chosen": -328.38031005859375,
-      "logps/rejected": -372.2540283203125,
-      "loss": 0.2088,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.7397488355636597,
-      "rewards/margins": 0.5618935823440552,
-      "rewards/rejected": -1.301642656326294,
       "step": 320
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 1.3245295796480788e-07,
-      "logits/chosen": -2.4072742462158203,
-      "logits/rejected": -2.389080047607422,
-      "logps/chosen": -347.9569396972656,
-      "logps/rejected": -369.86651611328125,
-      "loss": 0.2074,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -0.8789178729057312,
-      "rewards/margins": 0.29278987646102905,
-      "rewards/rejected": -1.1717077493667603,
       "step": 330
     },
     {
-      "epoch": 0.71,
-      "learning_rate": 1.1666074087171627e-07,
-      "logits/chosen": -2.419278621673584,
-      "logits/rejected": -2.402167320251465,
-      "logps/chosen": -363.4530029296875,
-      "logps/rejected": -420.05120849609375,
-      "loss": 0.1955,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -1.0279251337051392,
-      "rewards/margins": 0.564226508140564,
-      "rewards/rejected": -1.592151403427124,
       "step": 340
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 1.0157994641835734e-07,
-      "logits/chosen": -2.376086473464966,
-      "logits/rejected": -2.3335413932800293,
-      "logps/chosen": -408.7635803222656,
-      "logps/rejected": -441.048095703125,
-      "loss": 0.1909,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -1.086114764213562,
-      "rewards/margins": 0.5473374128341675,
-      "rewards/rejected": -1.63345205783844,
       "step": 350
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 8.729103716819111e-08,
-      "logits/chosen": -2.411372661590576,
-      "logits/rejected": -2.371990203857422,
-      "logps/chosen": -410.19354248046875,
-      "logps/rejected": -433.1710510253906,
-      "loss": 0.1931,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -1.0855848789215088,
-      "rewards/margins": 0.615652322769165,
-      "rewards/rejected": -1.7012369632720947,
       "step": 360
     },
     {
-      "epoch": 0.77,
-      "learning_rate": 7.387025063449081e-08,
-      "logits/chosen": -2.3747622966766357,
-      "logits/rejected": -2.3522021770477295,
-      "logps/chosen": -411.6258850097656,
-      "logps/rejected": -446.7276916503906,
-      "loss": 0.1963,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -1.0866538286209106,
-      "rewards/margins": 0.5950818657875061,
-      "rewards/rejected": -1.681735634803772,
       "step": 370
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 6.138919252022435e-08,
-      "logits/chosen": -2.331786632537842,
-      "logits/rejected": -2.285926342010498,
-      "logps/chosen": -394.7089538574219,
-      "logps/rejected": -409.233642578125,
-      "loss": 0.2164,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -1.0215156078338623,
-      "rewards/margins": 0.5581755042076111,
-      "rewards/rejected": -1.5796910524368286,
       "step": 380
     },
     {
-      "epoch": 0.82,
-      "learning_rate": 4.991445467064689e-08,
-      "logits/chosen": -2.355071783065796,
-      "logits/rejected": -2.3421196937561035,
-      "logps/chosen": -354.08819580078125,
-      "logps/rejected": -387.34765625,
-      "loss": 0.2109,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.8925495147705078,
-      "rewards/margins": 0.4876587986946106,
-      "rewards/rejected": -1.3802082538604736,
       "step": 390
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 3.9507259776993954e-08,
-      "logits/chosen": -2.3882672786712646,
-      "logits/rejected": -2.381948471069336,
-      "logps/chosen": -351.5856018066406,
-      "logps/rejected": -389.5010681152344,
-      "loss": 0.2176,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.9489776492118835,
-      "rewards/margins": 0.43233805894851685,
-      "rewards/rejected": -1.3813157081604004,
-      "step": 400
-    },
-    {
-      "epoch": 0.84,
-      "eval_logits/chosen": -2.3910720348358154,
-      "eval_logits/rejected": -2.369123935699463,
-      "eval_logps/chosen": -344.2667236328125,
-      "eval_logps/rejected": -404.86376953125,
-      "eval_loss": 0.21091435849666595,
-      "eval_rewards/accuracies": 0.7109375,
-      "eval_rewards/chosen": -0.8722706437110901,
-      "eval_rewards/margins": 0.6028342247009277,
-      "eval_rewards/rejected": -1.475104808807373,
-      "eval_runtime": 53.3295,
-      "eval_samples_per_second": 37.503,
-      "eval_steps_per_second": 0.6,
       "step": 400
     },
-    {
-      "epoch": 0.86,
-      "learning_rate": 3.022313472693447e-08,
-      "logits/chosen": -2.35029935836792,
-      "logits/rejected": -2.3197388648986816,
-      "logps/chosen": -336.02435302734375,
-      "logps/rejected": -370.9861755371094,
-      "loss": 0.2113,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.8065496683120728,
-      "rewards/margins": 0.48399966955184937,
-      "rewards/rejected": -1.290549397468567,
-      "step": 410
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 2.2111614344599684e-08,
-      "logits/chosen": -2.384350299835205,
-      "logits/rejected": -2.343932867050171,
-      "logps/chosen": -353.1007385253906,
-      "logps/rejected": -373.4040222167969,
-      "loss": 0.2027,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.8209117650985718,
-      "rewards/margins": 0.5275887250900269,
-      "rewards/rejected": -1.3485008478164673,
-      "step": 420
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 1.521597710086439e-08,
-      "logits/chosen": -2.332576036453247,
-      "logits/rejected": -2.319338321685791,
-      "logps/chosen": -381.9653015136719,
-      "logps/rejected": -392.8800964355469,
-      "loss": 0.207,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -0.9718208312988281,
-      "rewards/margins": 0.4558374285697937,
-      "rewards/rejected": -1.4276583194732666,
-      "step": 430
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 9.57301420397924e-09,
-      "logits/chosen": -2.3502933979034424,
-      "logits/rejected": -2.3326973915100098,
-      "logps/chosen": -355.3913879394531,
-      "logps/rejected": -406.2868957519531,
-      "loss": 0.2031,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.955398678779602,
-      "rewards/margins": 0.5213964581489563,
-      "rewards/rejected": -1.4767951965332031,
-      "step": 440
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 5.212833302556258e-09,
-      "logits/chosen": -2.3776185512542725,
-      "logits/rejected": -2.3594932556152344,
-      "logps/chosen": -356.1197509765625,
-      "logps/rejected": -393.2214050292969,
-      "loss": 0.214,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -0.9058281183242798,
-      "rewards/margins": 0.49910789728164673,
-      "rewards/rejected": -1.4049360752105713,
-      "step": 450
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 2.158697848236607e-09,
-      "logits/chosen": -2.3594970703125,
-      "logits/rejected": -2.3184947967529297,
-      "logps/chosen": -365.49615478515625,
-      "logps/rejected": -374.89263916015625,
-      "loss": 0.2053,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.9762248992919922,
-      "rewards/margins": 0.49983182549476624,
-      "rewards/rejected": -1.4760568141937256,
-      "step": 460
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 4.269029751107489e-10,
-      "logits/chosen": -2.3517262935638428,
-      "logits/rejected": -2.3309903144836426,
-      "logps/chosen": -355.54058837890625,
-      "logps/rejected": -393.1492614746094,
-      "loss": 0.2037,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.8432854413986206,
-      "rewards/margins": 0.583833634853363,
-      "rewards/rejected": -1.427119255065918,
-      "step": 470
-    },
     {
       "epoch": 1.0,
-      "step": 478,
       "total_flos": 0.0,
-      "train_loss": 0.24144619029934936,
-      "train_runtime": 3938.2574,
-      "train_samples_per_second": 15.523,
-      "train_steps_per_second": 0.121
     }
   ],
   "logging_steps": 10,
-  "max_steps": 478,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "total_flos": 0.0,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.998766954377312,
+  "eval_steps": 1000,
+  "global_step": 405,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 1.2195121951219512e-08,
+      "logits/chosen": -2.8088459968566895,
+      "logits/rejected": -2.7595884799957275,
+      "logps/chosen": -368.90777587890625,
+      "logps/rejected": -133.10202026367188,
+      "loss": 0.5469,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
     },
     {
       "epoch": 0.02,
+      "learning_rate": 1.219512195121951e-07,
+      "logits/chosen": -2.838653802871704,
+      "logits/rejected": -2.824901819229126,
+      "logps/chosen": -433.81378173828125,
+      "logps/rejected": -114.705810546875,
+      "loss": 0.55,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.0011021953541785479,
+      "rewards/margins": 0.0018466737819835544,
+      "rewards/rejected": -0.0007444784860126674,
       "step": 10
     },
     {
+      "epoch": 0.05,
+      "learning_rate": 2.439024390243902e-07,
+      "logits/chosen": -2.797428607940674,
+      "logits/rejected": -2.7644600868225098,
+      "logps/chosen": -436.551025390625,
+      "logps/rejected": -109.42466735839844,
+      "loss": 0.5381,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": 0.02190575934946537,
+      "rewards/margins": 0.03880878537893295,
+      "rewards/rejected": -0.01690302975475788,
       "step": 20
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 3.6585365853658536e-07,
+      "logits/chosen": -2.7145814895629883,
+      "logits/rejected": -2.6879427433013916,
+      "logps/chosen": -422.17218017578125,
+      "logps/rejected": -128.7976531982422,
+      "loss": 0.4635,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": 0.07188864052295685,
+      "rewards/margins": 0.20736002922058105,
+      "rewards/rejected": -0.1354713886976242,
       "step": 30
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 4.878048780487804e-07,
+      "logits/chosen": -2.588033676147461,
+      "logits/rejected": -2.5705184936523438,
+      "logps/chosen": -397.0795593261719,
+      "logps/rejected": -140.2168426513672,
+      "loss": 0.3735,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": 0.016153398901224136,
+      "rewards/margins": 0.42458558082580566,
+      "rewards/rejected": -0.40843215584754944,
       "step": 40
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 4.992461696250783e-07,
+      "logits/chosen": -2.4239001274108887,
+      "logits/rejected": -2.3979756832122803,
+      "logps/chosen": -445.3406677246094,
+      "logps/rejected": -201.51806640625,
+      "loss": 0.2783,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.030274126678705215,
+      "rewards/margins": 0.8344534635543823,
+      "rewards/rejected": -0.8647276163101196,
       "step": 50
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 4.966461721767899e-07,
+      "logits/chosen": -2.383493661880493,
+      "logits/rejected": -2.3332314491271973,
+      "logps/chosen": -423.5155334472656,
+      "logps/rejected": -253.60073852539062,
+      "loss": 0.2228,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.36428865790367126,
+      "rewards/margins": 0.920581042766571,
+      "rewards/rejected": -1.2848697900772095,
       "step": 60
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 4.922100518015975e-07,
+      "logits/chosen": -2.4096710681915283,
+      "logits/rejected": -2.364241123199463,
+      "logps/chosen": -422.70513916015625,
+      "logps/rejected": -279.1031188964844,
+      "loss": 0.1891,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.3884132504463196,
+      "rewards/margins": 1.2157753705978394,
+      "rewards/rejected": -1.6041886806488037,
       "step": 70
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 4.859708325770919e-07,
+      "logits/chosen": -2.38008451461792,
+      "logits/rejected": -2.344496011734009,
+      "logps/chosen": -455.79339599609375,
+      "logps/rejected": -303.01690673828125,
+      "loss": 0.1269,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.647363543510437,
+      "rewards/margins": 1.3260728120803833,
+      "rewards/rejected": -1.9734363555908203,
       "step": 80
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 4.779749614980225e-07,
+      "logits/chosen": -2.374379873275757,
+      "logits/rejected": -2.3444790840148926,
+      "logps/chosen": -532.1400146484375,
+      "logps/rejected": -380.60955810546875,
+      "loss": 0.1095,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.560777485370636,
+      "rewards/margins": 1.9465181827545166,
+      "rewards/rejected": -2.507295846939087,
       "step": 90
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 4.682819627081427e-07,
+      "logits/chosen": -2.3339896202087402,
+      "logits/rejected": -2.2830748558044434,
+      "logps/chosen": -467.65374755859375,
+      "logps/rejected": -348.66156005859375,
+      "loss": 0.1477,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -0.54865962266922,
+      "rewards/margins": 1.753379464149475,
+      "rewards/rejected": -2.30203914642334,
       "step": 100
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 4.569639943810477e-07,
+      "logits/chosen": -2.3383262157440186,
+      "logits/rejected": -2.2902047634124756,
+      "logps/chosen": -484.0919494628906,
+      "logps/rejected": -367.74505615234375,
+      "loss": 0.1193,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.769287645816803,
+      "rewards/margins": 1.7386033535003662,
+      "rewards/rejected": -2.5078909397125244,
       "step": 110
     },
     {
+      "epoch": 0.3,
+      "learning_rate": 4.4410531154874543e-07,
+      "logits/chosen": -2.3726840019226074,
+      "logits/rejected": -2.317364454269409,
+      "logps/chosen": -516.4107666015625,
+      "logps/rejected": -385.29571533203125,
+      "loss": 0.1169,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.6457246541976929,
+      "rewards/margins": 1.9019176959991455,
+      "rewards/rejected": -2.547642469406128,
       "step": 120
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 4.298016388768561e-07,
+      "logits/chosen": -2.413625717163086,
+      "logits/rejected": -2.3727028369903564,
+      "logps/chosen": -501.69561767578125,
+      "logps/rejected": -364.65997314453125,
+      "loss": 0.1158,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.36493119597435,
+      "rewards/margins": 2.0498671531677246,
+      "rewards/rejected": -2.4147982597351074,
       "step": 130
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 4.1415945805573005e-07,
+      "logits/chosen": -2.3137855529785156,
+      "logits/rejected": -2.2661328315734863,
+      "logps/chosen": -494.91546630859375,
+      "logps/rejected": -381.90924072265625,
+      "loss": 0.1181,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.7394388914108276,
+      "rewards/margins": 1.7537353038787842,
+      "rewards/rejected": -2.4931740760803223,
       "step": 140
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 3.972952151123984e-07,
+      "logits/chosen": -2.3150975704193115,
+      "logits/rejected": -2.2541096210479736,
+      "logps/chosen": -429.13299560546875,
+      "logps/rejected": -321.36676025390625,
+      "loss": 0.1415,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.5441495180130005,
+      "rewards/margins": 1.660264253616333,
+      "rewards/rejected": -2.204413890838623,
       "step": 150
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 3.793344535444142e-07,
+      "logits/chosen": -2.2927441596984863,
+      "logits/rejected": -2.235689401626587,
+      "logps/chosen": -517.9212646484375,
+      "logps/rejected": -355.93096923828125,
+      "loss": 0.1116,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -0.5073868036270142,
+      "rewards/margins": 1.9403215646743774,
+      "rewards/rejected": -2.4477083683013916,
       "step": 160
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 3.604108797288461e-07,
+      "logits/chosen": -2.2924787998199463,
+      "logits/rejected": -2.2269301414489746,
+      "logps/chosen": -528.6913452148438,
+      "logps/rejected": -407.18780517578125,
+      "loss": 0.0933,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.8971579670906067,
+      "rewards/margins": 2.0700173377990723,
+      "rewards/rejected": -2.9671754837036133,
       "step": 170
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 3.40665367563858e-07,
+      "logits/chosen": -2.288649320602417,
+      "logits/rejected": -2.230454683303833,
+      "logps/chosen": -500.1395568847656,
+      "logps/rejected": -393.0097961425781,
+      "loss": 0.0995,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.9004061818122864,
+      "rewards/margins": 1.8742806911468506,
+      "rewards/rejected": -2.774686813354492,
       "step": 180
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 3.202449097526798e-07,
+      "logits/chosen": -2.3139257431030273,
+      "logits/rejected": -2.2718071937561035,
+      "logps/chosen": -465.964111328125,
+      "logps/rejected": -354.6561584472656,
+      "loss": 0.1167,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -0.6382254362106323,
+      "rewards/margins": 1.8348891735076904,
+      "rewards/rejected": -2.4731147289276123,
       "step": 190
     },
     {
+      "epoch": 0.49,
+      "learning_rate": 2.993015235369905e-07,
+      "logits/chosen": -2.2759037017822266,
+      "logits/rejected": -2.2043704986572266,
+      "logps/chosen": -518.3172607421875,
+      "logps/rejected": -417.5638122558594,
+      "loss": 0.0996,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -0.7904411554336548,
+      "rewards/margins": 2.2067065238952637,
+      "rewards/rejected": -2.997147798538208,
       "step": 200
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 2.7799111902582693e-07,
+      "logits/chosen": -2.2700018882751465,
+      "logits/rejected": -2.207021951675415,
+      "logps/chosen": -489.39801025390625,
+      "logps/rejected": -369.2752685546875,
+      "loss": 0.1109,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.889120876789093,
+      "rewards/margins": 1.7826087474822998,
+      "rewards/rejected": -2.671729803085327,
       "step": 210
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 2.564723385445869e-07,
+      "logits/chosen": -2.324565887451172,
+      "logits/rejected": -2.267853260040283,
+      "logps/chosen": -490.59130859375,
+      "logps/rejected": -388.76690673828125,
+      "loss": 0.1348,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.7297108769416809,
+      "rewards/margins": 1.9148566722869873,
+      "rewards/rejected": -2.6445674896240234,
       "step": 220
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 2.3490537564442845e-07,
+      "logits/chosen": -2.267577648162842,
+      "logits/rejected": -2.186471462249756,
+      "logps/chosen": -497.12335205078125,
+      "logps/rejected": -387.3985900878906,
+      "loss": 0.1239,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.051777958869934,
+      "rewards/margins": 1.7568168640136719,
+      "rewards/rejected": -2.8085949420928955,
       "step": 230
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 2.1345078256378801e-07,
+      "logits/chosen": -2.311931610107422,
+      "logits/rejected": -2.2356672286987305,
+      "logps/chosen": -485.4923400878906,
+      "logps/rejected": -404.1107177734375,
+      "loss": 0.1251,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.7667996287345886,
+      "rewards/margins": 2.0932888984680176,
+      "rewards/rejected": -2.860088586807251,
       "step": 240
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 1.9226827501969865e-07,
+      "logits/chosen": -2.326636552810669,
+      "logits/rejected": -2.2703440189361572,
+      "logps/chosen": -509.9071350097656,
+      "logps/rejected": -414.39874267578125,
+      "loss": 0.1196,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.6723321676254272,
+      "rewards/margins": 2.289646625518799,
+      "rewards/rejected": -2.9619784355163574,
       "step": 250
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 1.715155432264775e-07,
+      "logits/chosen": -2.3231379985809326,
+      "logits/rejected": -2.2714104652404785,
+      "logps/chosen": -511.625732421875,
+      "logps/rejected": -397.1949157714844,
+      "loss": 0.104,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -0.7959054708480835,
+      "rewards/margins": 2.012528896331787,
+      "rewards/rejected": -2.80843448638916,
       "step": 260
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 1.51347077992983e-07,
+      "logits/chosen": -2.3125240802764893,
+      "logits/rejected": -2.269193410873413,
+      "logps/chosen": -496.95001220703125,
+      "logps/rejected": -402.70782470703125,
+      "loss": 0.0976,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.9325113296508789,
+      "rewards/margins": 1.8711084127426147,
+      "rewards/rejected": -2.803619861602783,
       "step": 270
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 1.3191302063739906e-07,
+      "logits/chosen": -2.282691717147827,
+      "logits/rejected": -2.233623743057251,
+      "logps/chosen": -469.02630615234375,
+      "logps/rejected": -393.0565185546875,
+      "loss": 0.0978,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.8983050584793091,
+      "rewards/margins": 1.9013340473175049,
+      "rewards/rejected": -2.7996389865875244,
       "step": 280
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 1.1335804528119475e-07,
+      "logits/chosen": -2.3497660160064697,
+      "logits/rejected": -2.2719693183898926,
+      "logps/chosen": -515.9114990234375,
+      "logps/rejected": -393.408935546875,
+      "loss": 0.1062,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.8015244603157043,
+      "rewards/margins": 2.1254332065582275,
+      "rewards/rejected": -2.926957607269287,
       "step": 290
     },
     {
+      "epoch": 0.74,
+      "learning_rate": 9.582028184286423e-08,
+      "logits/chosen": -2.2509076595306396,
+      "logits/rejected": -2.2074227333068848,
+      "logps/chosen": -466.32305908203125,
+      "logps/rejected": -419.3622131347656,
+      "loss": 0.1048,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.0646774768829346,
+      "rewards/margins": 1.9130761623382568,
+      "rewards/rejected": -2.9777536392211914,
       "step": 300
     },
     {
+      "epoch": 0.76,
+      "learning_rate": 7.943028774907065e-08,
+      "logits/chosen": -2.250230312347412,
+      "logits/rejected": -2.195244789123535,
+      "logps/chosen": -476.79998779296875,
+      "logps/rejected": -408.64068603515625,
+      "loss": 0.1044,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.923287034034729,
+      "rewards/margins": 1.9779703617095947,
+      "rewards/rejected": -2.901257276535034,
       "step": 310
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 6.431007601814637e-08,
+      "logits/chosen": -2.2714295387268066,
+      "logits/rejected": -2.2263479232788086,
+      "logps/chosen": -431.47601318359375,
+      "logps/rejected": -397.78521728515625,
+      "loss": 0.0946,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -1.0377047061920166,
+      "rewards/margins": 1.8672853708267212,
+      "rewards/rejected": -2.9049899578094482,
       "step": 320
     },
     {
+      "epoch": 0.81,
+      "learning_rate": 5.0572206951246e-08,
+      "logits/chosen": -2.243610382080078,
+      "logits/rejected": -2.1739163398742676,
+      "logps/chosen": -469.3233337402344,
+      "logps/rejected": -400.6234130859375,
+      "loss": 0.1024,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.0177555084228516,
+      "rewards/margins": 1.9254471063613892,
+      "rewards/rejected": -2.943202495574951,
       "step": 330
     },
     {
+      "epoch": 0.84,
+      "learning_rate": 3.831895019292897e-08,
+      "logits/chosen": -2.302597761154175,
+      "logits/rejected": -2.245525360107422,
+      "logps/chosen": -527.4336547851562,
+      "logps/rejected": -453.01116943359375,
+      "loss": 0.1089,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.9302037954330444,
+      "rewards/margins": 2.4225857257843018,
+      "rewards/rejected": -3.3527894020080566,
       "step": 340
     },
     {
+      "epoch": 0.86,
+      "learning_rate": 2.764152339909756e-08,
+      "logits/chosen": -2.2584733963012695,
+      "logits/rejected": -2.1962692737579346,
+      "logps/chosen": -499.47576904296875,
+      "logps/rejected": -363.5857238769531,
+      "loss": 0.1036,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.7420647144317627,
+      "rewards/margins": 1.9064794778823853,
+      "rewards/rejected": -2.6485438346862793,
       "step": 350
     },
     {
+      "epoch": 0.89,
+      "learning_rate": 1.861941317991664e-08,
+      "logits/chosen": -2.300192356109619,
+      "logits/rejected": -2.2127695083618164,
+      "logps/chosen": -531.5907592773438,
+      "logps/rejected": -412.7438049316406,
+      "loss": 0.1013,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.7529584765434265,
+      "rewards/margins": 2.228832960128784,
+      "rewards/rejected": -2.9817919731140137,
       "step": 360
     },
     {
+      "epoch": 0.91,
+      "learning_rate": 1.13197833728636e-08,
+      "logits/chosen": -2.25828218460083,
+      "logits/rejected": -2.198098659515381,
+      "logps/chosen": -485.60052490234375,
+      "logps/rejected": -423.1136779785156,
+      "loss": 0.095,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -0.8292403221130371,
+      "rewards/margins": 2.2823524475097656,
+      "rewards/rejected": -3.1115927696228027,
       "step": 370
     },
     {
+      "epoch": 0.94,
+      "learning_rate": 5.79697505093521e-09,
+      "logits/chosen": -2.2520506381988525,
+      "logits/rejected": -2.1905932426452637,
+      "logps/chosen": -501.0511169433594,
+      "logps/rejected": -402.864501953125,
+      "loss": 0.1084,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.9875413775444031,
+      "rewards/margins": 1.987672209739685,
+      "rewards/rejected": -2.9752135276794434,
       "step": 380
     },
     {
+      "epoch": 0.96,
+      "learning_rate": 2.092101988131256e-09,
+      "logits/chosen": -2.2959237098693848,
+      "logits/rejected": -2.1943726539611816,
+      "logps/chosen": -542.3916015625,
+      "logps/rejected": -426.2535095214844,
+      "loss": 0.092,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.7925306558609009,
+      "rewards/margins": 2.3787803649902344,
+      "rewards/rejected": -3.1713109016418457,
       "step": 390
     },
     {
+      "epoch": 0.99,
+      "learning_rate": 2.327445937151673e-10,
+      "logits/chosen": -2.2838008403778076,
+      "logits/rejected": -2.2221412658691406,
+      "logps/chosen": -538.8756103515625,
+      "logps/rejected": -445.8970642089844,
+      "loss": 0.0998,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.9025734066963196,
+      "rewards/margins": 2.2714860439300537,
+      "rewards/rejected": -3.1740598678588867,
       "step": 400
     },
     {
       "epoch": 1.0,
+      "step": 405,
       "total_flos": 0.0,
+      "train_loss": 0.1562451661368947,
+      "train_runtime": 3209.2418,
+      "train_samples_per_second": 16.17,
+      "train_steps_per_second": 0.126
     }
   ],
   "logging_steps": 10,
+  "max_steps": 405,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "total_flos": 0.0,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15567a5ebd52189e7290bf43198c9b6daf8df7c6891843c92df459afcb24b49d
 size 5944

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ee5499d0ce2b903ad76a9c35cc9bf4c38d09435955bae297aa02a619c188930
 size 5944