Model save

Browse files

Files changed (8) hide show

README.md +14 -14
all_results.json +3 -3
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +3 -3
trainer_state.json +475 -475
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -17,15 +17,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [HuggingFaceH4/mistral-7b-sft-beta](https://huggingface.co/HuggingFaceH4/mistral-7b-sft-beta) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0877
-- Rewards/chosen: -1.3262
-- Rewards/rejected: -2.1356
-- Rewards/accuracies: 0.7461
-- Rewards/margins: 0.8094
-- Logps/rejected: -470.9141
-- Logps/chosen: -389.6565
-- Logits/rejected: -2.3558
-- Logits/chosen: -2.3731
 ## Model description
@@ -47,7 +47,7 @@ The following hyperparameters were used during training:
 - learning_rate: 5e-07
 - train_batch_size: 8
 - eval_batch_size: 8
-- seed: 1
 - distributed_type: multi-GPU
 - num_devices: 8
 - gradient_accumulation_steps: 2
@@ -62,10 +62,10 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.1528        | 0.21  | 100  | 0.1444          | -0.5046        | -0.9206          | 0.7031             | 0.4160          | -349.4104      | -307.4990    | -2.7186         | -2.7336       |
-| 0.1108        | 0.42  | 200  | 0.1121          | -0.7778        | -1.4349          | 0.7422             | 0.6570          | -400.8387      | -334.8226    | -2.5261         | -2.5417       |
-| 0.0931        | 0.63  | 300  | 0.0951          | -1.1732        | -1.9076          | 0.7344             | 0.7344          | -448.1167      | -374.3614    | -2.4045         | -2.4225       |
-| 0.0932        | 0.84  | 400  | 0.0877          | -1.3262        | -2.1356          | 0.7461             | 0.8094          | -470.9141      | -389.6565    | -2.3558         | -2.3731       |
 ### Framework versions

 This model is a fine-tuned version of [HuggingFaceH4/mistral-7b-sft-beta](https://huggingface.co/HuggingFaceH4/mistral-7b-sft-beta) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0984
+- Rewards/chosen: -1.3191
+- Rewards/rejected: -2.1712
+- Rewards/accuracies: 0.7695
+- Rewards/margins: 0.8521
+- Logps/rejected: -474.4743
+- Logps/chosen: -388.9529
+- Logits/rejected: -2.3033
+- Logits/chosen: -2.3263
 ## Model description
 - learning_rate: 5e-07
 - train_batch_size: 8
 - eval_batch_size: 8
+- seed: 2
 - distributed_type: multi-GPU
 - num_devices: 8
 - gradient_accumulation_steps: 2
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.1368        | 0.21  | 100  | 0.1234          | -0.7206        | -1.1646          | 0.6953             | 0.4441          | -373.8169      | -329.0978    | -2.7113         | -2.7294       |
+| 0.0936        | 0.42  | 200  | 0.1059          | -1.0413        | -1.7570          | 0.7422             | 0.7157          | -433.0510      | -361.1696    | -2.4844         | -2.4997       |
+| 0.1045        | 0.63  | 300  | 0.1050          | -1.1721        | -1.9852          | 0.7734             | 0.8130          | -455.8698      | -374.2533    | -2.3263         | -2.3482       |
+| 0.1007        | 0.84  | 400  | 0.0984          | -1.3191        | -2.1712          | 0.7695             | 0.8521          | -474.4743      | -388.9529    | -2.3033         | -2.3263       |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.12649250616588353,
-    "train_runtime": 3963.8799,
     "train_samples": 61134,
-    "train_samples_per_second": 15.423,
     "train_steps_per_second": 0.121
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.1291348352467166,
+    "train_runtime": 3954.3407,
     "train_samples": 61134,
+    "train_samples_per_second": 15.46,
     "train_steps_per_second": 0.121
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5aee81292234d6e52bb3cdaa45422c3f60e71172118fc9313da60cca0b03a8a1
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fe3e4f192ed2e573b5cbf51b51764837d4007ee0259284acc1f48b124da8b6e
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b74d26bd863383e5a11e09eb1d143ab8b85014bffbf535204b1c3ec3024036fc
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:e249011a9acc7d7bbbab724db55675116bdc3bc9bca0061d19caf4d0746fe0eb
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:968bff39cf08f0042961e59b91454462e784556ece7b2f512fe6ad765c39f4b9
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:18a8fcfbeafc2d0379f3ff5fc4d20170b38d564715a9f24f021fffc7cd28885a
 size 4540516344

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.12649250616588353,
-    "train_runtime": 3963.8799,
     "train_samples": 61134,
-    "train_samples_per_second": 15.423,
     "train_steps_per_second": 0.121
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.1291348352467166,
+    "train_runtime": 3954.3407,
     "train_samples": 61134,
+    "train_samples_per_second": 15.46,
     "train_steps_per_second": 0.121
 }

trainer_state.json CHANGED Viewed

@@ -11,11 +11,11 @@
     {
       "epoch": 0.0,
       "learning_rate": 1.0416666666666666e-08,
-      "logits/chosen": -2.847970962524414,
-      "logits/rejected": -2.79160213470459,
-      "logps/chosen": -284.9612731933594,
-      "logps/rejected": -276.45928955078125,
-      "loss": 0.2884,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -25,732 +25,732 @@
     {
       "epoch": 0.02,
       "learning_rate": 1.0416666666666667e-07,
-      "logits/chosen": -2.7547335624694824,
-      "logits/rejected": -2.752797842025757,
-      "logps/chosen": -249.9191131591797,
-      "logps/rejected": -223.05352783203125,
-      "loss": 0.2732,
-      "rewards/accuracies": 0.4444444477558136,
-      "rewards/chosen": 0.000286663620499894,
-      "rewards/margins": 0.0003425275208428502,
-      "rewards/rejected": -5.586385304923169e-05,
       "step": 10
     },
     {
       "epoch": 0.04,
       "learning_rate": 2.0833333333333333e-07,
-      "logits/chosen": -2.7447333335876465,
-      "logits/rejected": -2.745217800140381,
-      "logps/chosen": -257.42864990234375,
-      "logps/rejected": -247.4891357421875,
-      "loss": 0.2745,
-      "rewards/accuracies": 0.543749988079071,
-      "rewards/chosen": 0.00026875577168539166,
-      "rewards/margins": 0.0008533511427231133,
-      "rewards/rejected": -0.0005845952546223998,
       "step": 20
     },
     {
       "epoch": 0.06,
       "learning_rate": 3.1249999999999997e-07,
-      "logits/chosen": -2.800112247467041,
-      "logits/rejected": -2.7527897357940674,
-      "logps/chosen": -300.57513427734375,
-      "logps/rejected": -261.90386962890625,
-      "loss": 0.2762,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": 1.9117258489131927e-05,
-      "rewards/margins": 0.008139841258525848,
-      "rewards/rejected": -0.008120724000036716,
       "step": 30
     },
     {
       "epoch": 0.08,
       "learning_rate": 4.1666666666666667e-07,
-      "logits/chosen": -2.760014057159424,
-      "logits/rejected": -2.7479090690612793,
-      "logps/chosen": -256.8675537109375,
-      "logps/rejected": -274.7937316894531,
-      "loss": 0.278,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.004336931277066469,
-      "rewards/margins": 0.02276746928691864,
-      "rewards/rejected": -0.02710440196096897,
       "step": 40
     },
     {
       "epoch": 0.1,
       "learning_rate": 4.999733114418725e-07,
-      "logits/chosen": -2.756197929382324,
-      "logits/rejected": -2.728389024734497,
-      "logps/chosen": -285.9724426269531,
-      "logps/rejected": -257.05694580078125,
       "loss": 0.2674,
-      "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": -0.03893030807375908,
-      "rewards/margins": 0.054606568068265915,
-      "rewards/rejected": -0.09353688359260559,
       "step": 50
     },
     {
       "epoch": 0.13,
       "learning_rate": 4.990398100856366e-07,
-      "logits/chosen": -2.714569091796875,
-      "logits/rejected": -2.70277738571167,
-      "logps/chosen": -287.0633850097656,
-      "logps/rejected": -260.37890625,
-      "loss": 0.2469,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.11178895086050034,
-      "rewards/margins": 0.09152142703533173,
-      "rewards/rejected": -0.20331040024757385,
       "step": 60
     },
     {
       "epoch": 0.15,
       "learning_rate": 4.967775735898179e-07,
-      "logits/chosen": -2.756913900375366,
-      "logits/rejected": -2.7149264812469482,
-      "logps/chosen": -284.56011962890625,
-      "logps/rejected": -262.7689514160156,
-      "loss": 0.2154,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -0.1742471307516098,
-      "rewards/margins": 0.13403555750846863,
-      "rewards/rejected": -0.30828267335891724,
       "step": 70
     },
     {
       "epoch": 0.17,
       "learning_rate": 4.931986719649298e-07,
-      "logits/chosen": -2.7609376907348633,
-      "logits/rejected": -2.734510660171509,
-      "logps/chosen": -284.21551513671875,
-      "logps/rejected": -317.23236083984375,
-      "loss": 0.1847,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": -0.23862528800964355,
-      "rewards/margins": 0.21072354912757874,
-      "rewards/rejected": -0.4493487775325775,
       "step": 80
     },
     {
       "epoch": 0.19,
       "learning_rate": 4.883222001996351e-07,
-      "logits/chosen": -2.7887558937072754,
-      "logits/rejected": -2.7636470794677734,
-      "logps/chosen": -316.7803039550781,
-      "logps/rejected": -324.9473571777344,
-      "loss": 0.1585,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -0.4141347408294678,
-      "rewards/margins": 0.3233526349067688,
-      "rewards/rejected": -0.7374873757362366,
       "step": 90
     },
     {
       "epoch": 0.21,
       "learning_rate": 4.821741763807186e-07,
-      "logits/chosen": -2.7823832035064697,
-      "logits/rejected": -2.7509586811065674,
-      "logps/chosen": -330.6769104003906,
-      "logps/rejected": -338.5577087402344,
-      "loss": 0.1528,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.4171191155910492,
-      "rewards/margins": 0.3463096618652344,
-      "rewards/rejected": -0.7634287476539612,
       "step": 100
     },
     {
       "epoch": 0.21,
-      "eval_logits/chosen": -2.7335572242736816,
-      "eval_logits/rejected": -2.718585968017578,
-      "eval_logps/chosen": -307.4990234375,
-      "eval_logps/rejected": -349.410400390625,
-      "eval_loss": 0.14441701769828796,
-      "eval_rewards/accuracies": 0.703125,
-      "eval_rewards/chosen": -0.5045937895774841,
-      "eval_rewards/margins": 0.4159778654575348,
-      "eval_rewards/rejected": -0.9205717444419861,
-      "eval_runtime": 53.6196,
-      "eval_samples_per_second": 37.3,
       "eval_steps_per_second": 0.597,
       "step": 100
     },
     {
       "epoch": 0.23,
       "learning_rate": 4.747874028753375e-07,
-      "logits/chosen": -2.674656629562378,
-      "logits/rejected": -2.6687161922454834,
-      "logps/chosen": -337.2121276855469,
-      "logps/rejected": -396.91595458984375,
-      "loss": 0.12,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.7294884920120239,
-      "rewards/margins": 0.5125582814216614,
-      "rewards/rejected": -1.24204683303833,
       "step": 110
     },
     {
       "epoch": 0.25,
       "learning_rate": 4.662012913161997e-07,
-      "logits/chosen": -2.6504039764404297,
-      "logits/rejected": -2.6141586303710938,
-      "logps/chosen": -368.1474914550781,
-      "logps/rejected": -387.9979553222656,
-      "loss": 0.1101,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -1.0060771703720093,
-      "rewards/margins": 0.4001084864139557,
-      "rewards/rejected": -1.406185507774353,
       "step": 120
     },
     {
       "epoch": 0.27,
       "learning_rate": 4.5646165232345103e-07,
-      "logits/chosen": -2.6267447471618652,
-      "logits/rejected": -2.594045400619507,
-      "logps/chosen": -375.8540954589844,
-      "logps/rejected": -363.2262268066406,
-      "loss": 0.1178,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.8372260928153992,
-      "rewards/margins": 0.3926037847995758,
-      "rewards/rejected": -1.2298297882080078,
       "step": 130
     },
     {
       "epoch": 0.29,
       "learning_rate": 4.456204510851956e-07,
-      "logits/chosen": -2.5409464836120605,
-      "logits/rejected": -2.5215885639190674,
-      "logps/chosen": -319.5188293457031,
-      "logps/rejected": -338.7505798339844,
-      "loss": 0.1225,
-      "rewards/accuracies": 0.6187499761581421,
-      "rewards/chosen": -0.7115974426269531,
-      "rewards/margins": 0.47829103469848633,
-      "rewards/rejected": -1.1898884773254395,
       "step": 140
     },
     {
       "epoch": 0.31,
       "learning_rate": 4.337355301007335e-07,
-      "logits/chosen": -2.5749340057373047,
-      "logits/rejected": -2.5617096424102783,
-      "logps/chosen": -327.0196228027344,
-      "logps/rejected": -341.3411560058594,
-      "loss": 0.1327,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -0.6178635954856873,
-      "rewards/margins": 0.39589935541152954,
-      "rewards/rejected": -1.0137629508972168,
       "step": 150
     },
     {
       "epoch": 0.33,
       "learning_rate": 4.2087030056579986e-07,
-      "logits/chosen": -2.564208507537842,
-      "logits/rejected": -2.5471348762512207,
-      "logps/chosen": -320.0544738769531,
-      "logps/rejected": -338.40899658203125,
-      "loss": 0.125,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -0.5907465219497681,
-      "rewards/margins": 0.47800785303115845,
-      "rewards/rejected": -1.0687544345855713,
       "step": 160
     },
     {
       "epoch": 0.36,
       "learning_rate": 4.070934040463998e-07,
-      "logits/chosen": -2.5135045051574707,
-      "logits/rejected": -2.4910852909088135,
-      "logps/chosen": -342.8435974121094,
-      "logps/rejected": -369.6528625488281,
-      "loss": 0.1216,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.7418714165687561,
-      "rewards/margins": 0.44837790727615356,
-      "rewards/rejected": -1.1902493238449097,
       "step": 170
     },
     {
       "epoch": 0.38,
       "learning_rate": 3.9247834624635404e-07,
-      "logits/chosen": -2.5766987800598145,
-      "logits/rejected": -2.5346732139587402,
-      "logps/chosen": -350.6063537597656,
-      "logps/rejected": -388.07867431640625,
-      "loss": 0.112,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -0.7415702939033508,
-      "rewards/margins": 0.6597684621810913,
-      "rewards/rejected": -1.4013385772705078,
       "step": 180
     },
     {
       "epoch": 0.4,
       "learning_rate": 3.7710310482256523e-07,
-      "logits/chosen": -2.475404977798462,
-      "logits/rejected": -2.454536199569702,
-      "logps/chosen": -358.01678466796875,
-      "logps/rejected": -389.5230712890625,
-      "loss": 0.1116,
       "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -1.0080442428588867,
-      "rewards/margins": 0.5189759135246277,
-      "rewards/rejected": -1.5270202159881592,
       "step": 190
     },
     {
       "epoch": 0.42,
       "learning_rate": 3.610497133404795e-07,
-      "logits/chosen": -2.582571506500244,
-      "logits/rejected": -2.5270559787750244,
-      "logps/chosen": -408.98175048828125,
-      "logps/rejected": -428.68133544921875,
-      "loss": 0.1108,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.7440523505210876,
-      "rewards/margins": 0.7437406778335571,
-      "rewards/rejected": -1.4877930879592896,
       "step": 200
     },
     {
       "epoch": 0.42,
-      "eval_logits/chosen": -2.541661024093628,
-      "eval_logits/rejected": -2.5261168479919434,
-      "eval_logps/chosen": -334.8226318359375,
-      "eval_logps/rejected": -400.8387451171875,
-      "eval_loss": 0.1121269091963768,
       "eval_rewards/accuracies": 0.7421875,
-      "eval_rewards/chosen": -0.7778301239013672,
-      "eval_rewards/margins": 0.657024621963501,
-      "eval_rewards/rejected": -1.4348547458648682,
-      "eval_runtime": 53.592,
-      "eval_samples_per_second": 37.319,
-      "eval_steps_per_second": 0.597,
       "step": 200
     },
     {
       "epoch": 0.44,
       "learning_rate": 3.4440382358952115e-07,
-      "logits/chosen": -2.515012741088867,
-      "logits/rejected": -2.471090316772461,
-      "logps/chosen": -360.82781982421875,
-      "logps/rejected": -387.8971252441406,
-      "loss": 0.108,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -0.9362117648124695,
-      "rewards/margins": 0.5384734869003296,
-      "rewards/rejected": -1.4746851921081543,
       "step": 210
     },
     {
       "epoch": 0.46,
       "learning_rate": 3.272542485937368e-07,
-      "logits/chosen": -2.482541561126709,
-      "logits/rejected": -2.4680473804473877,
-      "logps/chosen": -393.7977600097656,
-      "logps/rejected": -409.53424072265625,
-      "loss": 0.1045,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.9923732876777649,
-      "rewards/margins": 0.6926249265670776,
-      "rewards/rejected": -1.6849981546401978,
       "step": 220
     },
     {
       "epoch": 0.48,
       "learning_rate": 3.096924887558854e-07,
-      "logits/chosen": -2.487530469894409,
-      "logits/rejected": -2.484644651412964,
-      "logps/chosen": -383.8633117675781,
-      "logps/rejected": -448.24578857421875,
-      "loss": 0.1028,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -1.0205323696136475,
-      "rewards/margins": 0.5532661080360413,
-      "rewards/rejected": -1.573798418045044,
       "step": 230
     },
     {
       "epoch": 0.5,
       "learning_rate": 2.9181224366319943e-07,
-      "logits/chosen": -2.478008270263672,
-      "logits/rejected": -2.449632167816162,
-      "logps/chosen": -384.19049072265625,
-      "logps/rejected": -452.62060546875,
-      "loss": 0.0937,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -1.3048760890960693,
-      "rewards/margins": 0.6360560655593872,
-      "rewards/rejected": -1.9409319162368774,
       "step": 240
     },
     {
       "epoch": 0.52,
       "learning_rate": 2.7370891215954565e-07,
-      "logits/chosen": -2.4623560905456543,
-      "logits/rejected": -2.4116673469543457,
-      "logps/chosen": -400.11376953125,
-      "logps/rejected": -440.81707763671875,
-      "loss": 0.0877,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -1.4118852615356445,
-      "rewards/margins": 0.6420382261276245,
-      "rewards/rejected": -2.0539233684539795,
       "step": 250
     },
     {
       "epoch": 0.54,
       "learning_rate": 2.55479083351317e-07,
-      "logits/chosen": -2.453117847442627,
-      "logits/rejected": -2.4495043754577637,
-      "logps/chosen": -387.19244384765625,
-      "logps/rejected": -417.88995361328125,
-      "loss": 0.102,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -1.1858361959457397,
-      "rewards/margins": 0.508370578289032,
-      "rewards/rejected": -1.6942065954208374,
       "step": 260
     },
     {
       "epoch": 0.56,
       "learning_rate": 2.3722002126275822e-07,
-      "logits/chosen": -2.412879467010498,
-      "logits/rejected": -2.405669927597046,
-      "logps/chosen": -398.76544189453125,
-      "logps/rejected": -445.95269775390625,
-      "loss": 0.0953,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.2391201257705688,
-      "rewards/margins": 0.6647966504096985,
-      "rewards/rejected": -1.903916597366333,
       "step": 270
     },
     {
       "epoch": 0.59,
       "learning_rate": 2.19029145890313e-07,
-      "logits/chosen": -2.4127285480499268,
-      "logits/rejected": -2.3809783458709717,
-      "logps/chosen": -374.5039978027344,
-      "logps/rejected": -421.10302734375,
-      "loss": 0.1009,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -1.330984354019165,
-      "rewards/margins": 0.5779751539230347,
-      "rewards/rejected": -1.9089596271514893,
       "step": 280
     },
     {
       "epoch": 0.61,
       "learning_rate": 2.0100351342479216e-07,
-      "logits/chosen": -2.393611192703247,
-      "logits/rejected": -2.351775884628296,
-      "logps/chosen": -355.9366455078125,
-      "logps/rejected": -404.01226806640625,
-      "loss": 0.099,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -1.0932543277740479,
-      "rewards/margins": 0.6044414639472961,
-      "rewards/rejected": -1.6976957321166992,
       "step": 290
     },
     {
       "epoch": 0.63,
       "learning_rate": 1.8323929841460178e-07,
-      "logits/chosen": -2.402987241744995,
-      "logits/rejected": -2.370898723602295,
-      "logps/chosen": -377.071044921875,
-      "logps/rejected": -432.1875915527344,
-      "loss": 0.0931,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -1.2080243825912476,
-      "rewards/margins": 0.5403395891189575,
-      "rewards/rejected": -1.7483640909194946,
       "step": 300
     },
     {
       "epoch": 0.63,
-      "eval_logits/chosen": -2.422478199005127,
-      "eval_logits/rejected": -2.404529571533203,
-      "eval_logps/chosen": -374.3614196777344,
-      "eval_logps/rejected": -448.11669921875,
-      "eval_loss": 0.09510383009910583,
-      "eval_rewards/accuracies": 0.734375,
-      "eval_rewards/chosen": -1.1732177734375,
-      "eval_rewards/margins": 0.7344164848327637,
-      "eval_rewards/rejected": -1.9076342582702637,
-      "eval_runtime": 53.5886,
-      "eval_samples_per_second": 37.321,
-      "eval_steps_per_second": 0.597,
       "step": 300
     },
     {
       "epoch": 0.65,
       "learning_rate": 1.6583128063291573e-07,
-      "logits/chosen": -2.335116147994995,
-      "logits/rejected": -2.2753539085388184,
-      "logps/chosen": -394.2746887207031,
-      "logps/rejected": -439.45281982421875,
-      "loss": 0.0955,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.2109578847885132,
-      "rewards/margins": 0.7118672132492065,
-      "rewards/rejected": -1.9228250980377197,
       "step": 310
     },
     {
       "epoch": 0.67,
       "learning_rate": 1.488723393865766e-07,
-      "logits/chosen": -2.3460986614227295,
-      "logits/rejected": -2.32939076423645,
-      "logps/chosen": -431.77569580078125,
-      "logps/rejected": -426.1026916503906,
-      "loss": 0.0865,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -1.353933572769165,
-      "rewards/margins": 0.5530282258987427,
-      "rewards/rejected": -1.9069616794586182,
       "step": 320
     },
     {
       "epoch": 0.69,
       "learning_rate": 1.3245295796480788e-07,
-      "logits/chosen": -2.3651063442230225,
-      "logits/rejected": -2.3300068378448486,
-      "logps/chosen": -386.1956481933594,
-      "logps/rejected": -425.67822265625,
-      "loss": 0.0829,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -1.3398241996765137,
-      "rewards/margins": 0.5806491374969482,
-      "rewards/rejected": -1.920473337173462,
       "step": 330
     },
     {
       "epoch": 0.71,
       "learning_rate": 1.1666074087171627e-07,
-      "logits/chosen": -2.309349775314331,
-      "logits/rejected": -2.2918732166290283,
-      "logps/chosen": -387.6492919921875,
-      "logps/rejected": -447.10223388671875,
-      "loss": 0.0903,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -1.3640596866607666,
-      "rewards/margins": 0.6877338290214539,
-      "rewards/rejected": -2.0517935752868652,
       "step": 340
     },
     {
       "epoch": 0.73,
       "learning_rate": 1.0157994641835734e-07,
-      "logits/chosen": -2.3288137912750244,
-      "logits/rejected": -2.299982786178589,
-      "logps/chosen": -362.3104553222656,
-      "logps/rejected": -447.4925842285156,
-      "loss": 0.0848,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -1.3636023998260498,
-      "rewards/margins": 0.7043517827987671,
-      "rewards/rejected": -2.0679543018341064,
       "step": 350
     },
     {
       "epoch": 0.75,
       "learning_rate": 8.729103716819111e-08,
-      "logits/chosen": -2.31933856010437,
-      "logits/rejected": -2.2764596939086914,
-      "logps/chosen": -400.70001220703125,
-      "logps/rejected": -446.9363708496094,
-      "loss": 0.0828,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -1.3343183994293213,
-      "rewards/margins": 0.7416595816612244,
-      "rewards/rejected": -2.0759778022766113,
       "step": 360
     },
     {
       "epoch": 0.77,
       "learning_rate": 7.387025063449081e-08,
-      "logits/chosen": -2.2944209575653076,
-      "logits/rejected": -2.294306993484497,
-      "logps/chosen": -382.673583984375,
-      "logps/rejected": -459.6895446777344,
-      "loss": 0.0852,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.2742609977722168,
-      "rewards/margins": 0.7799550890922546,
-      "rewards/rejected": -2.054215908050537,
       "step": 370
     },
     {
       "epoch": 0.79,
       "learning_rate": 6.138919252022435e-08,
-      "logits/chosen": -2.3369266986846924,
-      "logits/rejected": -2.32401967048645,
-      "logps/chosen": -400.67498779296875,
-      "logps/rejected": -433.8631286621094,
-      "loss": 0.0845,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -1.3484565019607544,
-      "rewards/margins": 0.6219080686569214,
-      "rewards/rejected": -1.9703645706176758,
       "step": 380
     },
     {
       "epoch": 0.82,
       "learning_rate": 4.991445467064689e-08,
-      "logits/chosen": -2.32033109664917,
-      "logits/rejected": -2.3084654808044434,
-      "logps/chosen": -381.6254577636719,
-      "logps/rejected": -448.0281677246094,
-      "loss": 0.0797,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.244260549545288,
-      "rewards/margins": 0.8163622617721558,
-      "rewards/rejected": -2.0606229305267334,
       "step": 390
     },
     {
       "epoch": 0.84,
       "learning_rate": 3.9507259776993954e-08,
-      "logits/chosen": -2.353458881378174,
-      "logits/rejected": -2.3455700874328613,
-      "logps/chosen": -439.0157165527344,
-      "logps/rejected": -477.5210876464844,
-      "loss": 0.0932,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -1.3885571956634521,
-      "rewards/margins": 0.6575387120246887,
-      "rewards/rejected": -2.046095609664917,
       "step": 400
     },
     {
       "epoch": 0.84,
-      "eval_logits/chosen": -2.373129367828369,
-      "eval_logits/rejected": -2.355799913406372,
-      "eval_logps/chosen": -389.6565246582031,
-      "eval_logps/rejected": -470.91412353515625,
-      "eval_loss": 0.0877470150589943,
-      "eval_rewards/accuracies": 0.74609375,
-      "eval_rewards/chosen": -1.3261686563491821,
-      "eval_rewards/margins": 0.8094395399093628,
-      "eval_rewards/rejected": -2.135608434677124,
-      "eval_runtime": 53.5712,
-      "eval_samples_per_second": 37.333,
-      "eval_steps_per_second": 0.597,
       "step": 400
     },
     {
       "epoch": 0.86,
       "learning_rate": 3.022313472693447e-08,
-      "logits/chosen": -2.3416953086853027,
-      "logits/rejected": -2.3408725261688232,
-      "logps/chosen": -391.66741943359375,
-      "logps/rejected": -419.4129943847656,
-      "loss": 0.0849,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": -1.369780421257019,
-      "rewards/margins": 0.49969473481178284,
-      "rewards/rejected": -1.8694753646850586,
       "step": 410
     },
     {
       "epoch": 0.88,
       "learning_rate": 2.2111614344599684e-08,
-      "logits/chosen": -2.3918662071228027,
-      "logits/rejected": -2.3504040241241455,
-      "logps/chosen": -404.1669006347656,
-      "logps/rejected": -459.5892028808594,
-      "loss": 0.0838,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.264682412147522,
-      "rewards/margins": 0.8345810174942017,
-      "rewards/rejected": -2.0992634296417236,
       "step": 420
     },
     {
       "epoch": 0.9,
       "learning_rate": 1.521597710086439e-08,
-      "logits/chosen": -2.3932044506073,
-      "logits/rejected": -2.3674368858337402,
-      "logps/chosen": -400.2489318847656,
-      "logps/rejected": -435.07525634765625,
-      "loss": 0.0917,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -1.2529577016830444,
-      "rewards/margins": 0.6412702202796936,
-      "rewards/rejected": -1.8942277431488037,
       "step": 430
     },
     {
       "epoch": 0.92,
       "learning_rate": 9.57301420397924e-09,
-      "logits/chosen": -2.325007200241089,
-      "logits/rejected": -2.3261613845825195,
-      "logps/chosen": -412.94427490234375,
-      "logps/rejected": -436.2431640625,
-      "loss": 0.0885,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -1.3467872142791748,
-      "rewards/margins": 0.6128811240196228,
-      "rewards/rejected": -1.9596681594848633,
       "step": 440
     },
     {
       "epoch": 0.94,
       "learning_rate": 5.212833302556258e-09,
-      "logits/chosen": -2.339844226837158,
-      "logits/rejected": -2.3176491260528564,
-      "logps/chosen": -408.6121520996094,
-      "logps/rejected": -473.6128845214844,
-      "loss": 0.0854,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -1.3199455738067627,
-      "rewards/margins": 0.7675041556358337,
-      "rewards/rejected": -2.087449789047241,
       "step": 450
     },
     {
       "epoch": 0.96,
       "learning_rate": 2.158697848236607e-09,
-      "logits/chosen": -2.3149573802948,
-      "logits/rejected": -2.3090662956237793,
-      "logps/chosen": -390.1296081542969,
-      "logps/rejected": -438.67218017578125,
-      "loss": 0.0818,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -1.2482762336730957,
-      "rewards/margins": 0.6689838171005249,
-      "rewards/rejected": -1.917259931564331,
       "step": 460
     },
     {
       "epoch": 0.98,
       "learning_rate": 4.269029751107489e-10,
-      "logits/chosen": -2.3617947101593018,
-      "logits/rejected": -2.3339943885803223,
-      "logps/chosen": -408.900390625,
-      "logps/rejected": -437.16357421875,
-      "loss": 0.0866,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -1.2303766012191772,
-      "rewards/margins": 0.7840299606323242,
-      "rewards/rejected": -2.014406681060791,
       "step": 470
     },
     {
       "epoch": 1.0,
       "step": 478,
       "total_flos": 0.0,
-      "train_loss": 0.12649250616588353,
-      "train_runtime": 3963.8799,
-      "train_samples_per_second": 15.423,
       "train_steps_per_second": 0.121
     }
   ],

     {
       "epoch": 0.0,
       "learning_rate": 1.0416666666666666e-08,
+      "logits/chosen": -2.7050857543945312,
+      "logits/rejected": -2.7461352348327637,
+      "logps/chosen": -137.25845336914062,
+      "logps/rejected": -163.38693237304688,
+      "loss": 0.2729,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
     {
       "epoch": 0.02,
       "learning_rate": 1.0416666666666667e-07,
+      "logits/chosen": -2.7312138080596924,
+      "logits/rejected": -2.6957082748413086,
+      "logps/chosen": -255.09744262695312,
+      "logps/rejected": -238.90676879882812,
+      "loss": 0.2787,
+      "rewards/accuracies": 0.5069444179534912,
+      "rewards/chosen": 0.0004420094774104655,
+      "rewards/margins": 0.0008137564291246235,
+      "rewards/rejected": -0.0003717469226103276,
       "step": 10
     },
     {
       "epoch": 0.04,
       "learning_rate": 2.0833333333333333e-07,
+      "logits/chosen": -2.751615047454834,
+      "logits/rejected": -2.7480320930480957,
+      "logps/chosen": -265.4415283203125,
+      "logps/rejected": -255.5920867919922,
+      "loss": 0.2805,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.0003345116856507957,
+      "rewards/margins": 0.0004976954078301787,
+      "rewards/rejected": -0.0008322072098962963,
       "step": 20
     },
     {
       "epoch": 0.06,
       "learning_rate": 3.1249999999999997e-07,
+      "logits/chosen": -2.7395973205566406,
+      "logits/rejected": -2.696704864501953,
+      "logps/chosen": -253.4207763671875,
+      "logps/rejected": -252.7050018310547,
+      "loss": 0.2729,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.0011635018745437264,
+      "rewards/margins": 0.009263232350349426,
+      "rewards/rejected": -0.010426735505461693,
       "step": 30
     },
     {
       "epoch": 0.08,
       "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": -2.788689613342285,
+      "logits/rejected": -2.7742645740509033,
+      "logps/chosen": -274.7150573730469,
+      "logps/rejected": -279.29449462890625,
+      "loss": 0.2782,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.0004261514113750309,
+      "rewards/margins": 0.028552129864692688,
+      "rewards/rejected": -0.02897828258574009,
       "step": 40
     },
     {
       "epoch": 0.1,
       "learning_rate": 4.999733114418725e-07,
+      "logits/chosen": -2.757750988006592,
+      "logits/rejected": -2.7366127967834473,
+      "logps/chosen": -287.0828857421875,
+      "logps/rejected": -297.19842529296875,
       "loss": 0.2674,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.05043640732765198,
+      "rewards/margins": 0.03981485590338707,
+      "rewards/rejected": -0.09025127440690994,
       "step": 50
     },
     {
       "epoch": 0.13,
       "learning_rate": 4.990398100856366e-07,
+      "logits/chosen": -2.7765159606933594,
+      "logits/rejected": -2.7514355182647705,
+      "logps/chosen": -279.025634765625,
+      "logps/rejected": -262.62744140625,
+      "loss": 0.2429,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.09661928564310074,
+      "rewards/margins": 0.1170525774359703,
+      "rewards/rejected": -0.21367184817790985,
       "step": 60
     },
     {
       "epoch": 0.15,
       "learning_rate": 4.967775735898179e-07,
+      "logits/chosen": -2.769787549972534,
+      "logits/rejected": -2.7495346069335938,
+      "logps/chosen": -276.04913330078125,
+      "logps/rejected": -308.559326171875,
+      "loss": 0.2089,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.20965734124183655,
+      "rewards/margins": 0.126783087849617,
+      "rewards/rejected": -0.33644038438796997,
       "step": 70
     },
     {
       "epoch": 0.17,
       "learning_rate": 4.931986719649298e-07,
+      "logits/chosen": -2.7401986122131348,
+      "logits/rejected": -2.711556911468506,
+      "logps/chosen": -276.31353759765625,
+      "logps/rejected": -298.213623046875,
+      "loss": 0.1808,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.22973378002643585,
+      "rewards/margins": 0.28976646065711975,
+      "rewards/rejected": -0.519500195980072,
       "step": 80
     },
     {
       "epoch": 0.19,
       "learning_rate": 4.883222001996351e-07,
+      "logits/chosen": -2.772463321685791,
+      "logits/rejected": -2.732743740081787,
+      "logps/chosen": -317.74468994140625,
+      "logps/rejected": -323.55963134765625,
+      "loss": 0.1576,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.4003233015537262,
+      "rewards/margins": 0.3519899547100067,
+      "rewards/rejected": -0.7523131966590881,
       "step": 90
     },
     {
       "epoch": 0.21,
       "learning_rate": 4.821741763807186e-07,
+      "logits/chosen": -2.7798848152160645,
+      "logits/rejected": -2.7546212673187256,
+      "logps/chosen": -320.1632385253906,
+      "logps/rejected": -350.14154052734375,
+      "loss": 0.1368,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.5383033752441406,
+      "rewards/margins": 0.33278244733810425,
+      "rewards/rejected": -0.8710858225822449,
       "step": 100
     },
     {
       "epoch": 0.21,
+      "eval_logits/chosen": -2.7293763160705566,
+      "eval_logits/rejected": -2.711284637451172,
+      "eval_logps/chosen": -329.0978088378906,
+      "eval_logps/rejected": -373.81689453125,
+      "eval_loss": 0.1234334409236908,
+      "eval_rewards/accuracies": 0.6953125,
+      "eval_rewards/chosen": -0.7205817699432373,
+      "eval_rewards/margins": 0.44405466318130493,
+      "eval_rewards/rejected": -1.1646363735198975,
+      "eval_runtime": 53.59,
+      "eval_samples_per_second": 37.32,
       "eval_steps_per_second": 0.597,
       "step": 100
     },
     {
       "epoch": 0.23,
       "learning_rate": 4.747874028753375e-07,
+      "logits/chosen": -2.697169780731201,
+      "logits/rejected": -2.657909393310547,
+      "logps/chosen": -359.20281982421875,
+      "logps/rejected": -371.93121337890625,
+      "loss": 0.1139,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.6524524688720703,
+      "rewards/margins": 0.42760229110717773,
+      "rewards/rejected": -1.080054759979248,
       "step": 110
     },
     {
       "epoch": 0.25,
       "learning_rate": 4.662012913161997e-07,
+      "logits/chosen": -2.7332141399383545,
+      "logits/rejected": -2.687659502029419,
+      "logps/chosen": -341.48504638671875,
+      "logps/rejected": -387.9088439941406,
+      "loss": 0.1124,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.7721944451332092,
+      "rewards/margins": 0.531410813331604,
+      "rewards/rejected": -1.303605079650879,
       "step": 120
     },
     {
       "epoch": 0.27,
       "learning_rate": 4.5646165232345103e-07,
+      "logits/chosen": -2.7062783241271973,
+      "logits/rejected": -2.677564859390259,
+      "logps/chosen": -346.4920349121094,
+      "logps/rejected": -363.054443359375,
+      "loss": 0.1145,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.8793987035751343,
+      "rewards/margins": 0.42397230863571167,
+      "rewards/rejected": -1.3033709526062012,
       "step": 130
     },
     {
       "epoch": 0.29,
       "learning_rate": 4.456204510851956e-07,
+      "logits/chosen": -2.6977787017822266,
+      "logits/rejected": -2.6695046424865723,
+      "logps/chosen": -345.95257568359375,
+      "logps/rejected": -377.9122619628906,
+      "loss": 0.1328,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.5838460922241211,
+      "rewards/margins": 0.4167053699493408,
+      "rewards/rejected": -1.000551462173462,
       "step": 140
     },
     {
       "epoch": 0.31,
       "learning_rate": 4.337355301007335e-07,
+      "logits/chosen": -2.5606093406677246,
+      "logits/rejected": -2.506340265274048,
+      "logps/chosen": -330.40277099609375,
+      "logps/rejected": -359.18701171875,
+      "loss": 0.1337,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.5414291620254517,
+      "rewards/margins": 0.5864211320877075,
+      "rewards/rejected": -1.1278501749038696,
       "step": 150
     },
     {
       "epoch": 0.33,
       "learning_rate": 4.2087030056579986e-07,
+      "logits/chosen": -2.536637544631958,
+      "logits/rejected": -2.5124268531799316,
+      "logps/chosen": -373.6593322753906,
+      "logps/rejected": -393.8511962890625,
+      "loss": 0.1208,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.040235996246338,
+      "rewards/margins": 0.36871328949928284,
+      "rewards/rejected": -1.4089492559432983,
       "step": 160
     },
     {
       "epoch": 0.36,
       "learning_rate": 4.070934040463998e-07,
+      "logits/chosen": -2.5194365978240967,
+      "logits/rejected": -2.49861741065979,
+      "logps/chosen": -422.2001953125,
+      "logps/rejected": -421.9383850097656,
+      "loss": 0.0982,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -1.164865255355835,
+      "rewards/margins": 0.41925472021102905,
+      "rewards/rejected": -1.5841200351715088,
       "step": 170
     },
     {
       "epoch": 0.38,
       "learning_rate": 3.9247834624635404e-07,
+      "logits/chosen": -2.514953136444092,
+      "logits/rejected": -2.522972583770752,
+      "logps/chosen": -360.35504150390625,
+      "logps/rejected": -405.37847900390625,
+      "loss": 0.1026,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.9703041315078735,
+      "rewards/margins": 0.5068725347518921,
+      "rewards/rejected": -1.4771766662597656,
       "step": 180
     },
     {
       "epoch": 0.4,
       "learning_rate": 3.7710310482256523e-07,
+      "logits/chosen": -2.483044385910034,
+      "logits/rejected": -2.4624695777893066,
+      "logps/chosen": -340.3351745605469,
+      "logps/rejected": -388.73944091796875,
+      "loss": 0.1019,
       "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.9740051031112671,
+      "rewards/margins": 0.5462032556533813,
+      "rewards/rejected": -1.520208477973938,
       "step": 190
     },
     {
       "epoch": 0.42,
       "learning_rate": 3.610497133404795e-07,
+      "logits/chosen": -2.4317831993103027,
+      "logits/rejected": -2.4145891666412354,
+      "logps/chosen": -375.5243225097656,
+      "logps/rejected": -440.06951904296875,
+      "loss": 0.0936,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -1.2799049615859985,
+      "rewards/margins": 0.6007462739944458,
+      "rewards/rejected": -1.8806512355804443,
       "step": 200
     },
     {
       "epoch": 0.42,
+      "eval_logits/chosen": -2.4997453689575195,
+      "eval_logits/rejected": -2.484400749206543,
+      "eval_logps/chosen": -361.1695556640625,
+      "eval_logps/rejected": -433.0509948730469,
+      "eval_loss": 0.10587478429079056,
       "eval_rewards/accuracies": 0.7421875,
+      "eval_rewards/chosen": -1.0412991046905518,
+      "eval_rewards/margins": 0.715677797794342,
+      "eval_rewards/rejected": -1.756976842880249,
+      "eval_runtime": 53.5221,
+      "eval_samples_per_second": 37.368,
+      "eval_steps_per_second": 0.598,
       "step": 200
     },
     {
       "epoch": 0.44,
       "learning_rate": 3.4440382358952115e-07,
+      "logits/chosen": -2.456087827682495,
+      "logits/rejected": -2.4703195095062256,
+      "logps/chosen": -393.5277099609375,
+      "logps/rejected": -452.48944091796875,
+      "loss": 0.0942,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.8982565999031067,
+      "rewards/margins": 0.733210027217865,
+      "rewards/rejected": -1.6314666271209717,
       "step": 210
     },
     {
       "epoch": 0.46,
       "learning_rate": 3.272542485937368e-07,
+      "logits/chosen": -2.432919979095459,
+      "logits/rejected": -2.4045770168304443,
+      "logps/chosen": -383.92626953125,
+      "logps/rejected": -415.4346618652344,
+      "loss": 0.097,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -1.2355773448944092,
+      "rewards/margins": 0.5543798804283142,
+      "rewards/rejected": -1.789957046508789,
       "step": 220
     },
     {
       "epoch": 0.48,
       "learning_rate": 3.096924887558854e-07,
+      "logits/chosen": -2.447158098220825,
+      "logits/rejected": -2.4324896335601807,
+      "logps/chosen": -353.08367919921875,
+      "logps/rejected": -397.47900390625,
+      "loss": 0.1068,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.9431230425834656,
+      "rewards/margins": 0.58272784948349,
+      "rewards/rejected": -1.5258508920669556,
       "step": 230
     },
     {
       "epoch": 0.5,
       "learning_rate": 2.9181224366319943e-07,
+      "logits/chosen": -2.369117021560669,
+      "logits/rejected": -2.3718531131744385,
+      "logps/chosen": -412.95733642578125,
+      "logps/rejected": -438.8494567871094,
+      "loss": 0.1096,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.016252040863037,
+      "rewards/margins": 0.6379404067993164,
+      "rewards/rejected": -1.654192328453064,
       "step": 240
     },
     {
       "epoch": 0.52,
       "learning_rate": 2.7370891215954565e-07,
+      "logits/chosen": -2.3740622997283936,
+      "logits/rejected": -2.363107204437256,
+      "logps/chosen": -373.68603515625,
+      "logps/rejected": -428.0882873535156,
+      "loss": 0.1033,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.0415781736373901,
+      "rewards/margins": 0.6691091656684875,
+      "rewards/rejected": -1.7106873989105225,
       "step": 250
     },
     {
       "epoch": 0.54,
       "learning_rate": 2.55479083351317e-07,
+      "logits/chosen": -2.3177034854888916,
+      "logits/rejected": -2.2815842628479004,
+      "logps/chosen": -427.379638671875,
+      "logps/rejected": -440.7774963378906,
+      "loss": 0.096,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -1.3660972118377686,
+      "rewards/margins": 0.6263972520828247,
+      "rewards/rejected": -1.9924943447113037,
       "step": 260
     },
     {
       "epoch": 0.56,
       "learning_rate": 2.3722002126275822e-07,
+      "logits/chosen": -2.3047027587890625,
+      "logits/rejected": -2.273170232772827,
+      "logps/chosen": -394.751220703125,
+      "logps/rejected": -439.4383850097656,
+      "loss": 0.1076,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -1.2442924976348877,
+      "rewards/margins": 0.6077025532722473,
+      "rewards/rejected": -1.8519952297210693,
       "step": 270
     },
     {
       "epoch": 0.59,
       "learning_rate": 2.19029145890313e-07,
+      "logits/chosen": -2.3437588214874268,
+      "logits/rejected": -2.3205742835998535,
+      "logps/chosen": -443.5282287597656,
+      "logps/rejected": -496.1018981933594,
+      "loss": 0.1019,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.247488021850586,
+      "rewards/margins": 0.7255340218544006,
+      "rewards/rejected": -1.973022222518921,
       "step": 280
     },
     {
       "epoch": 0.61,
       "learning_rate": 2.0100351342479216e-07,
+      "logits/chosen": -2.310223340988159,
+      "logits/rejected": -2.295687198638916,
+      "logps/chosen": -403.1307373046875,
+      "logps/rejected": -424.34088134765625,
+      "loss": 0.1011,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.3174023628234863,
+      "rewards/margins": 0.6217811107635498,
+      "rewards/rejected": -1.9391834735870361,
       "step": 290
     },
     {
       "epoch": 0.63,
       "learning_rate": 1.8323929841460178e-07,
+      "logits/chosen": -2.3279759883880615,
+      "logits/rejected": -2.2855122089385986,
+      "logps/chosen": -419.40191650390625,
+      "logps/rejected": -439.6763610839844,
+      "loss": 0.1045,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.2264329195022583,
+      "rewards/margins": 0.6521132588386536,
+      "rewards/rejected": -1.8785459995269775,
       "step": 300
     },
     {
       "epoch": 0.63,
+      "eval_logits/chosen": -2.3481948375701904,
+      "eval_logits/rejected": -2.3263120651245117,
+      "eval_logps/chosen": -374.2532653808594,
+      "eval_logps/rejected": -455.86981201171875,
+      "eval_loss": 0.10495973378419876,
+      "eval_rewards/accuracies": 0.7734375,
+      "eval_rewards/chosen": -1.1721361875534058,
+      "eval_rewards/margins": 0.8130289316177368,
+      "eval_rewards/rejected": -1.9851651191711426,
+      "eval_runtime": 53.5201,
+      "eval_samples_per_second": 37.369,
+      "eval_steps_per_second": 0.598,
       "step": 300
     },
     {
       "epoch": 0.65,
       "learning_rate": 1.6583128063291573e-07,
+      "logits/chosen": -2.2640485763549805,
+      "logits/rejected": -2.2166085243225098,
+      "logps/chosen": -430.3575744628906,
+      "logps/rejected": -452.4070739746094,
+      "loss": 0.1066,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -1.3840069770812988,
+      "rewards/margins": 0.6664990186691284,
+      "rewards/rejected": -2.050506114959717,
       "step": 310
     },
     {
       "epoch": 0.67,
       "learning_rate": 1.488723393865766e-07,
+      "logits/chosen": -2.330543041229248,
+      "logits/rejected": -2.3223278522491455,
+      "logps/chosen": -373.0736083984375,
+      "logps/rejected": -430.39093017578125,
+      "loss": 0.0984,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.1866815090179443,
+      "rewards/margins": 0.6963299512863159,
+      "rewards/rejected": -1.8830114603042603,
       "step": 320
     },
     {
       "epoch": 0.69,
       "learning_rate": 1.3245295796480788e-07,
+      "logits/chosen": -2.3311431407928467,
+      "logits/rejected": -2.3115246295928955,
+      "logps/chosen": -381.23162841796875,
+      "logps/rejected": -418.2054748535156,
+      "loss": 0.1052,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -1.2116649150848389,
+      "rewards/margins": 0.44343310594558716,
+      "rewards/rejected": -1.6550979614257812,
       "step": 330
     },
     {
       "epoch": 0.71,
       "learning_rate": 1.1666074087171627e-07,
+      "logits/chosen": -2.3534882068634033,
+      "logits/rejected": -2.3318495750427246,
+      "logps/chosen": -390.70855712890625,
+      "logps/rejected": -460.699462890625,
+      "loss": 0.0983,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.3004801273345947,
+      "rewards/margins": 0.6981537938117981,
+      "rewards/rejected": -1.9986339807510376,
       "step": 340
     },
     {
       "epoch": 0.73,
       "learning_rate": 1.0157994641835734e-07,
+      "logits/chosen": -2.3172473907470703,
+      "logits/rejected": -2.267843723297119,
+      "logps/chosen": -428.8907775878906,
+      "logps/rejected": -482.414794921875,
+      "loss": 0.0953,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.2873867750167847,
+      "rewards/margins": 0.7597323656082153,
+      "rewards/rejected": -2.047119140625,
       "step": 350
     },
     {
       "epoch": 0.75,
       "learning_rate": 8.729103716819111e-08,
+      "logits/chosen": -2.361574411392212,
+      "logits/rejected": -2.313871383666992,
+      "logps/chosen": -432.11572265625,
+      "logps/rejected": -472.91900634765625,
+      "loss": 0.0982,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.304806113243103,
+      "rewards/margins": 0.7939103841781616,
+      "rewards/rejected": -2.0987167358398438,
       "step": 360
     },
     {
       "epoch": 0.77,
       "learning_rate": 7.387025063449081e-08,
+      "logits/chosen": -2.31288480758667,
+      "logits/rejected": -2.290679454803467,
+      "logps/chosen": -437.47747802734375,
+      "logps/rejected": -498.04449462890625,
+      "loss": 0.091,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.3451701402664185,
+      "rewards/margins": 0.849733829498291,
+      "rewards/rejected": -2.19490385055542,
       "step": 370
     },
     {
       "epoch": 0.79,
       "learning_rate": 6.138919252022435e-08,
+      "logits/chosen": -2.2611796855926514,
+      "logits/rejected": -2.2090706825256348,
+      "logps/chosen": -438.38714599609375,
+      "logps/rejected": -479.932373046875,
+      "loss": 0.1004,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.458297610282898,
+      "rewards/margins": 0.8283805847167969,
+      "rewards/rejected": -2.2866783142089844,
       "step": 380
     },
     {
       "epoch": 0.82,
       "learning_rate": 4.991445467064689e-08,
+      "logits/chosen": -2.280311107635498,
+      "logits/rejected": -2.2701356410980225,
+      "logps/chosen": -410.5409240722656,
+      "logps/rejected": -455.7091369628906,
+      "loss": 0.0997,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -1.457076072692871,
+      "rewards/margins": 0.6067465543746948,
+      "rewards/rejected": -2.0638227462768555,
       "step": 390
     },
     {
       "epoch": 0.84,
       "learning_rate": 3.9507259776993954e-08,
+      "logits/chosen": -2.3210911750793457,
+      "logits/rejected": -2.3131260871887207,
+      "logps/chosen": -401.9046936035156,
+      "logps/rejected": -457.5972595214844,
+      "loss": 0.1007,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.4521684646606445,
+      "rewards/margins": 0.6101087331771851,
+      "rewards/rejected": -2.062277317047119,
       "step": 400
     },
     {
       "epoch": 0.84,
+      "eval_logits/chosen": -2.326262950897217,
+      "eval_logits/rejected": -2.3033149242401123,
+      "eval_logps/chosen": -388.9528503417969,
+      "eval_logps/rejected": -474.4743347167969,
+      "eval_loss": 0.09840647131204605,
+      "eval_rewards/accuracies": 0.76953125,
+      "eval_rewards/chosen": -1.3191319704055786,
+      "eval_rewards/margins": 0.8520787954330444,
+      "eval_rewards/rejected": -2.171210765838623,
+      "eval_runtime": 53.5129,
+      "eval_samples_per_second": 37.374,
+      "eval_steps_per_second": 0.598,
       "step": 400
     },
     {
       "epoch": 0.86,
       "learning_rate": 3.022313472693447e-08,
+      "logits/chosen": -2.2848544120788574,
+      "logits/rejected": -2.247723340988159,
+      "logps/chosen": -388.43853759765625,
+      "logps/rejected": -440.38482666015625,
+      "loss": 0.0985,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -1.3306916952133179,
+      "rewards/margins": 0.6538442969322205,
+      "rewards/rejected": -1.9845361709594727,
       "step": 410
     },
     {
       "epoch": 0.88,
       "learning_rate": 2.2111614344599684e-08,
+      "logits/chosen": -2.3198795318603516,
+      "logits/rejected": -2.270514488220215,
+      "logps/chosen": -397.82763671875,
+      "logps/rejected": -440.84564208984375,
+      "loss": 0.0899,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.2681812047958374,
+      "rewards/margins": 0.7547353506088257,
+      "rewards/rejected": -2.022916555404663,
       "step": 420
     },
     {
       "epoch": 0.9,
       "learning_rate": 1.521597710086439e-08,
+      "logits/chosen": -2.2713308334350586,
+      "logits/rejected": -2.2533681392669678,
+      "logps/chosen": -420.921142578125,
+      "logps/rejected": -457.1463928222656,
+      "loss": 0.0955,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.3613792657852173,
+      "rewards/margins": 0.7089418172836304,
+      "rewards/rejected": -2.0703210830688477,
       "step": 430
     },
     {
       "epoch": 0.92,
       "learning_rate": 9.57301420397924e-09,
+      "logits/chosen": -2.284634590148926,
+      "logits/rejected": -2.2636537551879883,
+      "logps/chosen": -399.95465087890625,
+      "logps/rejected": -473.30303955078125,
+      "loss": 0.0907,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.4010311365127563,
+      "rewards/margins": 0.7459251284599304,
+      "rewards/rejected": -2.146956443786621,
       "step": 440
     },
     {
       "epoch": 0.94,
       "learning_rate": 5.212833302556258e-09,
+      "logits/chosen": -2.3177847862243652,
+      "logits/rejected": -2.2959697246551514,
+      "logps/chosen": -393.1022644042969,
+      "logps/rejected": -452.5653381347656,
+      "loss": 0.096,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.2756528854370117,
+      "rewards/margins": 0.722722053527832,
+      "rewards/rejected": -1.9983749389648438,
       "step": 450
     },
     {
       "epoch": 0.96,
       "learning_rate": 2.158697848236607e-09,
+      "logits/chosen": -2.3011326789855957,
+      "logits/rejected": -2.251350164413452,
+      "logps/chosen": -408.0278015136719,
+      "logps/rejected": -439.8304138183594,
+      "loss": 0.0936,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.4015414714813232,
+      "rewards/margins": 0.723892867565155,
+      "rewards/rejected": -2.125434398651123,
       "step": 460
     },
     {
       "epoch": 0.98,
       "learning_rate": 4.269029751107489e-10,
+      "logits/chosen": -2.2898736000061035,
+      "logits/rejected": -2.260240077972412,
+      "logps/chosen": -394.651611328125,
+      "logps/rejected": -457.83123779296875,
+      "loss": 0.0951,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.2343953847885132,
+      "rewards/margins": 0.8395439982414246,
+      "rewards/rejected": -2.073939323425293,
       "step": 470
     },
     {
       "epoch": 1.0,
       "step": 478,
       "total_flos": 0.0,
+      "train_loss": 0.1291348352467166,
+      "train_runtime": 3954.3407,
+      "train_samples_per_second": 15.46,
       "train_steps_per_second": 0.121
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dcfe7d09536d702883bbc997102d9d1e3b1f16ac64f09c52963233d41c5a8d47
 size 5944

 version https://git-lfs.github.com/spec/v1
+oid sha256:0506c4c7327ab19c5f4fb3bc8b3ae1c23b5e69e4eff9f6c001e103f8dd5af6b0
 size 5944