Model save

Browse files

Files changed (9) hide show

README.md +13 -14
all_results.json +5 -5
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +438 -622
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -15,15 +15,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0495
-- Rewards/chosen: -0.5743
-- Rewards/rejected: -1.1134
-- Rewards/accuracies: 0.7344
-- Rewards/margins: 0.5391
-- Logps/rejected: -477.0538
-- Logps/chosen: -416.8812
-- Logits/rejected: 0.8329
-- Logits/chosen: 0.7145
 ## Model description
@@ -45,7 +45,7 @@ The following hyperparameters were used during training:
 - learning_rate: 5e-07
 - train_batch_size: 4
 - eval_batch_size: 8
-- seed: 5
 - distributed_type: multi-GPU
 - num_devices: 8
 - gradient_accumulation_steps: 4
@@ -60,10 +60,9 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.0975        | 0.21  | 100  | 0.0975          | -0.0605        | -0.2369          | 0.6914             | 0.1765          | -389.4015      | -365.4964    | 0.5340          | 0.4693        |
-| 0.0589        | 0.42  | 200  | 0.0582          | -0.4455        | -0.8736          | 0.7148             | 0.4281          | -453.0718      | -404.0002    | 0.7808          | 0.6615        |
-| 0.0465        | 0.63  | 300  | 0.0494          | -0.6054        | -1.1172          | 0.7031             | 0.5117          | -477.4249      | -419.9954    | 0.8961          | 0.7931        |
-| 0.0419        | 0.84  | 400  | 0.0495          | -0.5743        | -1.1134          | 0.7344             | 0.5391          | -477.0538      | -416.8812    | 0.8329          | 0.7145        |
 ### Framework versions

 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.1249
+- Rewards/chosen: -0.2075
+- Rewards/rejected: -0.2728
+- Rewards/accuracies: 0.5391
+- Rewards/margins: 0.0653
+- Logps/rejected: -392.9848
+- Logps/chosen: -380.2012
+- Logits/rejected: 0.7227
+- Logits/chosen: 0.6386
 ## Model description
 - learning_rate: 5e-07
 - train_batch_size: 4
 - eval_batch_size: 8
+- seed: 1
 - distributed_type: multi-GPU
 - num_devices: 8
 - gradient_accumulation_steps: 4
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.2868        | 0.28  | 100  | 0.1333          | 0.1523         | 0.1165           | 0.5430             | 0.0358          | -354.0580      | -344.2188    | 0.3183          | 0.2622        |
+| 0.2525        | 0.56  | 200  | 0.1256          | -0.0890        | -0.1477          | 0.5508             | 0.0587          | -380.4802      | -368.3549    | 0.5930          | 0.4955        |
+| 0.2378        | 0.84  | 300  | 0.1249          | -0.2075        | -0.2728          | 0.5391             | 0.0653          | -392.9848      | -380.2012    | 0.7227          | 0.6386        |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.06584663976538356,
-    "train_runtime": 4434.0315,
-    "train_samples": 61134,
-    "train_samples_per_second": 13.787,
-    "train_steps_per_second": 0.108
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.25543520273117537,
+    "train_runtime": 3431.8585,
+    "train_samples": 45548,
+    "train_samples_per_second": 13.272,
+    "train_steps_per_second": 0.104
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:742a3a39155dfe2982b2079fe8048378854d72be66f8bb03992eab95c8d8613f
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c50447b1fa9a3fb8972cc1f2048273e615014e72e1ffdfd61fc351a7b891873
 size 4976698672

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9663e310a114c8e5dfe67123c8fa2e0b3f06238bc3727bd48b2fbf862d129e4
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:4498d8c3e8a696ffa861b1ee0f26ff5a10be34c2c3e49976a7dfbbbf51cabee7
 size 4999802720

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be6bbc86492f411d627c4ebb8e6aeaff116a8962892dec9b9af59b92427b849f
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:a84321fc73683b3e3b8bac682baa0c983237b5d9f38c6384ae3c52399f993f9f
 size 4915916176

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:841fb520274242fc5c5655fa5d9e40cd6d96f0bb2ae1af50364d0590d1160c1f
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0d7e1ac6e8ed44294cee21a798e86385296ebe7182834397340cb054a7c4516
 size 1168138808

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.06584663976538356,
-    "train_runtime": 4434.0315,
-    "train_samples": 61134,
-    "train_samples_per_second": 13.787,
-    "train_steps_per_second": 0.108
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.25543520273117537,
+    "train_runtime": 3431.8585,
+    "train_samples": 45548,
+    "train_samples_per_second": 13.272,
+    "train_steps_per_second": 0.104
 }

trainer_state.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9984301412872841,
   "eval_steps": 100,
-  "global_step": 477,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 1.0416666666666666e-08,
-      "logits/chosen": 0.12788674235343933,
-      "logits/rejected": 0.34812721610069275,
-      "logps/chosen": -504.64813232421875,
-      "logps/rejected": -353.6391906738281,
-      "loss": 0.1069,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -23,739 +23,555 @@
       "step": 1
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 1.0416666666666667e-07,
-      "logits/chosen": 0.22303083539009094,
-      "logits/rejected": 0.3398795425891876,
-      "logps/chosen": -343.9149475097656,
-      "logps/rejected": -345.42095947265625,
-      "loss": 0.1091,
-      "rewards/accuracies": 0.4583333432674408,
-      "rewards/chosen": 0.0002915965160354972,
-      "rewards/margins": 0.0005722532514482737,
-      "rewards/rejected": -0.0002806567645166069,
       "step": 10
     },
-    {
-      "epoch": 0.04,
-      "learning_rate": 2.0833333333333333e-07,
-      "logits/chosen": 0.2437092810869217,
-      "logits/rejected": 0.2768189311027527,
-      "logps/chosen": -342.15460205078125,
-      "logps/rejected": -352.68170166015625,
-      "loss": 0.1087,
-      "rewards/accuracies": 0.550000011920929,
-      "rewards/chosen": -0.0004921076470054686,
-      "rewards/margins": 0.00030653522117063403,
-      "rewards/rejected": -0.0007986428099684417,
-      "step": 20
-    },
     {
       "epoch": 0.06,
-      "learning_rate": 3.1249999999999997e-07,
-      "logits/chosen": 0.2255886346101761,
-      "logits/rejected": 0.22949561476707458,
-      "logps/chosen": -403.088134765625,
-      "logps/rejected": -395.09552001953125,
-      "loss": 0.1112,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": -0.0018422408029437065,
-      "rewards/margins": 0.002462574513629079,
-      "rewards/rejected": -0.004304815083742142,
-      "step": 30
     },
     {
       "epoch": 0.08,
       "learning_rate": 4.1666666666666667e-07,
-      "logits/chosen": 0.2738032341003418,
-      "logits/rejected": 0.32951346039772034,
-      "logps/chosen": -352.05938720703125,
-      "logps/rejected": -338.80743408203125,
-      "loss": 0.1093,
       "rewards/accuracies": 0.581250011920929,
-      "rewards/chosen": -0.006794331129640341,
-      "rewards/margins": 0.003717987332493067,
-      "rewards/rejected": -0.010512317530810833,
       "step": 40
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 4.999731868769026e-07,
-      "logits/chosen": 0.22654812037944794,
-      "logits/rejected": 0.31083282828330994,
-      "logps/chosen": -363.4710998535156,
-      "logps/rejected": -358.54168701171875,
-      "loss": 0.1041,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.005752457305788994,
-      "rewards/margins": 0.019924405962228775,
-      "rewards/rejected": -0.02567686140537262,
       "step": 50
     },
     {
-      "epoch": 0.13,
-      "learning_rate": 4.990353313429303e-07,
-      "logits/chosen": 0.3616481125354767,
-      "logits/rejected": 0.386046439409256,
-      "logps/chosen": -336.10211181640625,
-      "logps/rejected": -334.69024658203125,
-      "loss": 0.106,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -0.01512543298304081,
-      "rewards/margins": 0.033848248422145844,
-      "rewards/rejected": -0.048973675817251205,
       "step": 60
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 4.967625656594781e-07,
-      "logits/chosen": 0.23518328368663788,
-      "logits/rejected": 0.3344312310218811,
-      "logps/chosen": -350.3984680175781,
-      "logps/rejected": -307.37957763671875,
-      "loss": 0.1049,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.003296907991170883,
-      "rewards/margins": 0.052046000957489014,
-      "rewards/rejected": -0.0553429052233696,
       "step": 70
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 4.93167072587771e-07,
-      "logits/chosen": 0.32164302468299866,
-      "logits/rejected": 0.3959673047065735,
-      "logps/chosen": -379.69647216796875,
-      "logps/rejected": -327.6635437011719,
-      "loss": 0.1132,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.004512617830187082,
-      "rewards/margins": 0.07668532431125641,
-      "rewards/rejected": -0.08119793236255646,
       "step": 80
     },
     {
-      "epoch": 0.19,
-      "learning_rate": 4.882681251368548e-07,
-      "logits/chosen": 0.31702089309692383,
-      "logits/rejected": 0.4289167821407318,
-      "logps/chosen": -394.7347717285156,
-      "logps/rejected": -366.826171875,
-      "loss": 0.1025,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -0.009242130443453789,
-      "rewards/margins": 0.12692956626415253,
-      "rewards/rejected": -0.13617169857025146,
       "step": 90
     },
     {
-      "epoch": 0.21,
-      "learning_rate": 4.820919832540181e-07,
-      "logits/chosen": 0.3820047080516815,
-      "logits/rejected": 0.4675898551940918,
-      "logps/chosen": -372.18115234375,
-      "logps/rejected": -365.79522705078125,
-      "loss": 0.0975,
-      "rewards/accuracies": 0.5874999761581421,
-      "rewards/chosen": -0.08189485222101212,
-      "rewards/margins": 0.11343145370483398,
-      "rewards/rejected": -0.1953262984752655,
       "step": 100
     },
     {
-      "epoch": 0.21,
-      "eval_logits/chosen": 0.4692724049091339,
-      "eval_logits/rejected": 0.533983588218689,
-      "eval_logps/chosen": -365.49639892578125,
-      "eval_logps/rejected": -389.4014587402344,
-      "eval_loss": 0.09751056134700775,
-      "eval_rewards/accuracies": 0.69140625,
-      "eval_rewards/chosen": -0.060451939702034,
-      "eval_rewards/margins": 0.17646832764148712,
-      "eval_rewards/rejected": -0.23692026734352112,
-      "eval_runtime": 76.9794,
-      "eval_samples_per_second": 25.981,
-      "eval_steps_per_second": 0.416,
       "step": 100
     },
     {
-      "epoch": 0.23,
-      "learning_rate": 4.7467175306295647e-07,
-      "logits/chosen": 0.37000179290771484,
-      "logits/rejected": 0.43369150161743164,
-      "logps/chosen": -378.1351318359375,
-      "logps/rejected": -378.1277770996094,
-      "loss": 0.0933,
-      "rewards/accuracies": 0.6187499761581421,
-      "rewards/chosen": -0.14543434977531433,
-      "rewards/margins": 0.1312834918498993,
-      "rewards/rejected": -0.2767178416252136,
       "step": 110
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 4.6604720940421207e-07,
-      "logits/chosen": 0.4519842565059662,
-      "logits/rejected": 0.5497914552688599,
-      "logps/chosen": -408.4247131347656,
-      "logps/rejected": -414.9881286621094,
-      "loss": 0.0929,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.19376961886882782,
-      "rewards/margins": 0.1563883125782013,
-      "rewards/rejected": -0.3501579165458679,
       "step": 120
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 4.5626458262912735e-07,
-      "logits/chosen": 0.5827921628952026,
-      "logits/rejected": 0.6809111833572388,
-      "logps/chosen": -420.0984802246094,
-      "logps/rejected": -399.5935363769531,
-      "loss": 0.0789,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": -0.28970545530319214,
-      "rewards/margins": 0.15940071642398834,
-      "rewards/rejected": -0.4491061270236969,
       "step": 130
     },
     {
-      "epoch": 0.29,
-      "learning_rate": 4.453763107901675e-07,
-      "logits/chosen": 0.6244224309921265,
-      "logits/rejected": 0.746228814125061,
-      "logps/chosen": -396.53076171875,
-      "logps/rejected": -390.9623718261719,
-      "loss": 0.0717,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.3686402440071106,
-      "rewards/margins": 0.18962158262729645,
-      "rewards/rejected": -0.5582617521286011,
       "step": 140
     },
     {
-      "epoch": 0.31,
-      "learning_rate": 4.3344075855595097e-07,
-      "logits/chosen": 0.6669297218322754,
-      "logits/rejected": 0.8208922147750854,
-      "logps/chosen": -387.5301818847656,
-      "logps/rejected": -378.3419189453125,
-      "loss": 0.0647,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": -0.41620713472366333,
-      "rewards/margins": 0.1934729665517807,
-      "rewards/rejected": -0.6096801161766052,
       "step": 150
     },
     {
-      "epoch": 0.33,
-      "learning_rate": 4.2052190435769554e-07,
-      "logits/chosen": 0.6333284974098206,
-      "logits/rejected": 0.7795067429542542,
-      "logps/chosen": -428.93841552734375,
-      "logps/rejected": -450.5494079589844,
-      "loss": 0.0619,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -0.4103819727897644,
-      "rewards/margins": 0.2781962454319,
-      "rewards/rejected": -0.6885782480239868,
       "step": 160
     },
     {
-      "epoch": 0.36,
-      "learning_rate": 4.0668899744407567e-07,
-      "logits/chosen": 0.6851844787597656,
-      "logits/rejected": 0.8698636889457703,
-      "logps/chosen": -394.453369140625,
-      "logps/rejected": -400.83892822265625,
-      "loss": 0.0613,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": -0.49455365538597107,
-      "rewards/margins": 0.24642686545848846,
-      "rewards/rejected": -0.7409806251525879,
       "step": 170
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 3.920161866827889e-07,
-      "logits/chosen": 0.579459011554718,
-      "logits/rejected": 0.6854727864265442,
-      "logps/chosen": -381.6180419921875,
-      "logps/rejected": -419.34869384765625,
-      "loss": 0.0616,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": -0.476001501083374,
-      "rewards/margins": 0.2683504521846771,
-      "rewards/rejected": -0.7443519830703735,
       "step": 180
     },
     {
-      "epoch": 0.4,
-      "learning_rate": 3.765821230985757e-07,
-      "logits/chosen": 0.5569711923599243,
-      "logits/rejected": 0.6708570718765259,
-      "logps/chosen": -383.0780334472656,
-      "logps/rejected": -407.76837158203125,
-      "loss": 0.0592,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -0.4089416563510895,
-      "rewards/margins": 0.28474992513656616,
-      "rewards/rejected": -0.693691611289978,
       "step": 190
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 3.604695382782159e-07,
-      "logits/chosen": 0.49640387296676636,
-      "logits/rejected": 0.604566216468811,
-      "logps/chosen": -433.7373046875,
-      "logps/rejected": -452.308837890625,
-      "loss": 0.0589,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -0.47900503873825073,
-      "rewards/margins": 0.30649885535240173,
-      "rewards/rejected": -0.7855038046836853,
       "step": 200
     },
     {
-      "epoch": 0.42,
-      "eval_logits/chosen": 0.6615116596221924,
-      "eval_logits/rejected": 0.7807996273040771,
-      "eval_logps/chosen": -404.0002136230469,
-      "eval_logps/rejected": -453.07177734375,
-      "eval_loss": 0.05819432809948921,
-      "eval_rewards/accuracies": 0.71484375,
-      "eval_rewards/chosen": -0.4454895853996277,
-      "eval_rewards/margins": 0.42813408374786377,
-      "eval_rewards/rejected": -0.8736236691474915,
-      "eval_runtime": 75.0575,
-      "eval_samples_per_second": 26.646,
-      "eval_steps_per_second": 0.426,
       "step": 200
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 3.4376480090239047e-07,
-      "logits/chosen": 0.5758289098739624,
-      "logits/rejected": 0.6775172352790833,
-      "logps/chosen": -441.56683349609375,
-      "logps/rejected": -425.92437744140625,
-      "loss": 0.0567,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -0.562717080116272,
-      "rewards/margins": 0.29301005601882935,
-      "rewards/rejected": -0.8557270765304565,
       "step": 210
     },
     {
-      "epoch": 0.46,
-      "learning_rate": 3.265574537815398e-07,
-      "logits/chosen": 0.423481285572052,
-      "logits/rejected": 0.6732310056686401,
-      "logps/chosen": -423.9397888183594,
-      "logps/rejected": -425.78045654296875,
-      "loss": 0.0577,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -0.43129101395606995,
-      "rewards/margins": 0.49137812852859497,
-      "rewards/rejected": -0.9226692318916321,
       "step": 220
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 3.0893973387735683e-07,
-      "logits/chosen": 0.46089068055152893,
-      "logits/rejected": 0.6886599659919739,
-      "logps/chosen": -458.5089416503906,
-      "logps/rejected": -429.6102600097656,
-      "loss": 0.058,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.49578744173049927,
-      "rewards/margins": 0.4050619602203369,
-      "rewards/rejected": -0.900849461555481,
       "step": 230
     },
     {
-      "epoch": 0.5,
-      "learning_rate": 2.910060778827554e-07,
-      "logits/chosen": 0.581864595413208,
-      "logits/rejected": 0.7646275758743286,
-      "logps/chosen": -428.42803955078125,
-      "logps/rejected": -440.18597412109375,
-      "loss": 0.0611,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.45797547698020935,
-      "rewards/margins": 0.4529312551021576,
-      "rewards/rejected": -0.9109067916870117,
       "step": 240
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 2.7285261601056697e-07,
-      "logits/chosen": 0.5814759135246277,
-      "logits/rejected": 0.7270434498786926,
-      "logps/chosen": -398.45135498046875,
-      "logps/rejected": -447.3760681152344,
-      "loss": 0.0551,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.5682977437973022,
-      "rewards/margins": 0.40714630484580994,
-      "rewards/rejected": -0.9754441380500793,
       "step": 250
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 2.5457665670441937e-07,
-      "logits/chosen": 0.540181040763855,
-      "logits/rejected": 0.705514669418335,
-      "logps/chosen": -430.0947265625,
-      "logps/rejected": -455.96466064453125,
-      "loss": 0.0543,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.5835620164871216,
-      "rewards/margins": 0.3612635135650635,
-      "rewards/rejected": -0.9448255300521851,
       "step": 260
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 2.3627616503391812e-07,
-      "logits/chosen": 0.531669020652771,
-      "logits/rejected": 0.6921663880348206,
-      "logps/chosen": -411.39947509765625,
-      "logps/rejected": -438.072265625,
-      "loss": 0.0529,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.581498384475708,
-      "rewards/margins": 0.41039901971817017,
-      "rewards/rejected": -0.9918974041938782,
       "step": 270
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 2.1804923757009882e-07,
-      "logits/chosen": 0.5589742064476013,
-      "logits/rejected": 0.6747141480445862,
-      "logps/chosen": -441.4170837402344,
-      "logps/rejected": -477.62310791015625,
-      "loss": 0.0506,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -0.57341468334198,
-      "rewards/margins": 0.4166173040866852,
-      "rewards/rejected": -0.990031898021698,
       "step": 280
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 1.9999357655598891e-07,
-      "logits/chosen": 0.6409920454025269,
-      "logits/rejected": 0.8697878122329712,
-      "logps/chosen": -446.1312561035156,
-      "logps/rejected": -445.7093811035156,
-      "loss": 0.048,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": -0.6841451525688171,
-      "rewards/margins": 0.47665899991989136,
-      "rewards/rejected": -1.1608041524887085,
       "step": 290
     },
     {
-      "epoch": 0.63,
-      "learning_rate": 1.8220596619089573e-07,
-      "logits/chosen": 0.67746901512146,
-      "logits/rejected": 0.8398680686950684,
-      "logps/chosen": -440.12237548828125,
-      "logps/rejected": -460.32086181640625,
-      "loss": 0.0465,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -0.7187305688858032,
-      "rewards/margins": 0.3237985372543335,
-      "rewards/rejected": -1.0425291061401367,
       "step": 300
     },
     {
-      "epoch": 0.63,
-      "eval_logits/chosen": 0.7931328415870667,
-      "eval_logits/rejected": 0.8960775136947632,
-      "eval_logps/chosen": -419.99542236328125,
-      "eval_logps/rejected": -477.4249267578125,
-      "eval_loss": 0.04939539358019829,
-      "eval_rewards/accuracies": 0.703125,
-      "eval_rewards/chosen": -0.6054419279098511,
-      "eval_rewards/margins": 0.511713445186615,
-      "eval_rewards/rejected": -1.1171554327011108,
-      "eval_runtime": 75.2617,
-      "eval_samples_per_second": 26.574,
-      "eval_steps_per_second": 0.425,
       "step": 300
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 1.647817538357072e-07,
-      "logits/chosen": 0.6320704817771912,
-      "logits/rejected": 0.8103192448616028,
-      "logps/chosen": -424.61865234375,
-      "logps/rejected": -452.2117614746094,
-      "loss": 0.0484,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": -0.608985185623169,
-      "rewards/margins": 0.3958033323287964,
-      "rewards/rejected": -1.0047886371612549,
       "step": 310
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 1.478143389201113e-07,
-      "logits/chosen": 0.7435864806175232,
-      "logits/rejected": 0.9429095983505249,
-      "logps/chosen": -452.36004638671875,
-      "logps/rejected": -481.8624572753906,
-      "loss": 0.0448,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -0.628174901008606,
-      "rewards/margins": 0.41646808385849,
-      "rewards/rejected": -1.0446430444717407,
       "step": 320
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 1.3139467229135998e-07,
-      "logits/chosen": 0.6155081987380981,
-      "logits/rejected": 0.7582153081893921,
-      "logps/chosen": -426.2732849121094,
-      "logps/rejected": -476.5437927246094,
-      "loss": 0.0473,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -0.6611535549163818,
-      "rewards/margins": 0.38004034757614136,
-      "rewards/rejected": -1.041193962097168,
       "step": 330
     },
-    {
-      "epoch": 0.71,
-      "learning_rate": 1.1561076868822755e-07,
-      "logits/chosen": 0.5263934135437012,
-      "logits/rejected": 0.7371311783790588,
-      "logps/chosen": -459.9794006347656,
-      "logps/rejected": -492.32977294921875,
-      "loss": 0.0484,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -0.6238055229187012,
-      "rewards/margins": 0.46394386887550354,
-      "rewards/rejected": -1.0877494812011719,
-      "step": 340
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 1.0054723495346482e-07,
-      "logits/chosen": 0.6952361464500427,
-      "logits/rejected": 0.7730409502983093,
-      "logps/chosen": -392.53411865234375,
-      "logps/rejected": -445.5184631347656,
-      "loss": 0.0467,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.6540313959121704,
-      "rewards/margins": 0.43615293502807617,
-      "rewards/rejected": -1.0901843309402466,
-      "step": 350
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 8.628481651367875e-08,
-      "logits/chosen": 0.645788311958313,
-      "logits/rejected": 0.8300139307975769,
-      "logps/chosen": -437.50830078125,
-      "logps/rejected": -429.37890625,
-      "loss": 0.0524,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.6759519577026367,
-      "rewards/margins": 0.35926973819732666,
-      "rewards/rejected": -1.0352216958999634,
-      "step": 360
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 7.289996455765748e-08,
-      "logits/chosen": 0.6347015500068665,
-      "logits/rejected": 0.8841344714164734,
-      "logps/chosen": -434.65313720703125,
-      "logps/rejected": -425.39825439453125,
-      "loss": 0.0428,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.5998077988624573,
-      "rewards/margins": 0.45034995675086975,
-      "rewards/rejected": -1.0501576662063599,
-      "step": 370
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 6.046442623320145e-08,
-      "logits/chosen": 0.653687596321106,
-      "logits/rejected": 0.7189717292785645,
-      "logps/chosen": -426.47674560546875,
-      "logps/rejected": -455.5611267089844,
-      "loss": 0.0501,
-      "rewards/accuracies": 0.6187499761581421,
-      "rewards/chosen": -0.6170892119407654,
-      "rewards/margins": 0.3933621644973755,
-      "rewards/rejected": -1.010451316833496,
-      "step": 380
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 4.904486005914027e-08,
-      "logits/chosen": 0.5192676186561584,
-      "logits/rejected": 0.7548397183418274,
-      "logps/chosen": -476.45904541015625,
-      "logps/rejected": -474.6182556152344,
-      "loss": 0.0451,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.718641459941864,
-      "rewards/margins": 0.44875186681747437,
-      "rewards/rejected": -1.167393445968628,
-      "step": 390
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 3.8702478614051345e-08,
-      "logits/chosen": 0.6225503087043762,
-      "logits/rejected": 0.731469988822937,
-      "logps/chosen": -407.16912841796875,
-      "logps/rejected": -418.2110290527344,
-      "loss": 0.0419,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.6035235524177551,
-      "rewards/margins": 0.3522457182407379,
-      "rewards/rejected": -0.9557692408561707,
-      "step": 400
-    },
-    {
-      "epoch": 0.84,
-      "eval_logits/chosen": 0.7144887447357178,
-      "eval_logits/rejected": 0.832917332649231,
-      "eval_logps/chosen": -416.8811950683594,
-      "eval_logps/rejected": -477.0538330078125,
-      "eval_loss": 0.049533091485500336,
-      "eval_rewards/accuracies": 0.734375,
-      "eval_rewards/chosen": -0.5742998123168945,
-      "eval_rewards/margins": 0.5391446352005005,
-      "eval_rewards/rejected": -1.1134445667266846,
-      "eval_runtime": 76.9908,
-      "eval_samples_per_second": 25.977,
-      "eval_steps_per_second": 0.416,
-      "step": 400
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 2.9492720416985e-08,
-      "logits/chosen": 0.5682260990142822,
-      "logits/rejected": 0.7126413583755493,
-      "logps/chosen": -419.2569885253906,
-      "logps/rejected": -410.59014892578125,
-      "loss": 0.0473,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -0.652999222278595,
-      "rewards/margins": 0.26512840390205383,
-      "rewards/rejected": -0.9181275367736816,
-      "step": 410
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 2.1464952759020856e-08,
-      "logits/chosen": 0.6080732345581055,
-      "logits/rejected": 0.7386394739151001,
-      "logps/chosen": -452.77789306640625,
-      "logps/rejected": -437.8445739746094,
-      "loss": 0.0469,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.7366248369216919,
-      "rewards/margins": 0.2541760802268982,
-      "rewards/rejected": -0.9908009767532349,
-      "step": 420
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 1.4662207078575684e-08,
-      "logits/chosen": 0.6554642915725708,
-      "logits/rejected": 0.7158025503158569,
-      "logps/chosen": -407.20953369140625,
-      "logps/rejected": -471.7041015625,
-      "loss": 0.0453,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -0.6344213485717773,
-      "rewards/margins": 0.481538861989975,
-      "rewards/rejected": -1.1159603595733643,
-      "step": 430
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 9.12094829893642e-09,
-      "logits/chosen": 0.7153126001358032,
-      "logits/rejected": 0.7965753078460693,
-      "logps/chosen": -441.6089782714844,
-      "logps/rejected": -466.2574768066406,
-      "loss": 0.0487,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": -0.6991580724716187,
-      "rewards/margins": 0.4110774099826813,
-      "rewards/rejected": -1.1102354526519775,
-      "step": 440
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 4.8708793644441086e-09,
-      "logits/chosen": 0.6587673425674438,
-      "logits/rejected": 0.830274760723114,
-      "logps/chosen": -465.8287658691406,
-      "logps/rejected": -467.7762145996094,
-      "loss": 0.0461,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.6734641194343567,
-      "rewards/margins": 0.3525208532810211,
-      "rewards/rejected": -1.0259850025177002,
-      "step": 450
-    },
     {
       "epoch": 0.96,
-      "learning_rate": 1.9347820230782295e-09,
-      "logits/chosen": 0.7173280715942383,
-      "logits/rejected": 0.8633974194526672,
-      "logps/chosen": -380.0779724121094,
-      "logps/rejected": -403.060302734375,
-      "loss": 0.0456,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -0.5644342303276062,
-      "rewards/margins": 0.3927594721317291,
-      "rewards/rejected": -0.9571938514709473,
-      "step": 460
     },
     {
       "epoch": 0.98,
-      "learning_rate": 3.2839470889836627e-10,
-      "logits/chosen": 0.6316866278648376,
-      "logits/rejected": 0.7777234315872192,
-      "logps/chosen": -403.5115661621094,
-      "logps/rejected": -452.41864013671875,
-      "loss": 0.0474,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -0.6106697916984558,
-      "rewards/margins": 0.4684695303440094,
-      "rewards/rejected": -1.0791394710540771,
-      "step": 470
     },
     {
       "epoch": 1.0,
-      "step": 477,
       "total_flos": 0.0,
-      "train_loss": 0.06584663976538356,
-      "train_runtime": 4434.0315,
-      "train_samples_per_second": 13.787,
-      "train_steps_per_second": 0.108
     }
   ],
   "logging_steps": 10,
-  "max_steps": 477,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "total_flos": 0.0,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 100,
+  "global_step": 356,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 1.3888888888888887e-08,
+      "logits/chosen": -0.07916320115327835,
+      "logits/rejected": 0.09423620253801346,
+      "logps/chosen": -527.0689697265625,
+      "logps/rejected": -183.19036865234375,
+      "loss": 0.2697,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
       "step": 1
     },
     {
+      "epoch": 0.03,
+      "learning_rate": 1.3888888888888888e-07,
+      "logits/chosen": 0.004179990850389004,
+      "logits/rejected": 0.11239409446716309,
+      "logps/chosen": -361.7335205078125,
+      "logps/rejected": -210.11724853515625,
+      "loss": 0.2694,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": -0.0008115082746371627,
+      "rewards/margins": -0.0008267887169495225,
+      "rewards/rejected": 1.528057146060746e-05,
       "step": 10
     },
     {
       "epoch": 0.06,
+      "learning_rate": 2.7777777777777776e-07,
+      "logits/chosen": 0.026069095358252525,
+      "logits/rejected": 0.120852991938591,
+      "logps/chosen": -340.1752624511719,
+      "logps/rejected": -205.56005859375,
+      "loss": 0.2674,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": 0.0007374463602900505,
+      "rewards/margins": 0.002576880855485797,
+      "rewards/rejected": -0.00183943472802639,
+      "step": 20
     },
     {
       "epoch": 0.08,
       "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": 0.0880424827337265,
+      "logits/rejected": 0.18464604020118713,
+      "logps/chosen": -364.30645751953125,
+      "logps/rejected": -223.30856323242188,
+      "loss": 0.2594,
       "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": 0.011071065440773964,
+      "rewards/margins": 0.01881546340882778,
+      "rewards/rejected": -0.007744398899376392,
+      "step": 30
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.998072590601808e-07,
+      "logits/chosen": 0.03276750445365906,
+      "logits/rejected": 0.11399135738611221,
+      "logps/chosen": -326.2428894042969,
+      "logps/rejected": -201.30242919921875,
+      "loss": 0.2715,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": 0.012436876073479652,
+      "rewards/margins": 0.04091664031147957,
+      "rewards/rejected": -0.028479766100645065,
       "step": 40
     },
     {
+      "epoch": 0.14,
+      "learning_rate": 4.976423351108942e-07,
+      "logits/chosen": 0.027437573298811913,
+      "logits/rejected": 0.14870569109916687,
+      "logps/chosen": -334.8109436035156,
+      "logps/rejected": -226.3872528076172,
+      "loss": 0.2705,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": 0.005514688324183226,
+      "rewards/margins": 0.05494096130132675,
+      "rewards/rejected": -0.04942627623677254,
       "step": 50
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 4.930924800994191e-07,
+      "logits/chosen": -0.05219824239611626,
+      "logits/rejected": 0.0783001258969307,
+      "logps/chosen": -381.02630615234375,
+      "logps/rejected": -222.3650665283203,
+      "loss": 0.279,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": 0.007738674990832806,
+      "rewards/margins": 0.15125080943107605,
+      "rewards/rejected": -0.14351214468479156,
       "step": 60
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 4.862015116167195e-07,
+      "logits/chosen": -0.03661634773015976,
+      "logits/rejected": 0.07865114510059357,
+      "logps/chosen": -399.9691467285156,
+      "logps/rejected": -226.57077026367188,
+      "loss": 0.2772,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 0.03858373686671257,
+      "rewards/margins": 0.1999650001525879,
+      "rewards/rejected": -0.16138127446174622,
       "step": 70
     },
     {
+      "epoch": 0.22,
+      "learning_rate": 4.770357934562704e-07,
+      "logits/chosen": -0.09548693895339966,
+      "logits/rejected": 0.029117891564965248,
+      "logps/chosen": -338.6766662597656,
+      "logps/rejected": -209.7130889892578,
+      "loss": 0.2781,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": 0.03253953158855438,
+      "rewards/margins": 0.21850749850273132,
+      "rewards/rejected": -0.18596798181533813,
       "step": 80
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 4.6568359649444796e-07,
+      "logits/chosen": -0.04077336937189102,
+      "logits/rejected": 0.011481313034892082,
+      "logps/chosen": -378.87640380859375,
+      "logps/rejected": -251.39126586914062,
+      "loss": 0.2914,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.0237547867000103,
+      "rewards/margins": 0.26172345876693726,
+      "rewards/rejected": -0.23796863853931427,
       "step": 90
     },
     {
+      "epoch": 0.28,
+      "learning_rate": 4.5225424859373684e-07,
+      "logits/chosen": -0.031900886446237564,
+      "logits/rejected": 0.12457527965307236,
+      "logps/chosen": -362.72149658203125,
+      "logps/rejected": -228.3905029296875,
+      "loss": 0.2868,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": 0.0559692457318306,
+      "rewards/margins": 0.2908957004547119,
+      "rewards/rejected": -0.2349264919757843,
       "step": 100
     },
     {
+      "epoch": 0.28,
+      "eval_logits/chosen": 0.2621645927429199,
+      "eval_logits/rejected": 0.3182756006717682,
+      "eval_logps/chosen": -344.21881103515625,
+      "eval_logps/rejected": -354.05804443359375,
+      "eval_loss": 0.1333150714635849,
+      "eval_rewards/accuracies": 0.54296875,
+      "eval_rewards/chosen": 0.15232382714748383,
+      "eval_rewards/margins": 0.035810258239507675,
+      "eval_rewards/rejected": 0.11651356518268585,
+      "eval_runtime": 73.7435,
+      "eval_samples_per_second": 27.121,
+      "eval_steps_per_second": 0.434,
       "step": 100
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 4.3687708171564917e-07,
+      "logits/chosen": -0.055425770580768585,
+      "logits/rejected": 0.09765736013650894,
+      "logps/chosen": -321.40301513671875,
+      "logps/rejected": -256.71246337890625,
+      "loss": 0.2724,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.053195059299468994,
+      "rewards/margins": 0.14237919449806213,
+      "rewards/rejected": -0.19557425379753113,
       "step": 110
     },
     {
+      "epoch": 0.34,
+      "learning_rate": 4.1970018638323547e-07,
+      "logits/chosen": 0.15357539057731628,
+      "logits/rejected": 0.26186805963516235,
+      "logps/chosen": -320.7575378417969,
+      "logps/rejected": -218.4688262939453,
+      "loss": 0.2627,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.046941496431827545,
+      "rewards/margins": 0.1810278296470642,
+      "rewards/rejected": -0.22796931862831116,
       "step": 120
     },
     {
+      "epoch": 0.37,
+      "learning_rate": 4.0088898548839285e-07,
+      "logits/chosen": 0.08365978300571442,
+      "logits/rejected": 0.24095574021339417,
+      "logps/chosen": -407.60296630859375,
+      "logps/rejected": -238.1927947998047,
+      "loss": 0.2686,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": 0.09180920571088791,
+      "rewards/margins": 0.40369096398353577,
+      "rewards/rejected": -0.31188178062438965,
       "step": 130
     },
     {
+      "epoch": 0.39,
+      "learning_rate": 3.806246411789872e-07,
+      "logits/chosen": 0.022735467180609703,
+      "logits/rejected": 0.15050409734249115,
+      "logps/chosen": -329.76239013671875,
+      "logps/rejected": -232.79110717773438,
+      "loss": 0.2578,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.042784951627254486,
+      "rewards/margins": 0.22251620888710022,
+      "rewards/rejected": -0.2653011679649353,
       "step": 140
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 3.5910231016833546e-07,
+      "logits/chosen": 0.03553224354982376,
+      "logits/rejected": 0.17889562249183655,
+      "logps/chosen": -353.3590087890625,
+      "logps/rejected": -262.5151062011719,
+      "loss": 0.2602,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.09243994206190109,
+      "rewards/margins": 0.20844857394695282,
+      "rewards/rejected": -0.3008885383605957,
       "step": 150
     },
     {
+      "epoch": 0.45,
+      "learning_rate": 3.3652926426937325e-07,
+      "logits/chosen": 0.1453518569469452,
+      "logits/rejected": 0.3264540731906891,
+      "logps/chosen": -371.01690673828125,
+      "logps/rejected": -241.61587524414062,
+      "loss": 0.2524,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.028423363342881203,
+      "rewards/margins": 0.3061867952346802,
+      "rewards/rejected": -0.3346101641654968,
       "step": 160
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 3.1312289425378944e-07,
+      "logits/chosen": 0.1509348452091217,
+      "logits/rejected": 0.2768942713737488,
+      "logps/chosen": -338.87677001953125,
+      "logps/rejected": -241.0658721923828,
+      "loss": 0.2506,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.1020059734582901,
+      "rewards/margins": 0.2968062162399292,
+      "rewards/rejected": -0.3988121747970581,
       "step": 170
     },
     {
+      "epoch": 0.51,
+      "learning_rate": 2.8910861626005773e-07,
+      "logits/chosen": 0.040277767926454544,
+      "logits/rejected": 0.27446210384368896,
+      "logps/chosen": -357.395751953125,
+      "logps/rejected": -251.81118774414062,
+      "loss": 0.2477,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.1509798765182495,
+      "rewards/margins": 0.2679017186164856,
+      "rewards/rejected": -0.4188815653324127,
       "step": 180
     },
     {
+      "epoch": 0.53,
+      "learning_rate": 2.647177009127972e-07,
+      "logits/chosen": 0.013982865028083324,
+      "logits/rejected": 0.2294052094221115,
+      "logps/chosen": -367.9175720214844,
+      "logps/rejected": -243.03515625,
+      "loss": 0.2495,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.10979857295751572,
+      "rewards/margins": 0.31621265411376953,
+      "rewards/rejected": -0.42601123452186584,
       "step": 190
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 2.401850460602329e-07,
+      "logits/chosen": -0.03239673003554344,
+      "logits/rejected": 0.16571494936943054,
+      "logps/chosen": -379.0220642089844,
+      "logps/rejected": -245.20059204101562,
+      "loss": 0.2525,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.0782201737165451,
+      "rewards/margins": 0.3675476312637329,
+      "rewards/rejected": -0.4457678198814392,
       "step": 200
     },
     {
+      "epoch": 0.56,
+      "eval_logits/chosen": 0.49550750851631165,
+      "eval_logits/rejected": 0.5930490493774414,
+      "eval_logps/chosen": -368.35491943359375,
+      "eval_logps/rejected": -380.480224609375,
+      "eval_loss": 0.1256043165922165,
+      "eval_rewards/accuracies": 0.55078125,
+      "eval_rewards/chosen": -0.08903706073760986,
+      "eval_rewards/margins": 0.058670774102211,
+      "eval_rewards/rejected": -0.14770783483982086,
+      "eval_runtime": 75.4328,
+      "eval_samples_per_second": 26.514,
+      "eval_steps_per_second": 0.424,
       "step": 200
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 2.1574691457950803e-07,
+      "logits/chosen": 0.12455999851226807,
+      "logits/rejected": 0.324402391910553,
+      "logps/chosen": -438.97503662109375,
+      "logps/rejected": -254.6726837158203,
+      "loss": 0.2425,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.06605833023786545,
+      "rewards/margins": 0.47193247079849243,
+      "rewards/rejected": -0.5379907488822937,
       "step": 210
     },
     {
+      "epoch": 0.62,
+      "learning_rate": 1.9163865903602372e-07,
+      "logits/chosen": 0.1709764003753662,
+      "logits/rejected": 0.3544366955757141,
+      "logps/chosen": -394.0027160644531,
+      "logps/rejected": -261.89007568359375,
+      "loss": 0.2455,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.12171328067779541,
+      "rewards/margins": 0.3835197985172272,
+      "rewards/rejected": -0.5052330493927002,
       "step": 220
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 1.6809245510957666e-07,
+      "logits/chosen": 0.09081762284040451,
+      "logits/rejected": 0.2811218202114105,
+      "logps/chosen": -364.36785888671875,
+      "logps/rejected": -250.978271484375,
+      "loss": 0.2368,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.14235250651836395,
+      "rewards/margins": 0.30515140295028687,
+      "rewards/rejected": -0.44750386476516724,
       "step": 230
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 1.4533506561564305e-07,
+      "logits/chosen": 0.03653250262141228,
+      "logits/rejected": 0.2626824378967285,
+      "logps/chosen": -391.4312438964844,
+      "logps/rejected": -266.96502685546875,
+      "loss": 0.2292,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.14164027571678162,
+      "rewards/margins": 0.358634352684021,
+      "rewards/rejected": -0.500274658203125,
       "step": 240
     },
     {
+      "epoch": 0.7,
+      "learning_rate": 1.2358565665550387e-07,
+      "logits/chosen": 0.17212027311325073,
+      "logits/rejected": 0.40048956871032715,
+      "logps/chosen": -332.1188049316406,
+      "logps/rejected": -250.65560913085938,
+      "loss": 0.2391,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.24126167595386505,
+      "rewards/margins": 0.3293803334236145,
+      "rewards/rejected": -0.5706420540809631,
       "step": 250
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 1.0305368692688174e-07,
+      "logits/chosen": -0.08241891115903854,
+      "logits/rejected": 0.16553013026714325,
+      "logps/chosen": -412.36114501953125,
+      "logps/rejected": -274.79400634765625,
+      "loss": 0.2439,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.1504540741443634,
+      "rewards/margins": 0.4203736186027527,
+      "rewards/rejected": -0.5708277225494385,
       "step": 260
     },
     {
+      "epoch": 0.76,
+      "learning_rate": 8.393689052217964e-08,
+      "logits/chosen": -0.020510882139205933,
+      "logits/rejected": 0.12404396384954453,
+      "logps/chosen": -349.6496276855469,
+      "logps/rejected": -272.2840576171875,
+      "loss": 0.2399,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.24097779393196106,
+      "rewards/margins": 0.28776854276657104,
+      "rewards/rejected": -0.5287463068962097,
       "step": 270
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 6.641937264107867e-08,
+      "logits/chosen": 0.010314036160707474,
+      "logits/rejected": 0.23556776344776154,
+      "logps/chosen": -394.3717956542969,
+      "logps/rejected": -275.3983459472656,
+      "loss": 0.2461,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.18616211414337158,
+      "rewards/margins": 0.3924596905708313,
+      "rewards/rejected": -0.5786218047142029,
       "step": 280
     },
     {
+      "epoch": 0.81,
+      "learning_rate": 5.066983655682325e-08,
+      "logits/chosen": 0.11865706741809845,
+      "logits/rejected": 0.37171706557273865,
+      "logps/chosen": -410.75238037109375,
+      "logps/rejected": -276.05096435546875,
+      "loss": 0.2417,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.16428914666175842,
+      "rewards/margins": 0.37311890721321106,
+      "rewards/rejected": -0.5374081134796143,
       "step": 290
     },
     {
+      "epoch": 0.84,
+      "learning_rate": 3.683995891147695e-08,
+      "logits/chosen": 0.17865325510501862,
+      "logits/rejected": 0.34302350878715515,
+      "logps/chosen": -415.6402282714844,
+      "logps/rejected": -274.9131774902344,
+      "loss": 0.2378,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.18494005501270294,
+      "rewards/margins": 0.4354974627494812,
+      "rewards/rejected": -0.620437502861023,
       "step": 300
     },
     {
+      "epoch": 0.84,
+      "eval_logits/chosen": 0.6386339664459229,
+      "eval_logits/rejected": 0.7226977348327637,
+      "eval_logps/chosen": -380.201171875,
+      "eval_logps/rejected": -392.9847717285156,
+      "eval_loss": 0.12494668364524841,
+      "eval_rewards/accuracies": 0.5390625,
+      "eval_rewards/chosen": -0.20749951899051666,
+      "eval_rewards/margins": 0.0652545690536499,
+      "eval_rewards/rejected": -0.27275407314300537,
+      "eval_runtime": 72.8503,
+      "eval_samples_per_second": 27.454,
+      "eval_steps_per_second": 0.439,
       "step": 300
     },
     {
+      "epoch": 0.87,
+      "learning_rate": 2.5062928986944676e-08,
+      "logits/chosen": 0.16634011268615723,
+      "logits/rejected": 0.354255348443985,
+      "logps/chosen": -353.1306457519531,
+      "logps/rejected": -266.2892761230469,
+      "loss": 0.237,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.22243313491344452,
+      "rewards/margins": 0.31714385747909546,
+      "rewards/rejected": -0.5395770072937012,
       "step": 310
     },
     {
+      "epoch": 0.9,
+      "learning_rate": 1.5452166019378987e-08,
+      "logits/chosen": 0.2329043447971344,
+      "logits/rejected": 0.4254538416862488,
+      "logps/chosen": -371.19134521484375,
+      "logps/rejected": -265.32318115234375,
+      "loss": 0.2319,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.2588824927806854,
+      "rewards/margins": 0.35255807638168335,
+      "rewards/rejected": -0.6114405989646912,
       "step": 320
     },
     {
+      "epoch": 0.93,
+      "learning_rate": 8.100226909935059e-09,
+      "logits/chosen": 0.1528688371181488,
+      "logits/rejected": 0.36090391874313354,
+      "logps/chosen": -388.44879150390625,
+      "logps/rejected": -276.200439453125,
+      "loss": 0.2326,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.30423063039779663,
+      "rewards/margins": 0.30501413345336914,
+      "rewards/rejected": -0.6092447638511658,
       "step": 330
     },
     {
       "epoch": 0.96,
+      "learning_rate": 3.077914851215585e-09,
+      "logits/chosen": 0.19943758845329285,
+      "logits/rejected": 0.3966359496116638,
+      "logps/chosen": -362.4263916015625,
+      "logps/rejected": -263.9919738769531,
+      "loss": 0.2411,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.3241748511791229,
+      "rewards/margins": 0.311737060546875,
+      "rewards/rejected": -0.6359119415283203,
+      "step": 340
     },
     {
       "epoch": 0.98,
+      "learning_rate": 4.3359745382104405e-10,
+      "logits/chosen": 0.1615952104330063,
+      "logits/rejected": 0.29963111877441406,
+      "logps/chosen": -399.9383544921875,
+      "logps/rejected": -277.37005615234375,
+      "loss": 0.2471,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.17405284941196442,
+      "rewards/margins": 0.4160131514072418,
+      "rewards/rejected": -0.5900660753250122,
+      "step": 350
     },
     {
       "epoch": 1.0,
+      "step": 356,
       "total_flos": 0.0,
+      "train_loss": 0.25543520273117537,
+      "train_runtime": 3431.8585,
+      "train_samples_per_second": 13.272,
+      "train_steps_per_second": 0.104
     }
   ],
   "logging_steps": 10,
+  "max_steps": 356,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "total_flos": 0.0,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:244710b622fa4597e251d9d5432f6e641819c004ec5cdd6bd2c0a68718e30f4c
 size 5944

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6f15dbfe379cf2e86bb1ff71cd78246124e71c6fe8e2b96ac4b71bb7fc947e1
 size 5944