Model save

Browse files

Files changed (9) hide show

README.md +14 -13
all_results.json +5 -5
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +620 -436
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -15,15 +15,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6704
-- Rewards/chosen: -0.2623
-- Rewards/rejected: -0.4157
-- Rewards/accuracies: 0.6172
-- Rewards/margins: 0.1534
-- Logps/rejected: -407.2814
-- Logps/chosen: -385.6814
-- Logits/rejected: 0.7859
-- Logits/chosen: 0.6443
 ## Model description
@@ -45,7 +45,7 @@ The following hyperparameters were used during training:
 - learning_rate: 5e-07
 - train_batch_size: 4
 - eval_batch_size: 8
-- seed: 1
 - distributed_type: multi-GPU
 - num_devices: 8
 - gradient_accumulation_steps: 4
@@ -60,9 +60,10 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.6155        | 0.28  | 100  | 0.6849          | 0.0942         | 0.0473           | 0.5234             | 0.0469          | -360.9828      | -350.0315    | 0.5391          | 0.4541        |
-| 0.5661        | 0.56  | 200  | 0.6719          | -0.1694        | -0.2891          | 0.6055             | 0.1196          | -394.6170      | -376.3940    | 0.8087          | 0.6693        |
-| 0.5681        | 0.84  | 300  | 0.6704          | -0.2623        | -0.4157          | 0.6172             | 0.1534          | -407.2814      | -385.6814    | 0.7859          | 0.6443        |
 ### Framework versions

 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0495
+- Rewards/chosen: -0.5743
+- Rewards/rejected: -1.1134
+- Rewards/accuracies: 0.7344
+- Rewards/margins: 0.5391
+- Logps/rejected: -477.0538
+- Logps/chosen: -416.8812
+- Logits/rejected: 0.8329
+- Logits/chosen: 0.7145
 ## Model description
 - learning_rate: 5e-07
 - train_batch_size: 4
 - eval_batch_size: 8
+- seed: 5
 - distributed_type: multi-GPU
 - num_devices: 8
 - gradient_accumulation_steps: 4
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.0975        | 0.21  | 100  | 0.0975          | -0.0605        | -0.2369          | 0.6914             | 0.1765          | -389.4015      | -365.4964    | 0.5340          | 0.4693        |
+| 0.0589        | 0.42  | 200  | 0.0582          | -0.4455        | -0.8736          | 0.7148             | 0.4281          | -453.0718      | -404.0002    | 0.7808          | 0.6615        |
+| 0.0465        | 0.63  | 300  | 0.0494          | -0.6054        | -1.1172          | 0.7031             | 0.5117          | -477.4249      | -419.9954    | 0.8961          | 0.7931        |
+| 0.0419        | 0.84  | 400  | 0.0495          | -0.5743        | -1.1134          | 0.7344             | 0.5391          | -477.0538      | -416.8812    | 0.8329          | 0.7145        |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.5989744803878698,
-    "train_runtime": 3249.9516,
-    "train_samples": 45548,
-    "train_samples_per_second": 14.015,
-    "train_steps_per_second": 0.11
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.06584663976538356,
+    "train_runtime": 4434.0315,
+    "train_samples": 61134,
+    "train_samples_per_second": 13.787,
+    "train_steps_per_second": 0.108
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:863dc54b67f5e81f1f9d6bd0780fce9a033593530d5e8a615a12530d9e01f9d1
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:742a3a39155dfe2982b2079fe8048378854d72be66f8bb03992eab95c8d8613f
 size 4976698672

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e443f3c5d5cb1fc73cdd58c50675f30a54cc8fba5b6b5800b9cf3ed189c65f7
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9663e310a114c8e5dfe67123c8fa2e0b3f06238bc3727bd48b2fbf862d129e4
 size 4999802720

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f117388c044429b966b07170241feb74d6fce6b4a96e19453046378eb573f9ef
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:be6bbc86492f411d627c4ebb8e6aeaff116a8962892dec9b9af59b92427b849f
 size 4915916176

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e94d35aef64c4dfe770fc21db27284361279aa63ef85154fa4b1e24ebc0c3ab
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:841fb520274242fc5c5655fa5d9e40cd6d96f0bb2ae1af50364d0590d1160c1f
 size 1168138808

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.5989744803878698,
-    "train_runtime": 3249.9516,
-    "train_samples": 45548,
-    "train_samples_per_second": 14.015,
-    "train_steps_per_second": 0.11
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.06584663976538356,
+    "train_runtime": 4434.0315,
+    "train_samples": 61134,
+    "train_samples_per_second": 13.787,
+    "train_steps_per_second": 0.108
 }

trainer_state.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 100,
-  "global_step": 356,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 1.3888888888888887e-08,
-      "logits/chosen": -0.07916320115327835,
-      "logits/rejected": 0.09423620253801346,
-      "logps/chosen": -527.0689697265625,
-      "logps/rejected": -183.19036865234375,
-      "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -23,555 +23,739 @@
       "step": 1
     },
     {
-      "epoch": 0.03,
-      "learning_rate": 1.3888888888888888e-07,
-      "logits/chosen": 0.00488958740606904,
-      "logits/rejected": 0.11317457258701324,
-      "logps/chosen": -361.6508483886719,
-      "logps/rejected": -210.14126586914062,
-      "loss": 0.6933,
       "rewards/accuracies": 0.4583333432674408,
-      "rewards/chosen": 1.533585600554943e-05,
-      "rewards/margins": 0.000240087800193578,
-      "rewards/rejected": -0.00022475191508419812,
       "step": 10
     },
     {
-      "epoch": 0.06,
-      "learning_rate": 2.7777777777777776e-07,
-      "logits/chosen": 0.026235083118081093,
-      "logits/rejected": 0.12080521881580353,
-      "logps/chosen": -340.08831787109375,
-      "logps/rejected": -205.6613311767578,
-      "loss": 0.6912,
-      "rewards/accuracies": 0.5687500238418579,
-      "rewards/chosen": 0.001607197686098516,
-      "rewards/margins": 0.0044591957703232765,
-      "rewards/rejected": -0.0028519982006400824,
       "step": 20
     },
     {
-      "epoch": 0.08,
-      "learning_rate": 4.1666666666666667e-07,
-      "logits/chosen": 0.08616660535335541,
-      "logits/rejected": 0.18304046988487244,
-      "logps/chosen": -364.1296691894531,
-      "logps/rejected": -224.0422821044922,
-      "loss": 0.6816,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": 0.012839061208069324,
-      "rewards/margins": 0.027920549735426903,
-      "rewards/rejected": -0.015081489458680153,
       "step": 30
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 4.998072590601808e-07,
-      "logits/chosen": 0.026512805372476578,
-      "logits/rejected": 0.10784071683883667,
-      "logps/chosen": -326.8155822753906,
-      "logps/rejected": -203.4437713623047,
-      "loss": 0.668,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": 0.006709781475365162,
-      "rewards/margins": 0.05660278722643852,
-      "rewards/rejected": -0.04989300295710564,
       "step": 40
     },
     {
-      "epoch": 0.14,
-      "learning_rate": 4.976423351108942e-07,
-      "logits/chosen": 0.013665281236171722,
-      "logits/rejected": 0.13254693150520325,
-      "logps/chosen": -336.5925598144531,
-      "logps/rejected": -230.033203125,
-      "loss": 0.6523,
-      "rewards/accuracies": 0.59375,
-      "rewards/chosen": -0.012301790527999401,
-      "rewards/margins": 0.07358390092849731,
-      "rewards/rejected": -0.08588568866252899,
       "step": 50
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 4.930924800994191e-07,
-      "logits/chosen": -0.075148805975914,
-      "logits/rejected": 0.06099820137023926,
-      "logps/chosen": -382.0185852050781,
-      "logps/rejected": -227.37222290039062,
-      "loss": 0.6225,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.002184201730415225,
-      "rewards/margins": 0.19139915704727173,
-      "rewards/rejected": -0.19358336925506592,
       "step": 60
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 4.862015116167195e-07,
-      "logits/chosen": -0.07402805984020233,
-      "logits/rejected": 0.04597530514001846,
-      "logps/chosen": -395.2985534667969,
-      "logps/rejected": -225.6622772216797,
-      "loss": 0.6239,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": 0.0852896124124527,
-      "rewards/margins": 0.2375856637954712,
-      "rewards/rejected": -0.1522960662841797,
       "step": 70
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 4.770357934562704e-07,
-      "logits/chosen": -0.08815683424472809,
-      "logits/rejected": 0.0715162605047226,
-      "logps/chosen": -335.470703125,
-      "logps/rejected": -209.92050170898438,
-      "loss": 0.6197,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": 0.06459876894950867,
-      "rewards/margins": 0.25264090299606323,
-      "rewards/rejected": -0.18804213404655457,
       "step": 80
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 4.6568359649444796e-07,
-      "logits/chosen": -0.06088203191757202,
-      "logits/rejected": 0.012268425896763802,
-      "logps/chosen": -375.87322998046875,
-      "logps/rejected": -250.84396362304688,
-      "loss": 0.6153,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": 0.05378664657473564,
-      "rewards/margins": 0.28628265857696533,
-      "rewards/rejected": -0.23249602317810059,
       "step": 90
     },
     {
-      "epoch": 0.28,
-      "learning_rate": 4.5225424859373684e-07,
-      "logits/chosen": 0.02037966251373291,
-      "logits/rejected": 0.23395180702209473,
-      "logps/chosen": -363.3604736328125,
-      "logps/rejected": -233.18899536132812,
-      "loss": 0.6155,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": 0.049579061567783356,
-      "rewards/margins": 0.3324902653694153,
-      "rewards/rejected": -0.2829112410545349,
       "step": 100
     },
     {
-      "epoch": 0.28,
-      "eval_logits/chosen": 0.4540720582008362,
-      "eval_logits/rejected": 0.5391180515289307,
-      "eval_logps/chosen": -350.0314636230469,
-      "eval_logps/rejected": -360.9827575683594,
-      "eval_loss": 0.6848979592323303,
-      "eval_rewards/accuracies": 0.5234375,
-      "eval_rewards/chosen": 0.09419750422239304,
-      "eval_rewards/margins": 0.04693090170621872,
-      "eval_rewards/rejected": 0.04726658761501312,
-      "eval_runtime": 65.4973,
-      "eval_samples_per_second": 30.536,
-      "eval_steps_per_second": 0.489,
       "step": 100
     },
     {
-      "epoch": 0.31,
-      "learning_rate": 4.3687708171564917e-07,
-      "logits/chosen": -0.010720082558691502,
-      "logits/rejected": 0.19943444430828094,
-      "logps/chosen": -320.583984375,
-      "logps/rejected": -260.4593505859375,
-      "loss": 0.618,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.04500458389520645,
-      "rewards/margins": 0.1880386769771576,
-      "rewards/rejected": -0.23304326832294464,
       "step": 110
     },
     {
-      "epoch": 0.34,
-      "learning_rate": 4.1970018638323547e-07,
-      "logits/chosen": 0.22007820010185242,
-      "logits/rejected": 0.3844499886035919,
-      "logps/chosen": -318.66680908203125,
-      "logps/rejected": -220.34548950195312,
-      "loss": 0.6024,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.026034215465188026,
-      "rewards/margins": 0.22070157527923584,
-      "rewards/rejected": -0.2467358112335205,
       "step": 120
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 4.0088898548839285e-07,
-      "logits/chosen": 0.15705306828022003,
-      "logits/rejected": 0.3788728713989258,
-      "logps/chosen": -404.3878479003906,
-      "logps/rejected": -239.31332397460938,
-      "loss": 0.5953,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": 0.12396061420440674,
-      "rewards/margins": 0.4470479488372803,
-      "rewards/rejected": -0.3230873644351959,
       "step": 130
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 3.806246411789872e-07,
-      "logits/chosen": 0.18306098878383636,
-      "logits/rejected": 0.36407768726348877,
-      "logps/chosen": -325.9332580566406,
-      "logps/rejected": -234.54403686523438,
-      "loss": 0.5921,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.0044938018545508385,
-      "rewards/margins": 0.27833661437034607,
-      "rewards/rejected": -0.2828304171562195,
       "step": 140
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 3.5910231016833546e-07,
-      "logits/chosen": 0.23124487698078156,
-      "logits/rejected": 0.4330722391605377,
-      "logps/chosen": -350.52386474609375,
-      "logps/rejected": -267.3382568359375,
-      "loss": 0.5908,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -0.06408815085887909,
-      "rewards/margins": 0.2850314974784851,
-      "rewards/rejected": -0.349119633436203,
       "step": 150
     },
     {
-      "epoch": 0.45,
-      "learning_rate": 3.3652926426937325e-07,
-      "logits/chosen": 0.2642674148082733,
-      "logits/rejected": 0.5020841360092163,
-      "logps/chosen": -367.66485595703125,
-      "logps/rejected": -243.3483123779297,
-      "loss": 0.5932,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": 0.005097188055515289,
-      "rewards/margins": 0.35703176259994507,
-      "rewards/rejected": -0.351934552192688,
       "step": 160
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 3.1312289425378944e-07,
-      "logits/chosen": 0.285301148891449,
-      "logits/rejected": 0.4867871403694153,
-      "logps/chosen": -334.489013671875,
-      "logps/rejected": -243.4333953857422,
-      "loss": 0.5806,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.058128129690885544,
-      "rewards/margins": 0.36435943841934204,
-      "rewards/rejected": -0.4224874973297119,
       "step": 170
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 2.8910861626005773e-07,
-      "logits/chosen": 0.16094639897346497,
-      "logits/rejected": 0.48152345418930054,
-      "logps/chosen": -354.7293395996094,
-      "logps/rejected": -256.0998840332031,
-      "loss": 0.5832,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.12431593984365463,
-      "rewards/margins": 0.33745259046554565,
-      "rewards/rejected": -0.4617684781551361,
       "step": 180
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 2.647177009127972e-07,
-      "logits/chosen": 0.24900703132152557,
-      "logits/rejected": 0.4860251843929291,
-      "logps/chosen": -368.28717041015625,
-      "logps/rejected": -249.85092163085938,
-      "loss": 0.5838,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.11349456012248993,
-      "rewards/margins": 0.38067418336868286,
-      "rewards/rejected": -0.494168758392334,
       "step": 190
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 2.401850460602329e-07,
-      "logits/chosen": 0.16625070571899414,
-      "logits/rejected": 0.4386712610721588,
-      "logps/chosen": -375.9776916503906,
-      "logps/rejected": -249.65512084960938,
-      "loss": 0.5661,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.04777635633945465,
-      "rewards/margins": 0.4425368309020996,
-      "rewards/rejected": -0.4903131425380707,
       "step": 200
     },
     {
-      "epoch": 0.56,
-      "eval_logits/chosen": 0.6692676544189453,
-      "eval_logits/rejected": 0.8087128400802612,
-      "eval_logps/chosen": -376.39398193359375,
-      "eval_logps/rejected": -394.6169738769531,
-      "eval_loss": 0.6718646287918091,
-      "eval_rewards/accuracies": 0.60546875,
-      "eval_rewards/chosen": -0.1694278120994568,
-      "eval_rewards/margins": 0.1196480467915535,
-      "eval_rewards/rejected": -0.2890758514404297,
-      "eval_runtime": 65.6783,
-      "eval_samples_per_second": 30.451,
-      "eval_steps_per_second": 0.487,
       "step": 200
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 2.1574691457950803e-07,
-      "logits/chosen": 0.18152353167533875,
-      "logits/rejected": 0.4297953248023987,
-      "logps/chosen": -432.59490966796875,
-      "logps/rejected": -252.2208251953125,
-      "loss": 0.5731,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.0022571056615561247,
-      "rewards/margins": 0.511215090751648,
-      "rewards/rejected": -0.5134721994400024,
       "step": 210
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 1.9163865903602372e-07,
-      "logits/chosen": 0.2716488242149353,
-      "logits/rejected": 0.5078220963478088,
-      "logps/chosen": -389.2140197753906,
-      "logps/rejected": -263.9394226074219,
-      "loss": 0.5783,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.07382676750421524,
-      "rewards/margins": 0.4518999457359314,
-      "rewards/rejected": -0.5257267355918884,
       "step": 220
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 1.6809245510957666e-07,
-      "logits/chosen": 0.16021332144737244,
-      "logits/rejected": 0.4130098223686218,
-      "logps/chosen": -357.9176940917969,
-      "logps/rejected": -252.9857940673828,
-      "loss": 0.5683,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -0.07785089313983917,
-      "rewards/margins": 0.3897276818752289,
-      "rewards/rejected": -0.467578649520874,
       "step": 230
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 1.4533506561564305e-07,
-      "logits/chosen": 0.06929950416088104,
-      "logits/rejected": 0.36037522554397583,
-      "logps/chosen": -385.23687744140625,
-      "logps/rejected": -265.5404357910156,
-      "loss": 0.5724,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -0.07969608157873154,
-      "rewards/margins": 0.4063330292701721,
-      "rewards/rejected": -0.4860290586948395,
       "step": 240
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 1.2358565665550387e-07,
-      "logits/chosen": 0.17380349338054657,
-      "logits/rejected": 0.45210400223731995,
-      "logps/chosen": -323.52716064453125,
-      "logps/rejected": -249.1572723388672,
-      "loss": 0.5722,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -0.15534546971321106,
-      "rewards/margins": 0.4003133773803711,
-      "rewards/rejected": -0.5556589365005493,
       "step": 250
     },
     {
-      "epoch": 0.73,
-      "learning_rate": 1.0305368692688174e-07,
-      "logits/chosen": 0.023118749260902405,
-      "logits/rejected": 0.29933175444602966,
-      "logps/chosen": -404.72479248046875,
-      "logps/rejected": -276.384033203125,
-      "loss": 0.5714,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -0.07409064471721649,
-      "rewards/margins": 0.5126373767852783,
-      "rewards/rejected": -0.5867279767990112,
       "step": 260
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 8.393689052217964e-08,
-      "logits/chosen": 0.10952025651931763,
-      "logits/rejected": 0.2917477488517761,
-      "logps/chosen": -342.96630859375,
-      "logps/rejected": -270.0740966796875,
-      "loss": 0.5788,
       "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.1741449385881424,
-      "rewards/margins": 0.3325015604496002,
-      "rewards/rejected": -0.5066465139389038,
       "step": 270
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 6.641937264107867e-08,
-      "logits/chosen": 0.1401262879371643,
-      "logits/rejected": 0.4076583981513977,
-      "logps/chosen": -389.6405944824219,
-      "logps/rejected": -279.58172607421875,
-      "loss": 0.5697,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.1388498991727829,
-      "rewards/margins": 0.4816059172153473,
-      "rewards/rejected": -0.6204557418823242,
       "step": 280
     },
     {
-      "epoch": 0.81,
-      "learning_rate": 5.066983655682325e-08,
-      "logits/chosen": 0.17886988818645477,
-      "logits/rejected": 0.4664178788661957,
-      "logps/chosen": -402.42510986328125,
-      "logps/rejected": -274.7767639160156,
-      "loss": 0.5709,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.0810159370303154,
-      "rewards/margins": 0.44364994764328003,
-      "rewards/rejected": -0.5246659517288208,
       "step": 290
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 3.683995891147695e-08,
-      "logits/chosen": 0.12415604293346405,
-      "logits/rejected": 0.3294488489627838,
-      "logps/chosen": -402.2934875488281,
-      "logps/rejected": -269.29876708984375,
-      "loss": 0.5681,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.05147252231836319,
-      "rewards/margins": 0.512820839881897,
-      "rewards/rejected": -0.564293384552002,
       "step": 300
     },
     {
-      "epoch": 0.84,
-      "eval_logits/chosen": 0.6442692279815674,
-      "eval_logits/rejected": 0.7858577370643616,
-      "eval_logps/chosen": -385.6814270019531,
-      "eval_logps/rejected": -407.28143310546875,
-      "eval_loss": 0.6703880429267883,
-      "eval_rewards/accuracies": 0.6171875,
-      "eval_rewards/chosen": -0.2623019516468048,
-      "eval_rewards/margins": 0.1534184217453003,
-      "eval_rewards/rejected": -0.4157203435897827,
-      "eval_runtime": 65.8277,
-      "eval_samples_per_second": 30.382,
-      "eval_steps_per_second": 0.486,
       "step": 300
     },
     {
-      "epoch": 0.87,
-      "learning_rate": 2.5062928986944676e-08,
-      "logits/chosen": 0.1317346841096878,
-      "logits/rejected": 0.36644047498703003,
-      "logps/chosen": -340.4246520996094,
-      "logps/rejected": -262.36859130859375,
-      "loss": 0.5722,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.09537344425916672,
-      "rewards/margins": 0.40499648451805115,
-      "rewards/rejected": -0.5003699064254761,
       "step": 310
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 1.5452166019378987e-08,
-      "logits/chosen": 0.17706182599067688,
-      "logits/rejected": 0.40400177240371704,
-      "logps/chosen": -361.12261962890625,
-      "logps/rejected": -260.80511474609375,
-      "loss": 0.5623,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.15819527208805084,
-      "rewards/margins": 0.40806493163108826,
-      "rewards/rejected": -0.5662601590156555,
       "step": 320
     },
     {
-      "epoch": 0.93,
-      "learning_rate": 8.100226909935059e-09,
-      "logits/chosen": 0.1275455504655838,
-      "logits/rejected": 0.3778701424598694,
-      "logps/chosen": -376.87091064453125,
-      "logps/rejected": -271.15924072265625,
-      "loss": 0.5582,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -0.18845218420028687,
-      "rewards/margins": 0.3703801929950714,
-      "rewards/rejected": -0.5588323473930359,
       "step": 330
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 3.077914851215585e-09,
-      "logits/chosen": 0.17431296408176422,
-      "logits/rejected": 0.4034757614135742,
-      "logps/chosen": -351.8921813964844,
-      "logps/rejected": -258.91180419921875,
-      "loss": 0.5746,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.21883301436901093,
-      "rewards/margins": 0.366277277469635,
-      "rewards/rejected": -0.5851103067398071,
       "step": 340
     },
     {
-      "epoch": 0.98,
-      "learning_rate": 4.3359745382104405e-10,
-      "logits/chosen": 0.1437760889530182,
-      "logits/rejected": 0.3430730104446411,
-      "logps/chosen": -391.3290710449219,
-      "logps/rejected": -273.56195068359375,
-      "loss": 0.5851,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -0.08795999735593796,
-      "rewards/margins": 0.46402493119239807,
-      "rewards/rejected": -0.551984965801239,
       "step": 350
     },
     {
       "epoch": 1.0,
-      "step": 356,
       "total_flos": 0.0,
-      "train_loss": 0.5989744803878698,
-      "train_runtime": 3249.9516,
-      "train_samples_per_second": 14.015,
-      "train_steps_per_second": 0.11
     }
   ],
   "logging_steps": 10,
-  "max_steps": 356,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "total_flos": 0.0,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9984301412872841,
   "eval_steps": 100,
+  "global_step": 477,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 1.0416666666666666e-08,
+      "logits/chosen": 0.12788674235343933,
+      "logits/rejected": 0.34812721610069275,
+      "logps/chosen": -504.64813232421875,
+      "logps/rejected": -353.6391906738281,
+      "loss": 0.1069,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
       "step": 1
     },
     {
+      "epoch": 0.02,
+      "learning_rate": 1.0416666666666667e-07,
+      "logits/chosen": 0.22303083539009094,
+      "logits/rejected": 0.3398795425891876,
+      "logps/chosen": -343.9149475097656,
+      "logps/rejected": -345.42095947265625,
+      "loss": 0.1091,
       "rewards/accuracies": 0.4583333432674408,
+      "rewards/chosen": 0.0002915965160354972,
+      "rewards/margins": 0.0005722532514482737,
+      "rewards/rejected": -0.0002806567645166069,
       "step": 10
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 2.0833333333333333e-07,
+      "logits/chosen": 0.2437092810869217,
+      "logits/rejected": 0.2768189311027527,
+      "logps/chosen": -342.15460205078125,
+      "logps/rejected": -352.68170166015625,
+      "loss": 0.1087,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.0004921076470054686,
+      "rewards/margins": 0.00030653522117063403,
+      "rewards/rejected": -0.0007986428099684417,
       "step": 20
     },
     {
+      "epoch": 0.06,
+      "learning_rate": 3.1249999999999997e-07,
+      "logits/chosen": 0.2255886346101761,
+      "logits/rejected": 0.22949561476707458,
+      "logps/chosen": -403.088134765625,
+      "logps/rejected": -395.09552001953125,
+      "loss": 0.1112,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.0018422408029437065,
+      "rewards/margins": 0.002462574513629079,
+      "rewards/rejected": -0.004304815083742142,
       "step": 30
     },
     {
+      "epoch": 0.08,
+      "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": 0.2738032341003418,
+      "logits/rejected": 0.32951346039772034,
+      "logps/chosen": -352.05938720703125,
+      "logps/rejected": -338.80743408203125,
+      "loss": 0.1093,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.006794331129640341,
+      "rewards/margins": 0.003717987332493067,
+      "rewards/rejected": -0.010512317530810833,
       "step": 40
     },
     {
+      "epoch": 0.1,
+      "learning_rate": 4.999731868769026e-07,
+      "logits/chosen": 0.22654812037944794,
+      "logits/rejected": 0.31083282828330994,
+      "logps/chosen": -363.4710998535156,
+      "logps/rejected": -358.54168701171875,
+      "loss": 0.1041,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.005752457305788994,
+      "rewards/margins": 0.019924405962228775,
+      "rewards/rejected": -0.02567686140537262,
       "step": 50
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 4.990353313429303e-07,
+      "logits/chosen": 0.3616481125354767,
+      "logits/rejected": 0.386046439409256,
+      "logps/chosen": -336.10211181640625,
+      "logps/rejected": -334.69024658203125,
+      "loss": 0.106,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.01512543298304081,
+      "rewards/margins": 0.033848248422145844,
+      "rewards/rejected": -0.048973675817251205,
       "step": 60
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 4.967625656594781e-07,
+      "logits/chosen": 0.23518328368663788,
+      "logits/rejected": 0.3344312310218811,
+      "logps/chosen": -350.3984680175781,
+      "logps/rejected": -307.37957763671875,
+      "loss": 0.1049,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.003296907991170883,
+      "rewards/margins": 0.052046000957489014,
+      "rewards/rejected": -0.0553429052233696,
       "step": 70
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 4.93167072587771e-07,
+      "logits/chosen": 0.32164302468299866,
+      "logits/rejected": 0.3959673047065735,
+      "logps/chosen": -379.69647216796875,
+      "logps/rejected": -327.6635437011719,
+      "loss": 0.1132,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.004512617830187082,
+      "rewards/margins": 0.07668532431125641,
+      "rewards/rejected": -0.08119793236255646,
       "step": 80
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 4.882681251368548e-07,
+      "logits/chosen": 0.31702089309692383,
+      "logits/rejected": 0.4289167821407318,
+      "logps/chosen": -394.7347717285156,
+      "logps/rejected": -366.826171875,
+      "loss": 0.1025,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.009242130443453789,
+      "rewards/margins": 0.12692956626415253,
+      "rewards/rejected": -0.13617169857025146,
       "step": 90
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 4.820919832540181e-07,
+      "logits/chosen": 0.3820047080516815,
+      "logits/rejected": 0.4675898551940918,
+      "logps/chosen": -372.18115234375,
+      "logps/rejected": -365.79522705078125,
+      "loss": 0.0975,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.08189485222101212,
+      "rewards/margins": 0.11343145370483398,
+      "rewards/rejected": -0.1953262984752655,
       "step": 100
     },
     {
+      "epoch": 0.21,
+      "eval_logits/chosen": 0.4692724049091339,
+      "eval_logits/rejected": 0.533983588218689,
+      "eval_logps/chosen": -365.49639892578125,
+      "eval_logps/rejected": -389.4014587402344,
+      "eval_loss": 0.09751056134700775,
+      "eval_rewards/accuracies": 0.69140625,
+      "eval_rewards/chosen": -0.060451939702034,
+      "eval_rewards/margins": 0.17646832764148712,
+      "eval_rewards/rejected": -0.23692026734352112,
+      "eval_runtime": 76.9794,
+      "eval_samples_per_second": 25.981,
+      "eval_steps_per_second": 0.416,
       "step": 100
     },
     {
+      "epoch": 0.23,
+      "learning_rate": 4.7467175306295647e-07,
+      "logits/chosen": 0.37000179290771484,
+      "logits/rejected": 0.43369150161743164,
+      "logps/chosen": -378.1351318359375,
+      "logps/rejected": -378.1277770996094,
+      "loss": 0.0933,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.14543434977531433,
+      "rewards/margins": 0.1312834918498993,
+      "rewards/rejected": -0.2767178416252136,
       "step": 110
     },
     {
+      "epoch": 0.25,
+      "learning_rate": 4.6604720940421207e-07,
+      "logits/chosen": 0.4519842565059662,
+      "logits/rejected": 0.5497914552688599,
+      "logps/chosen": -408.4247131347656,
+      "logps/rejected": -414.9881286621094,
+      "loss": 0.0929,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.19376961886882782,
+      "rewards/margins": 0.1563883125782013,
+      "rewards/rejected": -0.3501579165458679,
       "step": 120
     },
     {
+      "epoch": 0.27,
+      "learning_rate": 4.5626458262912735e-07,
+      "logits/chosen": 0.5827921628952026,
+      "logits/rejected": 0.6809111833572388,
+      "logps/chosen": -420.0984802246094,
+      "logps/rejected": -399.5935363769531,
+      "loss": 0.0789,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.28970545530319214,
+      "rewards/margins": 0.15940071642398834,
+      "rewards/rejected": -0.4491061270236969,
       "step": 130
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 4.453763107901675e-07,
+      "logits/chosen": 0.6244224309921265,
+      "logits/rejected": 0.746228814125061,
+      "logps/chosen": -396.53076171875,
+      "logps/rejected": -390.9623718261719,
+      "loss": 0.0717,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.3686402440071106,
+      "rewards/margins": 0.18962158262729645,
+      "rewards/rejected": -0.5582617521286011,
       "step": 140
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 4.3344075855595097e-07,
+      "logits/chosen": 0.6669297218322754,
+      "logits/rejected": 0.8208922147750854,
+      "logps/chosen": -387.5301818847656,
+      "logps/rejected": -378.3419189453125,
+      "loss": 0.0647,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.41620713472366333,
+      "rewards/margins": 0.1934729665517807,
+      "rewards/rejected": -0.6096801161766052,
       "step": 150
     },
     {
+      "epoch": 0.33,
+      "learning_rate": 4.2052190435769554e-07,
+      "logits/chosen": 0.6333284974098206,
+      "logits/rejected": 0.7795067429542542,
+      "logps/chosen": -428.93841552734375,
+      "logps/rejected": -450.5494079589844,
+      "loss": 0.0619,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.4103819727897644,
+      "rewards/margins": 0.2781962454319,
+      "rewards/rejected": -0.6885782480239868,
       "step": 160
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 4.0668899744407567e-07,
+      "logits/chosen": 0.6851844787597656,
+      "logits/rejected": 0.8698636889457703,
+      "logps/chosen": -394.453369140625,
+      "logps/rejected": -400.83892822265625,
+      "loss": 0.0613,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.49455365538597107,
+      "rewards/margins": 0.24642686545848846,
+      "rewards/rejected": -0.7409806251525879,
       "step": 170
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 3.920161866827889e-07,
+      "logits/chosen": 0.579459011554718,
+      "logits/rejected": 0.6854727864265442,
+      "logps/chosen": -381.6180419921875,
+      "logps/rejected": -419.34869384765625,
+      "loss": 0.0616,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.476001501083374,
+      "rewards/margins": 0.2683504521846771,
+      "rewards/rejected": -0.7443519830703735,
       "step": 180
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 3.765821230985757e-07,
+      "logits/chosen": 0.5569711923599243,
+      "logits/rejected": 0.6708570718765259,
+      "logps/chosen": -383.0780334472656,
+      "logps/rejected": -407.76837158203125,
+      "loss": 0.0592,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.4089416563510895,
+      "rewards/margins": 0.28474992513656616,
+      "rewards/rejected": -0.693691611289978,
       "step": 190
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 3.604695382782159e-07,
+      "logits/chosen": 0.49640387296676636,
+      "logits/rejected": 0.604566216468811,
+      "logps/chosen": -433.7373046875,
+      "logps/rejected": -452.308837890625,
+      "loss": 0.0589,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.47900503873825073,
+      "rewards/margins": 0.30649885535240173,
+      "rewards/rejected": -0.7855038046836853,
       "step": 200
     },
     {
+      "epoch": 0.42,
+      "eval_logits/chosen": 0.6615116596221924,
+      "eval_logits/rejected": 0.7807996273040771,
+      "eval_logps/chosen": -404.0002136230469,
+      "eval_logps/rejected": -453.07177734375,
+      "eval_loss": 0.05819432809948921,
+      "eval_rewards/accuracies": 0.71484375,
+      "eval_rewards/chosen": -0.4454895853996277,
+      "eval_rewards/margins": 0.42813408374786377,
+      "eval_rewards/rejected": -0.8736236691474915,
+      "eval_runtime": 75.0575,
+      "eval_samples_per_second": 26.646,
+      "eval_steps_per_second": 0.426,
       "step": 200
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 3.4376480090239047e-07,
+      "logits/chosen": 0.5758289098739624,
+      "logits/rejected": 0.6775172352790833,
+      "logps/chosen": -441.56683349609375,
+      "logps/rejected": -425.92437744140625,
+      "loss": 0.0567,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.562717080116272,
+      "rewards/margins": 0.29301005601882935,
+      "rewards/rejected": -0.8557270765304565,
       "step": 210
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 3.265574537815398e-07,
+      "logits/chosen": 0.423481285572052,
+      "logits/rejected": 0.6732310056686401,
+      "logps/chosen": -423.9397888183594,
+      "logps/rejected": -425.78045654296875,
+      "loss": 0.0577,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.43129101395606995,
+      "rewards/margins": 0.49137812852859497,
+      "rewards/rejected": -0.9226692318916321,
       "step": 220
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 3.0893973387735683e-07,
+      "logits/chosen": 0.46089068055152893,
+      "logits/rejected": 0.6886599659919739,
+      "logps/chosen": -458.5089416503906,
+      "logps/rejected": -429.6102600097656,
+      "loss": 0.058,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.49578744173049927,
+      "rewards/margins": 0.4050619602203369,
+      "rewards/rejected": -0.900849461555481,
       "step": 230
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 2.910060778827554e-07,
+      "logits/chosen": 0.581864595413208,
+      "logits/rejected": 0.7646275758743286,
+      "logps/chosen": -428.42803955078125,
+      "logps/rejected": -440.18597412109375,
+      "loss": 0.0611,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.45797547698020935,
+      "rewards/margins": 0.4529312551021576,
+      "rewards/rejected": -0.9109067916870117,
       "step": 240
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 2.7285261601056697e-07,
+      "logits/chosen": 0.5814759135246277,
+      "logits/rejected": 0.7270434498786926,
+      "logps/chosen": -398.45135498046875,
+      "logps/rejected": -447.3760681152344,
+      "loss": 0.0551,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.5682977437973022,
+      "rewards/margins": 0.40714630484580994,
+      "rewards/rejected": -0.9754441380500793,
       "step": 250
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 2.5457665670441937e-07,
+      "logits/chosen": 0.540181040763855,
+      "logits/rejected": 0.705514669418335,
+      "logps/chosen": -430.0947265625,
+      "logps/rejected": -455.96466064453125,
+      "loss": 0.0543,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.5835620164871216,
+      "rewards/margins": 0.3612635135650635,
+      "rewards/rejected": -0.9448255300521851,
       "step": 260
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 2.3627616503391812e-07,
+      "logits/chosen": 0.531669020652771,
+      "logits/rejected": 0.6921663880348206,
+      "logps/chosen": -411.39947509765625,
+      "logps/rejected": -438.072265625,
+      "loss": 0.0529,
       "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.581498384475708,
+      "rewards/margins": 0.41039901971817017,
+      "rewards/rejected": -0.9918974041938782,
       "step": 270
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 2.1804923757009882e-07,
+      "logits/chosen": 0.5589742064476013,
+      "logits/rejected": 0.6747141480445862,
+      "logps/chosen": -441.4170837402344,
+      "logps/rejected": -477.62310791015625,
+      "loss": 0.0506,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.57341468334198,
+      "rewards/margins": 0.4166173040866852,
+      "rewards/rejected": -0.990031898021698,
       "step": 280
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 1.9999357655598891e-07,
+      "logits/chosen": 0.6409920454025269,
+      "logits/rejected": 0.8697878122329712,
+      "logps/chosen": -446.1312561035156,
+      "logps/rejected": -445.7093811035156,
+      "loss": 0.048,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.6841451525688171,
+      "rewards/margins": 0.47665899991989136,
+      "rewards/rejected": -1.1608041524887085,
       "step": 290
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 1.8220596619089573e-07,
+      "logits/chosen": 0.67746901512146,
+      "logits/rejected": 0.8398680686950684,
+      "logps/chosen": -440.12237548828125,
+      "logps/rejected": -460.32086181640625,
+      "loss": 0.0465,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.7187305688858032,
+      "rewards/margins": 0.3237985372543335,
+      "rewards/rejected": -1.0425291061401367,
       "step": 300
     },
     {
+      "epoch": 0.63,
+      "eval_logits/chosen": 0.7931328415870667,
+      "eval_logits/rejected": 0.8960775136947632,
+      "eval_logps/chosen": -419.99542236328125,
+      "eval_logps/rejected": -477.4249267578125,
+      "eval_loss": 0.04939539358019829,
+      "eval_rewards/accuracies": 0.703125,
+      "eval_rewards/chosen": -0.6054419279098511,
+      "eval_rewards/margins": 0.511713445186615,
+      "eval_rewards/rejected": -1.1171554327011108,
+      "eval_runtime": 75.2617,
+      "eval_samples_per_second": 26.574,
+      "eval_steps_per_second": 0.425,
       "step": 300
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 1.647817538357072e-07,
+      "logits/chosen": 0.6320704817771912,
+      "logits/rejected": 0.8103192448616028,
+      "logps/chosen": -424.61865234375,
+      "logps/rejected": -452.2117614746094,
+      "loss": 0.0484,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.608985185623169,
+      "rewards/margins": 0.3958033323287964,
+      "rewards/rejected": -1.0047886371612549,
       "step": 310
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 1.478143389201113e-07,
+      "logits/chosen": 0.7435864806175232,
+      "logits/rejected": 0.9429095983505249,
+      "logps/chosen": -452.36004638671875,
+      "logps/rejected": -481.8624572753906,
+      "loss": 0.0448,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.628174901008606,
+      "rewards/margins": 0.41646808385849,
+      "rewards/rejected": -1.0446430444717407,
       "step": 320
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 1.3139467229135998e-07,
+      "logits/chosen": 0.6155081987380981,
+      "logits/rejected": 0.7582153081893921,
+      "logps/chosen": -426.2732849121094,
+      "logps/rejected": -476.5437927246094,
+      "loss": 0.0473,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.6611535549163818,
+      "rewards/margins": 0.38004034757614136,
+      "rewards/rejected": -1.041193962097168,
       "step": 330
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 1.1561076868822755e-07,
+      "logits/chosen": 0.5263934135437012,
+      "logits/rejected": 0.7371311783790588,
+      "logps/chosen": -459.9794006347656,
+      "logps/rejected": -492.32977294921875,
+      "loss": 0.0484,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.6238055229187012,
+      "rewards/margins": 0.46394386887550354,
+      "rewards/rejected": -1.0877494812011719,
       "step": 340
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 1.0054723495346482e-07,
+      "logits/chosen": 0.6952361464500427,
+      "logits/rejected": 0.7730409502983093,
+      "logps/chosen": -392.53411865234375,
+      "logps/rejected": -445.5184631347656,
+      "loss": 0.0467,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.6540313959121704,
+      "rewards/margins": 0.43615293502807617,
+      "rewards/rejected": -1.0901843309402466,
       "step": 350
     },
+    {
+      "epoch": 0.75,
+      "learning_rate": 8.628481651367875e-08,
+      "logits/chosen": 0.645788311958313,
+      "logits/rejected": 0.8300139307975769,
+      "logps/chosen": -437.50830078125,
+      "logps/rejected": -429.37890625,
+      "loss": 0.0524,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.6759519577026367,
+      "rewards/margins": 0.35926973819732666,
+      "rewards/rejected": -1.0352216958999634,
+      "step": 360
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.289996455765748e-08,
+      "logits/chosen": 0.6347015500068665,
+      "logits/rejected": 0.8841344714164734,
+      "logps/chosen": -434.65313720703125,
+      "logps/rejected": -425.39825439453125,
+      "loss": 0.0428,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.5998077988624573,
+      "rewards/margins": 0.45034995675086975,
+      "rewards/rejected": -1.0501576662063599,
+      "step": 370
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 6.046442623320145e-08,
+      "logits/chosen": 0.653687596321106,
+      "logits/rejected": 0.7189717292785645,
+      "logps/chosen": -426.47674560546875,
+      "logps/rejected": -455.5611267089844,
+      "loss": 0.0501,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.6170892119407654,
+      "rewards/margins": 0.3933621644973755,
+      "rewards/rejected": -1.010451316833496,
+      "step": 380
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 4.904486005914027e-08,
+      "logits/chosen": 0.5192676186561584,
+      "logits/rejected": 0.7548397183418274,
+      "logps/chosen": -476.45904541015625,
+      "logps/rejected": -474.6182556152344,
+      "loss": 0.0451,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.718641459941864,
+      "rewards/margins": 0.44875186681747437,
+      "rewards/rejected": -1.167393445968628,
+      "step": 390
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 3.8702478614051345e-08,
+      "logits/chosen": 0.6225503087043762,
+      "logits/rejected": 0.731469988822937,
+      "logps/chosen": -407.16912841796875,
+      "logps/rejected": -418.2110290527344,
+      "loss": 0.0419,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.6035235524177551,
+      "rewards/margins": 0.3522457182407379,
+      "rewards/rejected": -0.9557692408561707,
+      "step": 400
+    },
+    {
+      "epoch": 0.84,
+      "eval_logits/chosen": 0.7144887447357178,
+      "eval_logits/rejected": 0.832917332649231,
+      "eval_logps/chosen": -416.8811950683594,
+      "eval_logps/rejected": -477.0538330078125,
+      "eval_loss": 0.049533091485500336,
+      "eval_rewards/accuracies": 0.734375,
+      "eval_rewards/chosen": -0.5742998123168945,
+      "eval_rewards/margins": 0.5391446352005005,
+      "eval_rewards/rejected": -1.1134445667266846,
+      "eval_runtime": 76.9908,
+      "eval_samples_per_second": 25.977,
+      "eval_steps_per_second": 0.416,
+      "step": 400
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 2.9492720416985e-08,
+      "logits/chosen": 0.5682260990142822,
+      "logits/rejected": 0.7126413583755493,
+      "logps/chosen": -419.2569885253906,
+      "logps/rejected": -410.59014892578125,
+      "loss": 0.0473,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.652999222278595,
+      "rewards/margins": 0.26512840390205383,
+      "rewards/rejected": -0.9181275367736816,
+      "step": 410
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 2.1464952759020856e-08,
+      "logits/chosen": 0.6080732345581055,
+      "logits/rejected": 0.7386394739151001,
+      "logps/chosen": -452.77789306640625,
+      "logps/rejected": -437.8445739746094,
+      "loss": 0.0469,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.7366248369216919,
+      "rewards/margins": 0.2541760802268982,
+      "rewards/rejected": -0.9908009767532349,
+      "step": 420
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.4662207078575684e-08,
+      "logits/chosen": 0.6554642915725708,
+      "logits/rejected": 0.7158025503158569,
+      "logps/chosen": -407.20953369140625,
+      "logps/rejected": -471.7041015625,
+      "loss": 0.0453,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.6344213485717773,
+      "rewards/margins": 0.481538861989975,
+      "rewards/rejected": -1.1159603595733643,
+      "step": 430
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 9.12094829893642e-09,
+      "logits/chosen": 0.7153126001358032,
+      "logits/rejected": 0.7965753078460693,
+      "logps/chosen": -441.6089782714844,
+      "logps/rejected": -466.2574768066406,
+      "loss": 0.0487,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.6991580724716187,
+      "rewards/margins": 0.4110774099826813,
+      "rewards/rejected": -1.1102354526519775,
+      "step": 440
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 4.8708793644441086e-09,
+      "logits/chosen": 0.6587673425674438,
+      "logits/rejected": 0.830274760723114,
+      "logps/chosen": -465.8287658691406,
+      "logps/rejected": -467.7762145996094,
+      "loss": 0.0461,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.6734641194343567,
+      "rewards/margins": 0.3525208532810211,
+      "rewards/rejected": -1.0259850025177002,
+      "step": 450
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.9347820230782295e-09,
+      "logits/chosen": 0.7173280715942383,
+      "logits/rejected": 0.8633974194526672,
+      "logps/chosen": -380.0779724121094,
+      "logps/rejected": -403.060302734375,
+      "loss": 0.0456,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.5644342303276062,
+      "rewards/margins": 0.3927594721317291,
+      "rewards/rejected": -0.9571938514709473,
+      "step": 460
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 3.2839470889836627e-10,
+      "logits/chosen": 0.6316866278648376,
+      "logits/rejected": 0.7777234315872192,
+      "logps/chosen": -403.5115661621094,
+      "logps/rejected": -452.41864013671875,
+      "loss": 0.0474,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.6106697916984558,
+      "rewards/margins": 0.4684695303440094,
+      "rewards/rejected": -1.0791394710540771,
+      "step": 470
+    },
     {
       "epoch": 1.0,
+      "step": 477,
       "total_flos": 0.0,
+      "train_loss": 0.06584663976538356,
+      "train_runtime": 4434.0315,
+      "train_samples_per_second": 13.787,
+      "train_steps_per_second": 0.108
     }
   ],
   "logging_steps": 10,
+  "max_steps": 477,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "total_flos": 0.0,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:051c9e8ac9d43571a852867a53d4bf06c0d5fdcb8099e85e6dc4457824c35c1f
 size 5944

 version https://git-lfs.github.com/spec/v1
+oid sha256:244710b622fa4597e251d9d5432f6e641819c004ec5cdd6bd2c0a68718e30f4c
 size 5944