Model save

Browse files

Files changed (9) hide show

README.md +1 -1
all_results.json +5 -5
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +1035 -1063
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -35,7 +35,7 @@ The following hyperparameters were used during training:
 - learning_rate: 1e-06
 - train_batch_size: 2
 - eval_batch_size: 8
-- seed: 5
 - distributed_type: multi-GPU
 - num_devices: 8
 - gradient_accumulation_steps: 8

 - learning_rate: 1e-06
 - train_batch_size: 2
 - eval_batch_size: 8
+- seed: 1
 - distributed_type: multi-GPU
 - num_devices: 8
 - gradient_accumulation_steps: 8

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.0,
-    "train_loss": 0.18376689068362362,
-    "train_runtime": 14184.393,
-    "train_samples": 62479,
-    "train_samples_per_second": 8.81,
-    "train_steps_per_second": 0.069
 }

 {
     "epoch": 2.0,
+    "train_loss": 0.39703809490243847,
+    "train_runtime": 12665.7954,
+    "train_samples": 61134,
+    "train_samples_per_second": 9.653,
+    "train_steps_per_second": 0.075
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:556bc3ac94af42652ee93cbdb52da221bb36e9ff2c05b8205b5ce202e28c7a90
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:1aae0d51dec8f1db0c4185db4064e9e7cfa0f57226a7bdd1336e77d73fe07784
 size 4976698672

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b6305f04cb9ea11038dfb295a72f85ba3704689365f27e1d9f0df70e14593c9
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:c74342a40e020ecc68e1877af3bfbc8f6458eacd08a2befc496f6b74d4cc12e8
 size 4999802720

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a58dfc2efab9ea145c90c18bd178870035a4e9547fdeb65fbae277676849808f
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfcd78d697ab08df9806100c6023e029071e435e0071465482e099bcb80a107e
 size 4915916176

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35f2060af6bd81823593b6eba1e061e3f8acfb518b20cb49a1b2a1c447cb31b6
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:152de9df35d2cf2f89f72f30f0fcc0c733b787726e60d1a6e2659edcad51784a
 size 1168138808

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.0,
-    "train_loss": 0.18376689068362362,
-    "train_runtime": 14184.393,
-    "train_samples": 62479,
-    "train_samples_per_second": 8.81,
-    "train_steps_per_second": 0.069
 }

 {
     "epoch": 2.0,
+    "train_loss": 0.39703809490243847,
+    "train_runtime": 12665.7954,
+    "train_samples": 61134,
+    "train_samples_per_second": 9.653,
+    "train_steps_per_second": 0.075
 }

trainer_state.json CHANGED Viewed

@@ -1,1383 +1,1355 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9994878361075545,
   "eval_steps": 10000,
-  "global_step": 976,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.02,
-      "learning_rate": 1.0204081632653061e-07,
-      "logits/chosen": 0.042739879339933395,
-      "logits/rejected": 0.12301032245159149,
-      "logps/chosen": -319.2601623535156,
-      "logps/rejected": -236.07504272460938,
-      "loss": 0.4266,
-      "rewards/accuracies": 0.48750001192092896,
-      "rewards/chosen": 0.0013425254728645086,
-      "rewards/margins": 0.0014396004844456911,
-      "rewards/rejected": -9.707514982437715e-05,
       "step": 10
     },
     {
       "epoch": 0.04,
-      "learning_rate": 2.0408163265306121e-07,
-      "logits/chosen": 0.022067690268158913,
-      "logits/rejected": 0.13554301857948303,
-      "logps/chosen": -308.0990295410156,
-      "logps/rejected": -199.53515625,
-      "loss": 0.4239,
-      "rewards/accuracies": 0.5,
-      "rewards/chosen": -0.00030937520205043256,
-      "rewards/margins": 0.00024947416386567056,
-      "rewards/rejected": -0.000558849424123764,
       "step": 20
     },
     {
       "epoch": 0.06,
-      "learning_rate": 3.0612244897959183e-07,
-      "logits/chosen": -0.01963012106716633,
-      "logits/rejected": 0.08336172997951508,
-      "logps/chosen": -341.10833740234375,
-      "logps/rejected": -214.412353515625,
-      "loss": 0.4128,
-      "rewards/accuracies": 0.5874999761581421,
-      "rewards/chosen": 0.0027676259633153677,
-      "rewards/margins": 0.0053460500203073025,
-      "rewards/rejected": -0.0025784247554838657,
       "step": 30
     },
     {
       "epoch": 0.08,
-      "learning_rate": 4.0816326530612243e-07,
-      "logits/chosen": 0.05237439274787903,
-      "logits/rejected": 0.11109952628612518,
-      "logps/chosen": -338.07293701171875,
-      "logps/rejected": -273.3377990722656,
-      "loss": 0.4254,
-      "rewards/accuracies": 0.550000011920929,
-      "rewards/chosen": 0.0017787739634513855,
-      "rewards/margins": 0.006533265113830566,
-      "rewards/rejected": -0.004754491616040468,
       "step": 40
     },
     {
       "epoch": 0.1,
-      "learning_rate": 5.10204081632653e-07,
-      "logits/chosen": 0.0345633402466774,
-      "logits/rejected": 0.10821535438299179,
-      "logps/chosen": -344.10369873046875,
-      "logps/rejected": -230.9674530029297,
-      "loss": 0.4343,
-      "rewards/accuracies": 0.5375000238418579,
-      "rewards/chosen": 0.0031904876232147217,
-      "rewards/margins": 0.043094128370285034,
-      "rewards/rejected": -0.039903637021780014,
       "step": 50
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 6.122448979591837e-07,
-      "logits/chosen": 0.07501409947872162,
-      "logits/rejected": 0.13366985321044922,
-      "logps/chosen": -318.9683837890625,
-      "logps/rejected": -229.18203735351562,
-      "loss": 0.4447,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": -0.0012126276269555092,
-      "rewards/margins": 0.07185648381710052,
-      "rewards/rejected": -0.07306911051273346,
       "step": 60
     },
     {
-      "epoch": 0.14,
-      "learning_rate": 7.142857142857143e-07,
-      "logits/chosen": 0.021035227924585342,
-      "logits/rejected": 0.09495668858289719,
-      "logps/chosen": -314.5700378417969,
-      "logps/rejected": -253.2916259765625,
-      "loss": 0.4576,
-      "rewards/accuracies": 0.53125,
-      "rewards/chosen": -0.042389269918203354,
-      "rewards/margins": 0.06374682486057281,
-      "rewards/rejected": -0.10613608360290527,
       "step": 70
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 8.163265306122449e-07,
-      "logits/chosen": 0.030707141384482384,
-      "logits/rejected": 0.11692730337381363,
-      "logps/chosen": -274.8445129394531,
-      "logps/rejected": -206.48583984375,
-      "loss": 0.4562,
-      "rewards/accuracies": 0.5562499761581421,
-      "rewards/chosen": -0.0059325797483325005,
-      "rewards/margins": 0.09064096957445145,
-      "rewards/rejected": -0.09657355397939682,
       "step": 80
     },
     {
-      "epoch": 0.18,
-      "learning_rate": 9.183673469387755e-07,
-      "logits/chosen": 0.09560343623161316,
-      "logits/rejected": 0.19490866363048553,
-      "logps/chosen": -324.2842712402344,
-      "logps/rejected": -250.9847412109375,
-      "loss": 0.4561,
-      "rewards/accuracies": 0.550000011920929,
-      "rewards/chosen": -0.012979650869965553,
-      "rewards/margins": 0.055127233266830444,
-      "rewards/rejected": -0.06810688972473145,
       "step": 90
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 9.999871970850593e-07,
-      "logits/chosen": -0.030500883236527443,
-      "logits/rejected": 0.05846525356173515,
-      "logps/chosen": -325.1695251464844,
-      "logps/rejected": -203.91525268554688,
-      "loss": 0.4326,
       "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": 0.05515174940228462,
-      "rewards/margins": 0.17507116496562958,
-      "rewards/rejected": -0.11991941928863525,
       "step": 100
     },
     {
       "epoch": 0.23,
-      "learning_rate": 9.995391639025223e-07,
-      "logits/chosen": -0.016545545309782028,
-      "logits/rejected": 0.09239337593317032,
-      "logps/chosen": -390.1547546386719,
-      "logps/rejected": -282.8218078613281,
-      "loss": 0.431,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": 0.06177205964922905,
-      "rewards/margins": 0.18079259991645813,
-      "rewards/rejected": -0.11902053654193878,
       "step": 110
     },
     {
       "epoch": 0.25,
-      "learning_rate": 9.984516404805643e-07,
-      "logits/chosen": -0.014985096640884876,
-      "logits/rejected": 0.06358243525028229,
-      "logps/chosen": -306.3666076660156,
-      "logps/rejected": -214.81204223632812,
-      "loss": 0.4418,
-      "rewards/accuracies": 0.5874999761581421,
-      "rewards/chosen": -0.015409037470817566,
-      "rewards/margins": 0.1483658403158188,
-      "rewards/rejected": -0.16377487778663635,
       "step": 120
     },
     {
       "epoch": 0.27,
-      "learning_rate": 9.967260190235684e-07,
-      "logits/chosen": 0.038866154849529266,
-      "logits/rejected": 0.13459371030330658,
-      "logps/chosen": -325.4383544921875,
-      "logps/rejected": -224.15823364257812,
-      "loss": 0.4238,
-      "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": 0.04134940356016159,
-      "rewards/margins": 0.20171746611595154,
-      "rewards/rejected": -0.16036805510520935,
       "step": 130
     },
     {
       "epoch": 0.29,
-      "learning_rate": 9.943645086037324e-07,
-      "logits/chosen": 0.06345884501934052,
-      "logits/rejected": 0.13952302932739258,
-      "logps/chosen": -277.39532470703125,
-      "logps/rejected": -232.65121459960938,
-      "loss": 0.4172,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": -0.020446954295039177,
-      "rewards/margins": 0.11555153131484985,
-      "rewards/rejected": -0.13599848747253418,
       "step": 140
     },
     {
       "epoch": 0.31,
-      "learning_rate": 9.913701323331023e-07,
-      "logits/chosen": 0.003445350332185626,
-      "logits/rejected": 0.08681725710630417,
-      "logps/chosen": -317.0658264160156,
-      "logps/rejected": -231.794921875,
-      "loss": 0.4114,
-      "rewards/accuracies": 0.6187499761581421,
-      "rewards/chosen": -0.03761180490255356,
-      "rewards/margins": 0.14787191152572632,
-      "rewards/rejected": -0.18548373878002167,
       "step": 150
     },
     {
       "epoch": 0.33,
-      "learning_rate": 9.877467234935035e-07,
-      "logits/chosen": 0.0008376747136935592,
-      "logits/rejected": 0.09333285689353943,
-      "logps/chosen": -335.82763671875,
-      "logps/rejected": -246.57424926757812,
-      "loss": 0.3868,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -0.029308026656508446,
-      "rewards/margins": 0.19365237653255463,
-      "rewards/rejected": -0.22296042740345,
       "step": 160
     },
     {
-      "epoch": 0.35,
-      "learning_rate": 9.834989206293263e-07,
-      "logits/chosen": -0.06711210310459137,
-      "logits/rejected": -0.0017955079674720764,
-      "logps/chosen": -349.3035583496094,
-      "logps/rejected": -244.96127319335938,
-      "loss": 0.3681,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -0.028221551328897476,
-      "rewards/margins": 0.18148021399974823,
-      "rewards/rejected": -0.2097017467021942,
       "step": 170
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 9.786321616094444e-07,
-      "logits/chosen": -0.07065094262361526,
-      "logits/rejected": 0.026075905188918114,
-      "logps/chosen": -363.73248291015625,
-      "logps/rejected": -258.8304748535156,
-      "loss": 0.3586,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.06635953485965729,
-      "rewards/margins": 0.23400752246379852,
-      "rewards/rejected": -0.3003670573234558,
       "step": 180
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 9.731526766658712e-07,
-      "logits/chosen": -0.04519695043563843,
-      "logits/rejected": 0.038596220314502716,
-      "logps/chosen": -337.63934326171875,
-      "logps/rejected": -238.10513305664062,
-      "loss": 0.357,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": -0.11399877071380615,
-      "rewards/margins": 0.17908646166324615,
-      "rewards/rejected": -0.2930852472782135,
       "step": 190
     },
     {
-      "epoch": 0.41,
-      "learning_rate": 9.670674804180633e-07,
-      "logits/chosen": -0.012042679823935032,
-      "logits/rejected": 0.05385655164718628,
-      "logps/chosen": -322.5794677734375,
-      "logps/rejected": -235.0473175048828,
-      "loss": 0.3455,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -0.078927181661129,
-      "rewards/margins": 0.27467840909957886,
-      "rewards/rejected": -0.35360556840896606,
       "step": 200
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 9.603843628930827e-07,
-      "logits/chosen": -0.07379743456840515,
-      "logits/rejected": 0.06694406270980835,
-      "logps/chosen": -364.69140625,
-      "logps/rejected": -298.93377685546875,
-      "loss": 0.3541,
-      "rewards/accuracies": 0.59375,
-      "rewards/chosen": -0.19018980860710144,
-      "rewards/margins": 0.26650452613830566,
-      "rewards/rejected": -0.4566943645477295,
       "step": 210
     },
     {
-      "epoch": 0.45,
-      "learning_rate": 9.531118795531135e-07,
-      "logits/chosen": -0.10667786747217178,
-      "logits/rejected": -0.021370600908994675,
-      "logps/chosen": -357.7416076660156,
-      "logps/rejected": -271.3829650878906,
-      "loss": 0.36,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.16868090629577637,
-      "rewards/margins": 0.34508660435676575,
-      "rewards/rejected": -0.5137674808502197,
       "step": 220
     },
     {
-      "epoch": 0.47,
-      "learning_rate": 9.452593403430978e-07,
-      "logits/chosen": -0.0755738765001297,
-      "logits/rejected": 0.022949038073420525,
-      "logps/chosen": -342.61431884765625,
-      "logps/rejected": -272.8531188964844,
-      "loss": 0.3224,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.2765820324420929,
-      "rewards/margins": 0.2683432996273041,
-      "rewards/rejected": -0.544925332069397,
       "step": 230
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 9.368367977725124e-07,
-      "logits/chosen": -0.017795735970139503,
-      "logits/rejected": 0.05103006213903427,
-      "logps/chosen": -312.7308349609375,
-      "logps/rejected": -252.4365692138672,
-      "loss": 0.298,
       "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.3175797462463379,
-      "rewards/margins": 0.25021839141845703,
-      "rewards/rejected": -0.5677981376647949,
       "step": 240
     },
     {
-      "epoch": 0.51,
-      "learning_rate": 9.278550340465468e-07,
-      "logits/chosen": -0.03922083601355553,
-      "logits/rejected": 0.019568433985114098,
-      "logps/chosen": -403.1310729980469,
-      "logps/rejected": -325.88922119140625,
-      "loss": 0.298,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": -0.43214789032936096,
-      "rewards/margins": 0.2559090554714203,
-      "rewards/rejected": -0.6880569458007812,
       "step": 250
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 9.183255472631486e-07,
-      "logits/chosen": 0.014770155772566795,
-      "logits/rejected": 0.116851806640625,
-      "logps/chosen": -369.81854248046875,
-      "logps/rejected": -313.6183166503906,
-      "loss": 0.2743,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.5007920265197754,
-      "rewards/margins": 0.26597368717193604,
-      "rewards/rejected": -0.7667657136917114,
       "step": 260
     },
     {
-      "epoch": 0.55,
-      "learning_rate": 9.082605366936167e-07,
-      "logits/chosen": -0.05128796771168709,
-      "logits/rejected": 0.07006199657917023,
-      "logps/chosen": -372.8706970214844,
-      "logps/rejected": -289.9878234863281,
-      "loss": 0.2897,
       "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.5824490785598755,
-      "rewards/margins": 0.2600293755531311,
-      "rewards/rejected": -0.8424784541130066,
       "step": 270
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 8.976728871655761e-07,
-      "logits/chosen": -0.08541660755872726,
-      "logits/rejected": -0.03784799575805664,
-      "logps/chosen": -334.4608154296875,
-      "logps/rejected": -338.2781677246094,
-      "loss": 0.2881,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.5974677801132202,
-      "rewards/margins": 0.2813887596130371,
-      "rewards/rejected": -0.8788564801216125,
       "step": 280
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 8.865761525683329e-07,
-      "logits/chosen": 0.026905322447419167,
-      "logits/rejected": 0.09259426593780518,
-      "logps/chosen": -409.39971923828125,
-      "logps/rejected": -328.29595947265625,
-      "loss": 0.2746,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.6293879747390747,
-      "rewards/margins": 0.4001205563545227,
-      "rewards/rejected": -1.029508352279663,
       "step": 290
     },
     {
-      "epoch": 0.61,
-      "learning_rate": 8.749845385017221e-07,
-      "logits/chosen": -0.014166781678795815,
-      "logits/rejected": 0.07386626303195953,
-      "logps/chosen": -396.84552001953125,
-      "logps/rejected": -301.03887939453125,
-      "loss": 0.2593,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -0.6409090757369995,
-      "rewards/margins": 0.3970302641391754,
-      "rewards/rejected": -1.0379393100738525,
       "step": 300
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 8.629128840906621e-07,
-      "logits/chosen": 0.030825147405266762,
-      "logits/rejected": 0.09442819654941559,
-      "logps/chosen": -342.51470947265625,
-      "logps/rejected": -295.8294677734375,
-      "loss": 0.2628,
-      "rewards/accuracies": 0.5625,
-      "rewards/chosen": -0.7313823103904724,
-      "rewards/margins": 0.28571024537086487,
-      "rewards/rejected": -1.0170925855636597,
       "step": 310
     },
     {
-      "epoch": 0.66,
-      "learning_rate": 8.50376642988695e-07,
-      "logits/chosen": -0.07539083808660507,
-      "logits/rejected": 0.007513365242630243,
-      "logps/chosen": -441.4029235839844,
-      "logps/rejected": -334.5185241699219,
-      "loss": 0.2442,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.6911054849624634,
-      "rewards/margins": 0.3970246911048889,
-      "rewards/rejected": -1.088129997253418,
       "step": 320
     },
     {
-      "epoch": 0.68,
-      "learning_rate": 8.373918635948309e-07,
-      "logits/chosen": 0.006354253739118576,
-      "logits/rejected": 0.08419916778802872,
-      "logps/chosen": -403.6936950683594,
-      "logps/rejected": -321.6915588378906,
-      "loss": 0.2302,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.8267976641654968,
-      "rewards/margins": 0.3896764814853668,
-      "rewards/rejected": -1.216473937034607,
       "step": 330
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 8.239751685090253e-07,
-      "logits/chosen": -0.025699462741613388,
-      "logits/rejected": 0.01821485161781311,
-      "logps/chosen": -375.48321533203125,
-      "logps/rejected": -353.6884460449219,
-      "loss": 0.2414,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": -0.8354716300964355,
-      "rewards/margins": 0.3944741189479828,
-      "rewards/rejected": -1.2299458980560303,
       "step": 340
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 8.101437332525837e-07,
-      "logits/chosen": -0.0900038480758667,
-      "logits/rejected": -0.017262550070881844,
-      "logps/chosen": -378.4132080078125,
-      "logps/rejected": -320.1848449707031,
-      "loss": 0.2473,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": -0.5553010702133179,
-      "rewards/margins": 0.3320138454437256,
-      "rewards/rejected": -0.8873149752616882,
       "step": 350
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 7.95915264280741e-07,
-      "logits/chosen": -0.01971466653048992,
-      "logits/rejected": 0.013573974370956421,
-      "logps/chosen": -364.09027099609375,
-      "logps/rejected": -350.51678466796875,
-      "loss": 0.2514,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": -0.6879822611808777,
-      "rewards/margins": 0.3725909888744354,
-      "rewards/rejected": -1.0605733394622803,
       "step": 360
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 7.813079763155586e-07,
-      "logits/chosen": -0.12065862119197845,
-      "logits/rejected": -0.06556924432516098,
-      "logps/chosen": -399.515625,
-      "logps/rejected": -334.27947998046875,
-      "loss": 0.2314,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": -0.8629879951477051,
-      "rewards/margins": 0.33520084619522095,
-      "rewards/rejected": -1.1981887817382812,
       "step": 370
     },
     {
-      "epoch": 0.78,
-      "learning_rate": 7.663405690281601e-07,
-      "logits/chosen": -0.12202272564172745,
-      "logits/rejected": -0.06837549060583115,
-      "logps/chosen": -442.2171936035156,
-      "logps/rejected": -403.5753173828125,
-      "loss": 0.2184,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -1.0298798084259033,
-      "rewards/margins": 0.3311373293399811,
-      "rewards/rejected": -1.361017107963562,
       "step": 380
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 7.510322031001522e-07,
-      "logits/chosen": -0.11861888319253922,
-      "logits/rejected": -0.08702222257852554,
-      "logps/chosen": -420.78131103515625,
-      "logps/rejected": -360.6201477050781,
-      "loss": 0.2244,
-      "rewards/accuracies": 0.6187499761581421,
-      "rewards/chosen": -1.0124976634979248,
-      "rewards/margins": 0.31882134079933167,
-      "rewards/rejected": -1.331318974494934,
       "step": 390
     },
     {
-      "epoch": 0.82,
-      "learning_rate": 7.354024756948805e-07,
-      "logits/chosen": -0.07149451971054077,
-      "logits/rejected": -0.06954298913478851,
-      "logps/chosen": -411.802001953125,
-      "logps/rejected": -384.7701721191406,
-      "loss": 0.2089,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -1.1301209926605225,
-      "rewards/margins": 0.42858514189720154,
-      "rewards/rejected": -1.5587060451507568,
       "step": 400
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 7.194713953699171e-07,
-      "logits/chosen": -0.1280289590358734,
-      "logits/rejected": -0.09473087638616562,
-      "logps/chosen": -435.06121826171875,
-      "logps/rejected": -366.338134765625,
-      "loss": 0.1954,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -0.7566291093826294,
-      "rewards/margins": 0.5598937273025513,
-      "rewards/rejected": -1.3165228366851807,
       "step": 410
     },
     {
-      "epoch": 0.86,
-      "learning_rate": 7.032593564628982e-07,
-      "logits/chosen": -0.10041435062885284,
-      "logits/rejected": -0.07590119540691376,
-      "logps/chosen": -401.24176025390625,
-      "logps/rejected": -337.0291442871094,
-      "loss": 0.2226,
-      "rewards/accuracies": 0.59375,
-      "rewards/chosen": -1.0773589611053467,
-      "rewards/margins": 0.3265494704246521,
-      "rewards/rejected": -1.403908371925354,
       "step": 420
     },
     {
-      "epoch": 0.88,
-      "learning_rate": 6.867871129835019e-07,
-      "logits/chosen": -0.11637461185455322,
-      "logits/rejected": -0.03979887440800667,
-      "logps/chosen": -412.41485595703125,
-      "logps/rejected": -385.03607177734375,
-      "loss": 0.2177,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -1.0018829107284546,
-      "rewards/margins": 0.38611629605293274,
-      "rewards/rejected": -1.3879992961883545,
       "step": 430
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 6.700757520449873e-07,
-      "logits/chosen": -0.1311188042163849,
-      "logits/rejected": -0.1057361364364624,
-      "logps/chosen": -369.38665771484375,
-      "logps/rejected": -357.85626220703125,
-      "loss": 0.2488,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -0.7600846886634827,
-      "rewards/margins": 0.39686957001686096,
-      "rewards/rejected": -1.156954288482666,
       "step": 440
     },
     {
-      "epoch": 0.92,
-      "learning_rate": 6.531466668693071e-07,
-      "logits/chosen": -0.15897420048713684,
-      "logits/rejected": -0.05242576450109482,
-      "logps/chosen": -380.21759033203125,
-      "logps/rejected": -322.91632080078125,
-      "loss": 0.245,
-      "rewards/accuracies": 0.581250011920929,
-      "rewards/chosen": -0.7816046476364136,
-      "rewards/margins": 0.2559036612510681,
-      "rewards/rejected": -1.0375083684921265,
       "step": 450
     },
     {
-      "epoch": 0.94,
-      "learning_rate": 6.360215294003538e-07,
-      "logits/chosen": -0.1271231323480606,
-      "logits/rejected": -0.0517185814678669,
-      "logps/chosen": -425.27294921875,
-      "logps/rejected": -356.8155822753906,
-      "loss": 0.2339,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -0.7662349939346313,
-      "rewards/margins": 0.45115765929222107,
-      "rewards/rejected": -1.2173926830291748,
       "step": 460
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 6.187222625603957e-07,
-      "logits/chosen": -0.0355108268558979,
-      "logits/rejected": 0.04621673375368118,
-      "logps/chosen": -381.2696533203125,
-      "logps/rejected": -301.10491943359375,
-      "loss": 0.2399,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.8189173936843872,
-      "rewards/margins": 0.4319301247596741,
-      "rewards/rejected": -1.2508474588394165,
       "step": 470
     },
     {
-      "epoch": 0.98,
-      "learning_rate": 6.012710121852204e-07,
-      "logits/chosen": -0.17021189630031586,
-      "logits/rejected": -0.05065950006246567,
-      "logps/chosen": -412.6038513183594,
-      "logps/rejected": -330.48748779296875,
-      "loss": 0.2516,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": -0.9672134518623352,
-      "rewards/margins": 0.29545700550079346,
-      "rewards/rejected": -1.2626702785491943,
       "step": 480
     },
     {
-      "epoch": 1.0,
-      "learning_rate": 5.83690118673914e-07,
-      "logits/chosen": -0.09540718048810959,
-      "logits/rejected": -0.017056141048669815,
-      "logps/chosen": -419.115234375,
-      "logps/rejected": -312.2616882324219,
-      "loss": 0.2245,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": -0.8349027633666992,
-      "rewards/margins": 0.36838024854660034,
-      "rewards/rejected": -1.2032830715179443,
       "step": 490
     },
     {
-      "epoch": 1.02,
-      "learning_rate": 5.660020883895668e-07,
-      "logits/chosen": -0.016647344455122948,
-      "logits/rejected": 0.017840882763266563,
-      "logps/chosen": -399.71563720703125,
-      "logps/rejected": -388.9092712402344,
-      "loss": 0.1404,
       "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -0.9009947776794434,
-      "rewards/margins": 0.7734060287475586,
-      "rewards/rejected": -1.6744006872177124,
       "step": 500
     },
     {
-      "epoch": 1.04,
-      "learning_rate": 5.482295648475203e-07,
-      "logits/chosen": -0.16914696991443634,
-      "logits/rejected": -0.11097099632024765,
-      "logps/chosen": -493.1507873535156,
-      "logps/rejected": -437.85467529296875,
-      "loss": 0.0864,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -1.517225742340088,
-      "rewards/margins": 0.6982406377792358,
-      "rewards/rejected": -2.215466260910034,
       "step": 510
     },
     {
-      "epoch": 1.07,
-      "learning_rate": 5.303952997280354e-07,
-      "logits/chosen": -0.21788661181926727,
-      "logits/rejected": -0.11950629949569702,
-      "logps/chosen": -522.3275146484375,
-      "logps/rejected": -467.064453125,
-      "loss": 0.0653,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -2.158579111099243,
-      "rewards/margins": 0.6498184204101562,
-      "rewards/rejected": -2.8083975315093994,
       "step": 520
     },
     {
-      "epoch": 1.09,
-      "learning_rate": 5.12522123750494e-07,
-      "logits/chosen": -0.019628793001174927,
-      "logits/rejected": 0.05569322034716606,
-      "logps/chosen": -419.7838439941406,
-      "logps/rejected": -402.3912353515625,
-      "loss": 0.0756,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -1.4739632606506348,
-      "rewards/margins": 0.6645950078964233,
-      "rewards/rejected": -2.1385583877563477,
       "step": 530
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 4.946329174464158e-07,
-      "logits/chosen": -0.04415629059076309,
-      "logits/rejected": -0.04439578205347061,
-      "logps/chosen": -526.9125366210938,
-      "logps/rejected": -545.0748901367188,
-      "loss": 0.0642,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -2.040071487426758,
-      "rewards/margins": 0.9352254867553711,
-      "rewards/rejected": -2.975297212600708,
       "step": 540
     },
     {
-      "epoch": 1.13,
-      "learning_rate": 4.767505818687094e-07,
-      "logits/chosen": -0.11534661054611206,
-      "logits/rejected": -0.023562278598546982,
-      "logps/chosen": -563.6917114257812,
-      "logps/rejected": -548.306640625,
-      "loss": 0.055,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -2.295139789581299,
-      "rewards/margins": 0.6967246532440186,
-      "rewards/rejected": -2.9918646812438965,
       "step": 550
     },
     {
-      "epoch": 1.15,
-      "learning_rate": 4.588980092746518e-07,
-      "logits/chosen": -0.12250219285488129,
-      "logits/rejected": -0.08656288683414459,
-      "logps/chosen": -559.2648315429688,
-      "logps/rejected": -574.6068725585938,
-      "loss": 0.0542,
       "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -2.3971827030181885,
-      "rewards/margins": 1.0699354410171509,
-      "rewards/rejected": -3.46711802482605,
       "step": 560
     },
     {
-      "epoch": 1.17,
-      "learning_rate": 4.410980538201281e-07,
-      "logits/chosen": -0.12177082151174545,
-      "logits/rejected": -0.011621433310210705,
-      "logps/chosen": -588.0823974609375,
-      "logps/rejected": -604.1260986328125,
-      "loss": 0.0462,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -2.376652479171753,
-      "rewards/margins": 1.0704455375671387,
-      "rewards/rejected": -3.4470982551574707,
       "step": 570
     },
     {
-      "epoch": 1.19,
-      "learning_rate": 4.233735023026463e-07,
-      "logits/chosen": -0.04475090652704239,
-      "logits/rejected": 0.028914233669638634,
-      "logps/chosen": -530.6985473632812,
-      "logps/rejected": -551.475830078125,
-      "loss": 0.0484,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -2.4700865745544434,
-      "rewards/margins": 0.8258007168769836,
-      "rewards/rejected": -3.295886993408203,
       "step": 580
     },
     {
-      "epoch": 1.21,
-      "learning_rate": 4.05747044990583e-07,
-      "logits/chosen": 0.040291767567396164,
-      "logits/rejected": 0.12547969818115234,
-      "logps/chosen": -570.7107543945312,
-      "logps/rejected": -546.1327514648438,
-      "loss": 0.0512,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -2.200223207473755,
-      "rewards/margins": 1.1106585264205933,
-      "rewards/rejected": -3.3108818531036377,
       "step": 590
     },
     {
-      "epoch": 1.23,
-      "learning_rate": 3.882412465760009e-07,
-      "logits/chosen": -0.07208960503339767,
-      "logits/rejected": 0.08110973984003067,
-      "logps/chosen": -629.0553588867188,
-      "logps/rejected": -583.1513671875,
-      "loss": 0.0521,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -2.517319440841675,
-      "rewards/margins": 0.9306985139846802,
-      "rewards/rejected": -3.4480183124542236,
       "step": 600
     },
     {
-      "epoch": 1.25,
-      "learning_rate": 3.70878517288224e-07,
-      "logits/chosen": 0.15000824630260468,
-      "logits/rejected": 0.2208786904811859,
-      "logps/chosen": -548.018798828125,
-      "logps/rejected": -527.3434448242188,
-      "loss": 0.0473,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -2.3518996238708496,
-      "rewards/margins": 0.7622156143188477,
-      "rewards/rejected": -3.1141154766082764,
       "step": 610
     },
     {
-      "epoch": 1.27,
-      "learning_rate": 3.536810842051503e-07,
-      "logits/chosen": 0.1049819216132164,
-      "logits/rejected": 0.15174145996570587,
-      "logps/chosen": -583.921630859375,
-      "logps/rejected": -534.0410766601562,
-      "loss": 0.051,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -2.2783203125,
-      "rewards/margins": 1.0053035020828247,
-      "rewards/rejected": -3.2836239337921143,
       "step": 620
     },
     {
-      "epoch": 1.29,
-      "learning_rate": 3.366709627990279e-07,
-      "logits/chosen": 0.1325691193342209,
-      "logits/rejected": 0.21458351612091064,
-      "logps/chosen": -542.7774658203125,
-      "logps/rejected": -566.5474853515625,
-      "loss": 0.0474,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -2.380779504776001,
-      "rewards/margins": 1.0634496212005615,
-      "rewards/rejected": -3.4442291259765625,
       "step": 630
     },
     {
-      "epoch": 1.31,
-      "learning_rate": 3.198699287531197e-07,
-      "logits/chosen": 0.22405290603637695,
-      "logits/rejected": 0.38790056109428406,
-      "logps/chosen": -511.52813720703125,
-      "logps/rejected": -502.40594482421875,
-      "loss": 0.0407,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -2.1854372024536133,
-      "rewards/margins": 0.8840430974960327,
-      "rewards/rejected": -3.0694804191589355,
       "step": 640
     },
     {
-      "epoch": 1.33,
-      "learning_rate": 3.0329949008533717e-07,
-      "logits/chosen": 0.298289954662323,
-      "logits/rejected": 0.3011283874511719,
-      "logps/chosen": -536.1112060546875,
-      "logps/rejected": -537.1763916015625,
-      "loss": 0.0429,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -2.2640860080718994,
-      "rewards/margins": 1.017397165298462,
-      "rewards/rejected": -3.2814831733703613,
       "step": 650
     },
     {
-      "epoch": 1.35,
-      "learning_rate": 2.869808596145272e-07,
-      "logits/chosen": 0.06549053639173508,
-      "logits/rejected": 0.1074862852692604,
-      "logps/chosen": -594.4285278320312,
-      "logps/rejected": -558.3255615234375,
-      "loss": 0.0429,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -2.2776365280151367,
-      "rewards/margins": 1.2041267156600952,
-      "rewards/rejected": -3.4817633628845215,
       "step": 660
     },
     {
-      "epoch": 1.37,
-      "learning_rate": 2.7093492780466355e-07,
-      "logits/chosen": 0.18175141513347626,
-      "logits/rejected": 0.26680392026901245,
-      "logps/chosen": -579.2008666992188,
-      "logps/rejected": -590.2774658203125,
-      "loss": 0.0467,
       "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -2.1934049129486084,
-      "rewards/margins": 1.090174913406372,
-      "rewards/rejected": -3.2835800647735596,
       "step": 670
     },
     {
-      "epoch": 1.39,
-      "learning_rate": 2.551822360217013e-07,
-      "logits/chosen": 0.15081962943077087,
-      "logits/rejected": 0.20529961585998535,
-      "logps/chosen": -553.8475341796875,
-      "logps/rejected": -606.9322509765625,
-      "loss": 0.0436,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -2.3112692832946777,
-      "rewards/margins": 1.0072476863861084,
-      "rewards/rejected": -3.318516492843628,
       "step": 680
     },
     {
-      "epoch": 1.41,
-      "learning_rate": 2.397429502373358e-07,
-      "logits/chosen": 0.23068766295909882,
-      "logits/rejected": 0.34180352091789246,
-      "logps/chosen": -623.3653564453125,
-      "logps/rejected": -575.7601318359375,
-      "loss": 0.0418,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -2.5824313163757324,
-      "rewards/margins": 0.9573659896850586,
-      "rewards/rejected": -3.539797306060791,
       "step": 690
     },
     {
-      "epoch": 1.43,
-      "learning_rate": 2.2463683521332372e-07,
-      "logits/chosen": 0.1991245001554489,
-      "logits/rejected": 0.2743477523326874,
-      "logps/chosen": -590.1685180664062,
-      "logps/rejected": -624.405517578125,
-      "loss": 0.0402,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -2.624359607696533,
-      "rewards/margins": 1.0163304805755615,
-      "rewards/rejected": -3.640690326690674,
       "step": 700
     },
     {
-      "epoch": 1.45,
-      "learning_rate": 2.098832291994188e-07,
-      "logits/chosen": 0.13439445197582245,
-      "logits/rejected": 0.3505890965461731,
-      "logps/chosen": -532.9124755859375,
-      "logps/rejected": -533.11328125,
-      "loss": 0.0425,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -2.428898811340332,
-      "rewards/margins": 0.8328410983085632,
-      "rewards/rejected": -3.261739730834961,
       "step": 710
     },
     {
-      "epoch": 1.48,
-      "learning_rate": 1.9550101917731164e-07,
-      "logits/chosen": 0.2612428069114685,
-      "logits/rejected": 0.4181596338748932,
-      "logps/chosen": -548.5943603515625,
-      "logps/rejected": -520.1036376953125,
-      "loss": 0.0426,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -2.282651424407959,
-      "rewards/margins": 0.897473931312561,
-      "rewards/rejected": -3.1801254749298096,
       "step": 720
     },
     {
-      "epoch": 1.5,
-      "learning_rate": 1.8150861668226304e-07,
-      "logits/chosen": 0.16462299227714539,
-      "logits/rejected": 0.255173921585083,
-      "logps/chosen": -613.513916015625,
-      "logps/rejected": -615.7657470703125,
-      "loss": 0.0412,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -2.5054032802581787,
-      "rewards/margins": 1.1505638360977173,
-      "rewards/rejected": -3.6559672355651855,
       "step": 730
     },
     {
-      "epoch": 1.52,
-      "learning_rate": 1.6792393423338668e-07,
-      "logits/chosen": 0.3190282881259918,
-      "logits/rejected": 0.3565825819969177,
-      "logps/chosen": -511.28857421875,
-      "logps/rejected": -533.2688598632812,
-      "loss": 0.0373,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -2.4052300453186035,
-      "rewards/margins": 1.0499953031539917,
-      "rewards/rejected": -3.4552254676818848,
       "step": 740
     },
     {
-      "epoch": 1.54,
-      "learning_rate": 1.5476436240275343e-07,
-      "logits/chosen": 0.21081598103046417,
-      "logits/rejected": 0.26332369446754456,
-      "logps/chosen": -571.9532470703125,
-      "logps/rejected": -675.26171875,
-      "loss": 0.0365,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -2.571671485900879,
-      "rewards/margins": 1.5944334268569946,
-      "rewards/rejected": -4.166104793548584,
       "step": 750
     },
     {
-      "epoch": 1.56,
-      "learning_rate": 1.4204674755266789e-07,
-      "logits/chosen": 0.2154209166765213,
-      "logits/rejected": 0.3505161702632904,
-      "logps/chosen": -569.5103759765625,
-      "logps/rejected": -614.9661865234375,
-      "loss": 0.041,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -2.5760412216186523,
-      "rewards/margins": 1.1412320137023926,
-      "rewards/rejected": -3.717272996902466,
       "step": 760
     },
     {
-      "epoch": 1.58,
-      "learning_rate": 1.2978737026962455e-07,
-      "logits/chosen": 0.37023162841796875,
-      "logits/rejected": 0.5293506979942322,
-      "logps/chosen": -518.3146362304688,
-      "logps/rejected": -529.2200317382812,
-      "loss": 0.0364,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -2.416443109512329,
-      "rewards/margins": 0.8256433606147766,
-      "rewards/rejected": -3.242086410522461,
       "step": 770
     },
     {
-      "epoch": 1.6,
-      "learning_rate": 1.1800192452254626e-07,
-      "logits/chosen": 0.27624231576919556,
-      "logits/rejected": 0.46870145201683044,
-      "logps/chosen": -591.7103271484375,
-      "logps/rejected": -581.9118041992188,
-      "loss": 0.0362,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -2.4794836044311523,
-      "rewards/margins": 1.137441635131836,
-      "rewards/rejected": -3.6169254779815674,
       "step": 780
     },
     {
-      "epoch": 1.62,
-      "learning_rate": 1.0670549757198632e-07,
-      "logits/chosen": 0.3313957750797272,
-      "logits/rejected": 0.3926454484462738,
-      "logps/chosen": -572.6036376953125,
-      "logps/rejected": -623.8525390625,
-      "loss": 0.0347,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -2.5637197494506836,
-      "rewards/margins": 1.4623756408691406,
-      "rewards/rejected": -4.026095390319824,
       "step": 790
     },
     {
-      "epoch": 1.64,
-      "learning_rate": 9.591255065601611e-08,
-      "logits/chosen": 0.36058443784713745,
-      "logits/rejected": 0.4308810234069824,
-      "logps/chosen": -660.1174926757812,
-      "logps/rejected": -651.1835327148438,
-      "loss": 0.0311,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -3.1758742332458496,
-      "rewards/margins": 0.9529415369033813,
-      "rewards/rejected": -4.128815650939941,
       "step": 800
     },
-    {
-      "epoch": 1.66,
-      "learning_rate": 8.563690047752148e-08,
-      "logits/chosen": 0.20595593750476837,
-      "logits/rejected": 0.3465935289859772,
-      "logps/chosen": -603.9895629882812,
-      "logps/rejected": -659.3458862304688,
-      "loss": 0.0281,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -3.0521774291992188,
-      "rewards/margins": 1.057278037071228,
-      "rewards/rejected": -4.109455585479736,
-      "step": 810
-    },
-    {
-      "epoch": 1.68,
-      "learning_rate": 7.589170151660656e-08,
-      "logits/chosen": 0.2923261523246765,
-      "logits/rejected": 0.49081581830978394,
-      "logps/chosen": -580.5206909179688,
-      "logps/rejected": -572.1239013671875,
-      "loss": 0.03,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -2.961920976638794,
-      "rewards/margins": 0.8716068267822266,
-      "rewards/rejected": -3.8335273265838623,
-      "step": 820
-    },
     {
       "epoch": 1.7,
-      "learning_rate": 6.668942919074993e-08,
-      "logits/chosen": 0.292153537273407,
-      "logits/rejected": 0.432597815990448,
-      "logps/chosen": -573.1793823242188,
-      "logps/rejected": -590.8929443359375,
-      "loss": 0.0308,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -2.854015588760376,
-      "rewards/margins": 1.1199266910552979,
-      "rewards/rejected": -3.973942518234253,
-      "step": 830
     },
     {
       "epoch": 1.72,
-      "learning_rate": 5.804186388427051e-08,
-      "logits/chosen": 0.24940094351768494,
-      "logits/rejected": 0.41758427023887634,
-      "logps/chosen": -652.5003662109375,
-      "logps/rejected": -634.2739868164062,
-      "loss": 0.0314,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -3.0366127490997314,
-      "rewards/margins": 0.8191956281661987,
-      "rewards/rejected": -3.8558082580566406,
-      "step": 840
     },
     {
       "epoch": 1.74,
-      "learning_rate": 4.996007586754497e-08,
-      "logits/chosen": 0.22354039549827576,
-      "logits/rejected": 0.37779122591018677,
-      "logps/chosen": -606.2194213867188,
-      "logps/rejected": -642.6550903320312,
-      "loss": 0.0296,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -2.9501092433929443,
-      "rewards/margins": 1.118649959564209,
-      "rewards/rejected": -4.068758964538574,
-      "step": 850
     },
     {
       "epoch": 1.76,
-      "learning_rate": 4.245441112528714e-08,
-      "logits/chosen": 0.4196823239326477,
-      "logits/rejected": 0.4304388165473938,
-      "logps/chosen": -577.064208984375,
-      "logps/rejected": -602.9406127929688,
-      "loss": 0.0342,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -2.622218370437622,
-      "rewards/margins": 1.2330958843231201,
-      "rewards/rejected": -3.855314254760742,
-      "step": 860
     },
     {
       "epoch": 1.78,
-      "learning_rate": 3.5534478112028756e-08,
-      "logits/chosen": 0.22348478436470032,
-      "logits/rejected": 0.37131160497665405,
-      "logps/chosen": -624.7162475585938,
-      "logps/rejected": -609.2520751953125,
-      "loss": 0.0332,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -2.5426559448242188,
-      "rewards/margins": 1.3100887537002563,
-      "rewards/rejected": -3.8527445793151855,
-      "step": 870
     },
     {
       "epoch": 1.8,
-      "learning_rate": 2.920913545175585e-08,
-      "logits/chosen": 0.268731027841568,
-      "logits/rejected": 0.4273291528224945,
-      "logps/chosen": -670.083984375,
-      "logps/rejected": -628.88330078125,
-      "loss": 0.034,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -2.7054009437561035,
-      "rewards/margins": 1.0910000801086426,
-      "rewards/rejected": -3.796401262283325,
-      "step": 880
     },
     {
       "epoch": 1.82,
-      "learning_rate": 2.3486480597450233e-08,
-      "logits/chosen": 0.43142691254615784,
-      "logits/rejected": 0.5881059169769287,
-      "logps/chosen": -598.4923706054688,
-      "logps/rejected": -542.4967041015625,
-      "loss": 0.0355,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -2.5859270095825195,
-      "rewards/margins": 0.8642128109931946,
-      "rewards/rejected": -3.4501395225524902,
-      "step": 890
     },
     {
       "epoch": 1.84,
-      "learning_rate": 1.837383946505078e-08,
-      "logits/chosen": 0.30923277139663696,
-      "logits/rejected": 0.3812534511089325,
-      "logps/chosen": -534.3175048828125,
-      "logps/rejected": -591.940185546875,
-      "loss": 0.038,
       "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -2.7851271629333496,
-      "rewards/margins": 1.1137316226959229,
-      "rewards/rejected": -3.8988590240478516,
-      "step": 900
     },
     {
       "epoch": 1.86,
-      "learning_rate": 1.3877757055106131e-08,
-      "logits/chosen": 0.37112337350845337,
-      "logits/rejected": 0.3969642221927643,
-      "logps/chosen": -580.228271484375,
-      "logps/rejected": -596.5545654296875,
-      "loss": 0.0348,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -2.8731327056884766,
-      "rewards/margins": 1.1270229816436768,
-      "rewards/rejected": -4.000155925750732,
-      "step": 910
     },
     {
       "epoch": 1.88,
-      "learning_rate": 1.0003989074124531e-08,
-      "logits/chosen": 0.298672080039978,
-      "logits/rejected": 0.4021454453468323,
-      "logps/chosen": -587.4090576171875,
-      "logps/rejected": -554.2926025390625,
-      "loss": 0.0353,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -2.7385663986206055,
-      "rewards/margins": 0.8734287023544312,
-      "rewards/rejected": -3.611995220184326,
-      "step": 920
     },
     {
       "epoch": 1.91,
-      "learning_rate": 6.757494566346444e-09,
-      "logits/chosen": 0.23999682068824768,
-      "logits/rejected": 0.3655754029750824,
-      "logps/chosen": -563.5718994140625,
-      "logps/rejected": -580.5650634765625,
-      "loss": 0.0392,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -2.609893321990967,
-      "rewards/margins": 1.1768059730529785,
-      "rewards/rejected": -3.7866992950439453,
-      "step": 930
     },
     {
       "epoch": 1.93,
-      "learning_rate": 4.142429565372529e-09,
-      "logits/chosen": 0.20008695125579834,
-      "logits/rejected": 0.4519767165184021,
-      "logps/chosen": -639.9691772460938,
-      "logps/rejected": -581.4786376953125,
-      "loss": 0.0335,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -2.76491117477417,
-      "rewards/margins": 0.7661231160163879,
-      "rewards/rejected": -3.531034469604492,
-      "step": 940
     },
     {
       "epoch": 1.95,
-      "learning_rate": 2.1621417737743287e-09,
-      "logits/chosen": 0.288802832365036,
-      "logits/rejected": 0.38709038496017456,
-      "logps/chosen": -602.63916015625,
-      "logps/rejected": -614.2210693359375,
-      "loss": 0.0362,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -2.629371166229248,
-      "rewards/margins": 1.192918062210083,
-      "rewards/rejected": -3.822288990020752,
-      "step": 950
     },
     {
       "epoch": 1.97,
-      "learning_rate": 8.191662774980623e-10,
-      "logits/chosen": 0.3423166573047638,
-      "logits/rejected": 0.37124723196029663,
-      "logps/chosen": -607.4952392578125,
-      "logps/rejected": -593.841064453125,
-      "loss": 0.0359,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -2.386164903640747,
-      "rewards/margins": 1.163062572479248,
-      "rewards/rejected": -3.549227476119995,
-      "step": 960
     },
     {
       "epoch": 1.99,
-      "learning_rate": 1.1522230054794579e-10,
-      "logits/chosen": 0.1892043799161911,
-      "logits/rejected": 0.3423364460468292,
-      "logps/chosen": -628.3257446289062,
-      "logps/rejected": -607.3165893554688,
-      "loss": 0.0375,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -2.810192823410034,
-      "rewards/margins": 1.0157359838485718,
-      "rewards/rejected": -3.8259284496307373,
-      "step": 970
     },
     {
       "epoch": 2.0,
-      "step": 976,
       "total_flos": 0.0,
-      "train_loss": 0.18376689068362362,
-      "train_runtime": 14184.393,
-      "train_samples_per_second": 8.81,
-      "train_steps_per_second": 0.069
     }
   ],
   "logging_steps": 10,
-  "max_steps": 976,
   "num_train_epochs": 2,
   "save_steps": 10000,
   "total_flos": 0.0,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9973828840617638,
   "eval_steps": 10000,
+  "global_step": 954,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.02,
+      "learning_rate": 1.0416666666666667e-07,
+      "logits/chosen": 0.17733711004257202,
+      "logits/rejected": 0.2543194591999054,
+      "logps/chosen": -354.2892150878906,
+      "logps/rejected": -305.198974609375,
+      "loss": 0.5,
+      "rewards/accuracies": 0.40625,
+      "rewards/chosen": 0.001110748155042529,
+      "rewards/margins": 0.0009211620199494064,
+      "rewards/rejected": 0.0001895862224046141,
       "step": 10
     },
     {
       "epoch": 0.04,
+      "learning_rate": 2.0833333333333333e-07,
+      "logits/chosen": 0.0703902393579483,
+      "logits/rejected": 0.19805452227592468,
+      "logps/chosen": -316.7099609375,
+      "logps/rejected": -276.1195373535156,
+      "loss": 0.4999,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": 0.0002531521604396403,
+      "rewards/margins": 0.001093686674721539,
+      "rewards/rejected": -0.0008405345724895597,
       "step": 20
     },
     {
       "epoch": 0.06,
+      "learning_rate": 3.1249999999999997e-07,
+      "logits/chosen": 0.1768152415752411,
+      "logits/rejected": 0.24860361218452454,
+      "logps/chosen": -294.9255676269531,
+      "logps/rejected": -298.43670654296875,
+      "loss": 0.4995,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.0004133238398935646,
+      "rewards/margins": 0.0018008403712883592,
+      "rewards/rejected": -0.001387516618706286,
       "step": 30
     },
     {
       "epoch": 0.08,
+      "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": 0.09639827907085419,
+      "logits/rejected": 0.2179565727710724,
+      "logps/chosen": -346.4007263183594,
+      "logps/rejected": -320.07464599609375,
+      "loss": 0.4982,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": 0.011715102009475231,
+      "rewards/margins": 0.0077905962243676186,
+      "rewards/rejected": 0.003924505319446325,
       "step": 40
     },
     {
       "epoch": 0.1,
+      "learning_rate": 5.208333333333334e-07,
+      "logits/chosen": 0.14820781350135803,
+      "logits/rejected": 0.23618468642234802,
+      "logps/chosen": -308.26483154296875,
+      "logps/rejected": -283.5643310546875,
+      "loss": 0.496,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": 0.022877948358654976,
+      "rewards/margins": 0.021698923781514168,
+      "rewards/rejected": 0.0011790238786488771,
       "step": 50
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 6.249999999999999e-07,
+      "logits/chosen": 0.12726549804210663,
+      "logits/rejected": 0.2663690447807312,
+      "logps/chosen": -289.76361083984375,
+      "logps/rejected": -275.6463623046875,
+      "loss": 0.4922,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.031151825562119484,
+      "rewards/margins": 0.033161893486976624,
+      "rewards/rejected": -0.0020100646652281284,
       "step": 60
     },
     {
+      "epoch": 0.15,
+      "learning_rate": 7.291666666666666e-07,
+      "logits/chosen": 0.1551138460636139,
+      "logits/rejected": 0.2375030517578125,
+      "logps/chosen": -323.76788330078125,
+      "logps/rejected": -318.1293029785156,
+      "loss": 0.4879,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.059557922184467316,
+      "rewards/margins": 0.05137287825345993,
+      "rewards/rejected": 0.008185049518942833,
       "step": 70
     },
     {
+      "epoch": 0.17,
+      "learning_rate": 8.333333333333333e-07,
+      "logits/chosen": 0.22313980758190155,
+      "logits/rejected": 0.31770533323287964,
+      "logps/chosen": -312.06854248046875,
+      "logps/rejected": -291.3954162597656,
+      "loss": 0.4823,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": 0.06595131754875183,
+      "rewards/margins": 0.10923006385564804,
+      "rewards/rejected": -0.04327874630689621,
       "step": 80
     },
     {
+      "epoch": 0.19,
+      "learning_rate": 9.374999999999999e-07,
+      "logits/chosen": 0.111533522605896,
+      "logits/rejected": 0.25437992811203003,
+      "logps/chosen": -331.6070556640625,
+      "logps/rejected": -276.5615234375,
+      "loss": 0.4763,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": 0.05334480479359627,
+      "rewards/margins": 0.14821472764015198,
+      "rewards/rejected": -0.09486991912126541,
       "step": 90
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 9.999463737538052e-07,
+      "logits/chosen": 0.19283509254455566,
+      "logits/rejected": 0.36483508348464966,
+      "logps/chosen": -334.4452819824219,
+      "logps/rejected": -312.9904479980469,
+      "loss": 0.4681,
       "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": 0.0011617511045187712,
+      "rewards/margins": 0.20724515616893768,
+      "rewards/rejected": -0.20608338713645935,
       "step": 100
     },
     {
       "epoch": 0.23,
+      "learning_rate": 9.993432105822034e-07,
+      "logits/chosen": 0.21006178855895996,
+      "logits/rejected": 0.2403305023908615,
+      "logps/chosen": -329.19293212890625,
+      "logps/rejected": -345.82330322265625,
+      "loss": 0.457,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.16573527455329895,
+      "rewards/margins": 0.2979966104030609,
+      "rewards/rejected": -0.4637318551540375,
       "step": 110
     },
     {
       "epoch": 0.25,
+      "learning_rate": 9.980706626858607e-07,
+      "logits/chosen": 0.15046869218349457,
+      "logits/rejected": 0.21053044497966766,
+      "logps/chosen": -360.9029846191406,
+      "logps/rejected": -405.44732666015625,
+      "loss": 0.46,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.40349340438842773,
+      "rewards/margins": 0.43901604413986206,
+      "rewards/rejected": -0.8425094485282898,
       "step": 120
     },
     {
       "epoch": 0.27,
+      "learning_rate": 9.961304359538434e-07,
+      "logits/chosen": 0.13695412874221802,
+      "logits/rejected": 0.2686176002025604,
+      "logps/chosen": -424.5625915527344,
+      "logps/rejected": -432.45745849609375,
+      "loss": 0.4508,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.8606651425361633,
+      "rewards/margins": 0.6154058575630188,
+      "rewards/rejected": -1.4760708808898926,
       "step": 130
     },
     {
       "epoch": 0.29,
+      "learning_rate": 9.935251313189563e-07,
+      "logits/chosen": 0.08335243165493011,
+      "logits/rejected": 0.23106291890144348,
+      "logps/chosen": -490.5091247558594,
+      "logps/rejected": -535.1593017578125,
+      "loss": 0.4468,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -1.5846575498580933,
+      "rewards/margins": 1.0678659677505493,
+      "rewards/rejected": -2.6525235176086426,
       "step": 140
     },
     {
       "epoch": 0.31,
+      "learning_rate": 9.902582412711118e-07,
+      "logits/chosen": 0.16554813086986542,
+      "logits/rejected": 0.20584425330162048,
+      "logps/chosen": -427.4266052246094,
+      "logps/rejected": -530.4254150390625,
+      "loss": 0.445,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.9212606549263,
+      "rewards/margins": 1.2334972620010376,
+      "rewards/rejected": -2.1547577381134033,
       "step": 150
     },
     {
       "epoch": 0.33,
+      "learning_rate": 9.86334145175542e-07,
+      "logits/chosen": 0.08956819772720337,
+      "logits/rejected": 0.10614663362503052,
+      "logps/chosen": -355.2901916503906,
+      "logps/rejected": -487.94354248046875,
+      "loss": 0.4399,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.5322867631912231,
+      "rewards/margins": 1.5401604175567627,
+      "rewards/rejected": -2.0724472999572754,
       "step": 160
     },
     {
+      "epoch": 0.36,
+      "learning_rate": 9.817581034021272e-07,
+      "logits/chosen": 0.022985249757766724,
+      "logits/rejected": 0.06110963970422745,
+      "logps/chosen": -431.2767639160156,
+      "logps/rejected": -524.8790893554688,
+      "loss": 0.4341,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.9490836262702942,
+      "rewards/margins": 1.221215009689331,
+      "rewards/rejected": -2.1702985763549805,
       "step": 170
     },
     {
+      "epoch": 0.38,
+      "learning_rate": 9.765362502737097e-07,
+      "logits/chosen": -0.04698944836854935,
+      "logits/rejected": -0.01610407792031765,
+      "logps/chosen": -415.97393798828125,
+      "logps/rejected": -554.08837890625,
+      "loss": 0.4314,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.8994191288948059,
+      "rewards/margins": 1.6427128314971924,
+      "rewards/rejected": -2.5421319007873535,
       "step": 180
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 9.706755858428485e-07,
+      "logits/chosen": 0.12246842682361603,
+      "logits/rejected": 0.13095493614673615,
+      "logps/chosen": -418.01751708984375,
+      "logps/rejected": -506.07421875,
+      "loss": 0.4235,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.8335806131362915,
+      "rewards/margins": 1.0999118089675903,
+      "rewards/rejected": -1.9334923028945923,
       "step": 190
     },
     {
+      "epoch": 0.42,
+      "learning_rate": 9.641839665080363e-07,
+      "logits/chosen": 0.11251389980316162,
+      "logits/rejected": 0.08771563321352005,
+      "logps/chosen": -444.196533203125,
+      "logps/rejected": -665.639892578125,
+      "loss": 0.419,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.0370674133300781,
+      "rewards/margins": 2.6780648231506348,
+      "rewards/rejected": -3.7151317596435547,
       "step": 200
     },
     {
+      "epoch": 0.44,
+      "learning_rate": 9.570700944819582e-07,
+      "logits/chosen": 0.16030333936214447,
+      "logits/rejected": 0.11628633737564087,
+      "logps/chosen": -400.63427734375,
+      "logps/rejected": -635.213134765625,
+      "loss": 0.4265,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.8647702932357788,
+      "rewards/margins": 2.788623332977295,
+      "rewards/rejected": -3.6533939838409424,
       "step": 210
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 9.493435061259129e-07,
+      "logits/chosen": -0.053914181888103485,
+      "logits/rejected": -0.0958121120929718,
+      "logps/chosen": -501.2230529785156,
+      "logps/rejected": -713.2017211914062,
+      "loss": 0.4207,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -1.8454395532608032,
+      "rewards/margins": 2.649871826171875,
+      "rewards/rejected": -4.495311260223389,
       "step": 220
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 9.4101455916603e-07,
+      "logits/chosen": 0.024957913905382156,
+      "logits/rejected": -0.08018078655004501,
+      "logps/chosen": -582.2233276367188,
+      "logps/rejected": -891.3052978515625,
+      "loss": 0.4177,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -2.561619758605957,
+      "rewards/margins": 3.5202267169952393,
+      "rewards/rejected": -6.081845760345459,
       "step": 230
     },
     {
+      "epoch": 0.5,
+      "learning_rate": 9.320944188084241e-07,
+      "logits/chosen": 0.06781353056430817,
+      "logits/rejected": -0.011409667320549488,
+      "logps/chosen": -590.6744384765625,
+      "logps/rejected": -886.1702880859375,
+      "loss": 0.4203,
       "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -2.787226915359497,
+      "rewards/margins": 3.05540132522583,
+      "rewards/rejected": -5.842628479003906,
       "step": 240
     },
     {
+      "epoch": 0.52,
+      "learning_rate": 9.225950427718974e-07,
+      "logits/chosen": 0.17237909138202667,
+      "logits/rejected": 0.08455310761928558,
+      "logps/chosen": -487.7764587402344,
+      "logps/rejected": -983.6060791015625,
+      "loss": 0.4162,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.7572829723358154,
+      "rewards/margins": 5.258338451385498,
+      "rewards/rejected": -7.015621185302734,
       "step": 250
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 9.125291652582547e-07,
+      "logits/chosen": 0.04219328239560127,
+      "logits/rejected": 0.006076293531805277,
+      "logps/chosen": -587.68212890625,
+      "logps/rejected": -869.4441528320312,
+      "loss": 0.4232,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -2.330383777618408,
+      "rewards/margins": 3.363435745239258,
+      "rewards/rejected": -5.693819522857666,
       "step": 260
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 9.019102798817195e-07,
+      "logits/chosen": 0.1859409064054489,
+      "logits/rejected": -0.06210414692759514,
+      "logps/chosen": -533.7982177734375,
+      "logps/rejected": -985.5645751953125,
+      "loss": 0.4114,
       "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -2.0466434955596924,
+      "rewards/margins": 4.704514503479004,
+      "rewards/rejected": -6.751158237457275,
       "step": 270
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 8.90752621580335e-07,
+      "logits/chosen": 0.19852975010871887,
+      "logits/rejected": 0.030256235972046852,
+      "logps/chosen": -513.59033203125,
+      "logps/rejected": -937.9052734375,
+      "loss": 0.4156,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -2.1710736751556396,
+      "rewards/margins": 4.297308444976807,
+      "rewards/rejected": -6.468382358551025,
       "step": 280
     },
     {
+      "epoch": 0.61,
+      "learning_rate": 8.79071147533597e-07,
+      "logits/chosen": 0.14935357868671417,
+      "logits/rejected": -0.028311902657151222,
+      "logps/chosen": -705.8804321289062,
+      "logps/rejected": -1405.2919921875,
+      "loss": 0.4052,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -3.5944924354553223,
+      "rewards/margins": 7.230493068695068,
+      "rewards/rejected": -10.824986457824707,
       "step": 290
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 8.668815171119019e-07,
+      "logits/chosen": 0.2377752959728241,
+      "logits/rejected": 0.054682862013578415,
+      "logps/chosen": -492.9376525878906,
+      "logps/rejected": -1074.2073974609375,
+      "loss": 0.4129,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.011826515197754,
+      "rewards/margins": 5.496823310852051,
+      "rewards/rejected": -7.5086493492126465,
       "step": 300
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 8.54200070884685e-07,
+      "logits/chosen": 0.2463679015636444,
+      "logits/rejected": -0.016352087259292603,
+      "logps/chosen": -525.9217529296875,
+      "logps/rejected": -1137.378662109375,
+      "loss": 0.4032,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -2.3019001483917236,
+      "rewards/margins": 5.954804420471191,
+      "rewards/rejected": -8.25670337677002,
       "step": 310
     },
     {
+      "epoch": 0.67,
+      "learning_rate": 8.410438087153911e-07,
+      "logits/chosen": 0.22406017780303955,
+      "logits/rejected": 0.10108964145183563,
+      "logps/chosen": -472.781005859375,
+      "logps/rejected": -1149.229248046875,
+      "loss": 0.4105,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.571500301361084,
+      "rewards/margins": 7.018779754638672,
+      "rewards/rejected": -8.590279579162598,
       "step": 320
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 8.274303669726426e-07,
+      "logits/chosen": 0.29168057441711426,
+      "logits/rejected": 0.15196271240711212,
+      "logps/chosen": -600.2703857421875,
+      "logps/rejected": -1573.563232421875,
+      "loss": 0.402,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -3.015018939971924,
+      "rewards/margins": 9.613102912902832,
+      "rewards/rejected": -12.628121376037598,
       "step": 330
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 8.133779948881513e-07,
+      "logits/chosen": 0.33964803814888,
+      "logits/rejected": 0.3003019690513611,
+      "logps/chosen": -494.3397521972656,
+      "logps/rejected": -1070.0369873046875,
+      "loss": 0.4047,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -2.076432943344116,
+      "rewards/margins": 6.0156073570251465,
+      "rewards/rejected": -8.092041015625,
       "step": 340
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 7.989055300930704e-07,
+      "logits/chosen": 0.2937834858894348,
+      "logits/rejected": 0.22495004534721375,
+      "logps/chosen": -525.5234985351562,
+      "logps/rejected": -1205.3031005859375,
+      "loss": 0.404,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -2.2402138710021973,
+      "rewards/margins": 6.707070350646973,
+      "rewards/rejected": -8.947283744812012,
       "step": 350
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 7.840323733655778e-07,
+      "logits/chosen": 0.20088157057762146,
+      "logits/rejected": 0.07263296842575073,
+      "logps/chosen": -569.1207275390625,
+      "logps/rejected": -1455.37548828125,
+      "loss": 0.3978,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -2.4096343517303467,
+      "rewards/margins": 9.322293281555176,
+      "rewards/rejected": -11.731927871704102,
       "step": 360
     },
     {
+      "epoch": 0.77,
+      "learning_rate": 7.687784626235447e-07,
+      "logits/chosen": 0.04894110560417175,
+      "logits/rejected": -0.0861678496003151,
+      "logps/chosen": -700.1285400390625,
+      "logps/rejected": -1508.282958984375,
+      "loss": 0.4002,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -3.51697039604187,
+      "rewards/margins": 8.459676742553711,
+      "rewards/rejected": -11.97664737701416,
       "step": 370
     },
     {
+      "epoch": 0.8,
+      "learning_rate": 7.531642461971514e-07,
+      "logits/chosen": 0.13316456973552704,
+      "logits/rejected": -0.1390618234872818,
+      "logps/chosen": -834.8723754882812,
+      "logps/rejected": -1582.9775390625,
+      "loss": 0.3995,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -5.417990684509277,
+      "rewards/margins": 7.689940452575684,
+      "rewards/rejected": -13.107931137084961,
       "step": 380
     },
     {
+      "epoch": 0.82,
+      "learning_rate": 7.372106554172801e-07,
+      "logits/chosen": 0.05666132643818855,
+      "logits/rejected": -0.015092259272933006,
+      "logps/chosen": -540.2429809570312,
+      "logps/rejected": -1435.7958984375,
+      "loss": 0.3973,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -1.985515832901001,
+      "rewards/margins": 9.362586975097656,
+      "rewards/rejected": -11.348101615905762,
       "step": 390
     },
     {
+      "epoch": 0.84,
+      "learning_rate": 7.209390765564318e-07,
+      "logits/chosen": 0.16617372632026672,
+      "logits/rejected": -0.0461905337870121,
+      "logps/chosen": -723.858642578125,
+      "logps/rejected": -1655.4898681640625,
+      "loss": 0.4013,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -4.068535804748535,
+      "rewards/margins": 9.538484573364258,
+      "rewards/rejected": -13.607022285461426,
       "step": 400
     },
     {
+      "epoch": 0.86,
+      "learning_rate": 7.043713221597773e-07,
+      "logits/chosen": 0.06812890619039536,
+      "logits/rejected": -0.07965459674596786,
+      "logps/chosen": -683.1234130859375,
+      "logps/rejected": -1550.495361328125,
+      "loss": 0.4009,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -3.939258575439453,
+      "rewards/margins": 8.659662246704102,
+      "rewards/rejected": -12.598922729492188,
       "step": 410
     },
     {
+      "epoch": 0.88,
+      "learning_rate": 6.875296018047809e-07,
+      "logits/chosen": 0.20702295005321503,
+      "logits/rejected": 0.037614382803440094,
+      "logps/chosen": -662.0958251953125,
+      "logps/rejected": -1592.722900390625,
+      "loss": 0.3984,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -3.6876208782196045,
+      "rewards/margins": 9.383062362670898,
+      "rewards/rejected": -13.070683479309082,
       "step": 420
     },
     {
+      "epoch": 0.9,
+      "learning_rate": 6.704364923285857e-07,
+      "logits/chosen": 0.0521254763007164,
+      "logits/rejected": -0.16673153638839722,
+      "logps/chosen": -708.7855224609375,
+      "logps/rejected": -1829.0189208984375,
+      "loss": 0.398,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -3.7470862865448,
+      "rewards/margins": 11.305286407470703,
+      "rewards/rejected": -15.052372932434082,
       "step": 430
     },
     {
+      "epoch": 0.92,
+      "learning_rate": 6.531149075630796e-07,
+      "logits/chosen": 0.03881196305155754,
+      "logits/rejected": -0.04577777534723282,
+      "logps/chosen": -575.1758422851562,
+      "logps/rejected": -1710.799072265625,
+      "loss": 0.399,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -2.906187057495117,
+      "rewards/margins": 11.424031257629395,
+      "rewards/rejected": -14.330218315124512,
       "step": 440
     },
     {
+      "epoch": 0.94,
+      "learning_rate": 6.355880676182085e-07,
+      "logits/chosen": 0.03127314895391464,
+      "logits/rejected": -0.32143911719322205,
+      "logps/chosen": -950.0020751953125,
+      "logps/rejected": -2152.05029296875,
+      "loss": 0.3881,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -6.0005059242248535,
+      "rewards/margins": 12.68049144744873,
+      "rewards/rejected": -18.68099594116211,
       "step": 450
     },
     {
+      "epoch": 0.96,
+      "learning_rate": 6.178794677547137e-07,
+      "logits/chosen": 0.10744090378284454,
+      "logits/rejected": -0.19111321866512299,
+      "logps/chosen": -911.0108642578125,
+      "logps/rejected": -2054.70556640625,
+      "loss": 0.3996,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -6.130732536315918,
+      "rewards/margins": 11.758760452270508,
+      "rewards/rejected": -17.88949203491211,
       "step": 460
     },
     {
+      "epoch": 0.98,
+      "learning_rate": 6.000128468880222e-07,
+      "logits/chosen": -0.006098261568695307,
+      "logits/rejected": -0.45566266775131226,
+      "logps/chosen": -1054.670166015625,
+      "logps/rejected": -2545.79296875,
+      "loss": 0.3969,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -7.155210018157959,
+      "rewards/margins": 15.32789134979248,
+      "rewards/rejected": -22.48310089111328,
       "step": 470
     },
     {
+      "epoch": 1.0,
+      "learning_rate": 5.820121557655108e-07,
+      "logits/chosen": 0.051991622895002365,
+      "logits/rejected": -0.2006780356168747,
+      "logps/chosen": -758.8955078125,
+      "logps/rejected": -2237.24267578125,
+      "loss": 0.3949,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -4.22313928604126,
+      "rewards/margins": 14.878347396850586,
+      "rewards/rejected": -19.101486206054688,
       "step": 480
     },
     {
+      "epoch": 1.03,
+      "learning_rate": 5.639015248598023e-07,
+      "logits/chosen": -0.026292938739061356,
+      "logits/rejected": -0.274114191532135,
+      "logps/chosen": -778.0355224609375,
+      "logps/rejected": -1928.9573974609375,
+      "loss": 0.3625,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -4.59261417388916,
+      "rewards/margins": 11.645755767822266,
+      "rewards/rejected": -16.23836898803711,
       "step": 490
     },
     {
+      "epoch": 1.05,
+      "learning_rate": 5.457052320211339e-07,
+      "logits/chosen": -0.017996052280068398,
+      "logits/rejected": -0.45051470398902893,
+      "logps/chosen": -968.8033447265625,
+      "logps/rejected": -2387.48486328125,
+      "loss": 0.3659,
       "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -6.734767913818359,
+      "rewards/margins": 14.207613945007324,
+      "rewards/rejected": -20.942384719848633,
       "step": 500
     },
     {
+      "epoch": 1.07,
+      "learning_rate": 5.274476699321637e-07,
+      "logits/chosen": 0.005720546934753656,
+      "logits/rejected": -0.5387086868286133,
+      "logps/chosen": -1205.0419921875,
+      "logps/rejected": -2745.4345703125,
+      "loss": 0.3687,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -8.98927116394043,
+      "rewards/margins": 15.691691398620605,
+      "rewards/rejected": -24.680959701538086,
       "step": 510
     },
     {
+      "epoch": 1.09,
+      "learning_rate": 5.091533134088387e-07,
+      "logits/chosen": -0.005288724787533283,
+      "logits/rejected": -0.1951751857995987,
+      "logps/chosen": -1033.7554931640625,
+      "logps/rejected": -2083.949462890625,
+      "loss": 0.3716,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -6.909409523010254,
+      "rewards/margins": 10.849687576293945,
+      "rewards/rejected": -17.75909423828125,
       "step": 520
     },
     {
+      "epoch": 1.11,
+      "learning_rate": 4.908466865911614e-07,
+      "logits/chosen": 0.07674840837717056,
+      "logits/rejected": -0.22934529185295105,
+      "logps/chosen": -611.5888671875,
+      "logps/rejected": -1846.804443359375,
+      "loss": 0.3658,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -2.9781932830810547,
+      "rewards/margins": 12.689587593078613,
+      "rewards/rejected": -15.667780876159668,
       "step": 530
     },
     {
+      "epoch": 1.13,
+      "learning_rate": 4.7255233006783624e-07,
+      "logits/chosen": 0.021334605291485786,
+      "logits/rejected": -0.3709332048892975,
+      "logps/chosen": -970.0914306640625,
+      "logps/rejected": -2093.108642578125,
+      "loss": 0.3666,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -6.791567802429199,
+      "rewards/margins": 11.35092544555664,
+      "rewards/rejected": -18.142492294311523,
       "step": 540
     },
     {
+      "epoch": 1.15,
+      "learning_rate": 4.5429476797886617e-07,
+      "logits/chosen": 0.033512182533741,
+      "logits/rejected": -0.3936399519443512,
+      "logps/chosen": -856.0861206054688,
+      "logps/rejected": -2535.446044921875,
+      "loss": 0.3693,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -5.2735795974731445,
+      "rewards/margins": 17.031352996826172,
+      "rewards/rejected": -22.304935455322266,
       "step": 550
     },
     {
+      "epoch": 1.17,
+      "learning_rate": 4.3609847514019763e-07,
+      "logits/chosen": -0.05847325176000595,
+      "logits/rejected": -0.5101506114006042,
+      "logps/chosen": -715.2965087890625,
+      "logps/rejected": -1808.1195068359375,
+      "loss": 0.3829,
       "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -3.906663179397583,
+      "rewards/margins": 11.054914474487305,
+      "rewards/rejected": -14.961578369140625,
       "step": 560
     },
     {
+      "epoch": 1.19,
+      "learning_rate": 4.179878442344892e-07,
+      "logits/chosen": 0.03838271647691727,
+      "logits/rejected": -0.41066282987594604,
+      "logps/chosen": -600.6312866210938,
+      "logps/rejected": -1975.118408203125,
+      "loss": 0.3707,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -3.174193859100342,
+      "rewards/margins": 13.602760314941406,
+      "rewards/rejected": -16.77695655822754,
       "step": 570
     },
     {
+      "epoch": 1.21,
+      "learning_rate": 3.9998715311197783e-07,
+      "logits/chosen": 0.00818496011197567,
+      "logits/rejected": -0.46959954500198364,
+      "logps/chosen": -1030.3143310546875,
+      "logps/rejected": -2606.57666015625,
+      "loss": 0.3699,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -7.15012264251709,
+      "rewards/margins": 15.829042434692383,
+      "rewards/rejected": -22.979164123535156,
       "step": 580
     },
     {
+      "epoch": 1.24,
+      "learning_rate": 3.821205322452863e-07,
+      "logits/chosen": 0.0865226536989212,
+      "logits/rejected": -0.49088770151138306,
+      "logps/chosen": -979.1468505859375,
+      "logps/rejected": -2228.843017578125,
+      "loss": 0.3649,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -6.757370948791504,
+      "rewards/margins": 12.640668869018555,
+      "rewards/rejected": -19.398040771484375,
       "step": 590
     },
     {
+      "epoch": 1.26,
+      "learning_rate": 3.6441193238179146e-07,
+      "logits/chosen": 0.06730663031339645,
+      "logits/rejected": -0.47154170274734497,
+      "logps/chosen": -628.3743896484375,
+      "logps/rejected": -2107.99169921875,
+      "loss": 0.359,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -3.383096218109131,
+      "rewards/margins": 14.71300983428955,
+      "rewards/rejected": -18.096105575561523,
       "step": 600
     },
     {
+      "epoch": 1.28,
+      "learning_rate": 3.4688509243692034e-07,
+      "logits/chosen": -0.07551614940166473,
+      "logits/rejected": -0.4228256344795227,
+      "logps/chosen": -625.5606689453125,
+      "logps/rejected": -2476.503173828125,
+      "loss": 0.3736,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -3.288256883621216,
+      "rewards/margins": 17.969881057739258,
+      "rewards/rejected": -21.258136749267578,
       "step": 610
     },
     {
+      "epoch": 1.3,
+      "learning_rate": 3.295635076714144e-07,
+      "logits/chosen": -0.012427730485796928,
+      "logits/rejected": -0.44272977113723755,
+      "logps/chosen": -558.3466796875,
+      "logps/rejected": -1993.5582275390625,
+      "loss": 0.3655,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -3.1298646926879883,
+      "rewards/margins": 14.332046508789062,
+      "rewards/rejected": -17.461912155151367,
       "step": 620
     },
     {
+      "epoch": 1.32,
+      "learning_rate": 3.12470398195219e-07,
+      "logits/chosen": -0.04589563235640526,
+      "logits/rejected": -0.566718339920044,
+      "logps/chosen": -788.1644287109375,
+      "logps/rejected": -2312.9814453125,
+      "loss": 0.3652,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -4.818960189819336,
+      "rewards/margins": 14.982978820800781,
+      "rewards/rejected": -19.80194091796875,
       "step": 630
     },
     {
+      "epoch": 1.34,
+      "learning_rate": 2.956286778402226e-07,
+      "logits/chosen": -0.10815076529979706,
+      "logits/rejected": -0.40516456961631775,
+      "logps/chosen": -773.5537719726562,
+      "logps/rejected": -2297.0078125,
+      "loss": 0.3614,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -3.9812560081481934,
+      "rewards/margins": 15.931207656860352,
+      "rewards/rejected": -19.912464141845703,
       "step": 640
     },
     {
+      "epoch": 1.36,
+      "learning_rate": 2.7906092344356826e-07,
+      "logits/chosen": 0.0947767049074173,
+      "logits/rejected": -0.34178268909454346,
+      "logps/chosen": -563.9888916015625,
+      "logps/rejected": -1955.478759765625,
+      "loss": 0.3597,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -2.7671079635620117,
+      "rewards/margins": 14.173640251159668,
+      "rewards/rejected": -16.940750122070312,
       "step": 650
     },
     {
+      "epoch": 1.38,
+      "learning_rate": 2.6278934458271996e-07,
+      "logits/chosen": -0.14527355134487152,
+      "logits/rejected": -0.5815786123275757,
+      "logps/chosen": -862.9083862304688,
+      "logps/rejected": -2731.31298828125,
+      "loss": 0.3611,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -5.637027740478516,
+      "rewards/margins": 18.794246673583984,
+      "rewards/rejected": -24.4312744140625,
       "step": 660
     },
     {
+      "epoch": 1.4,
+      "learning_rate": 2.468357538028487e-07,
+      "logits/chosen": -0.026713650673627853,
+      "logits/rejected": -0.5581346750259399,
+      "logps/chosen": -826.4105224609375,
+      "logps/rejected": -2481.40087890625,
+      "loss": 0.3602,
       "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -5.318304061889648,
+      "rewards/margins": 16.639951705932617,
+      "rewards/rejected": -21.958255767822266,
       "step": 670
     },
     {
+      "epoch": 1.42,
+      "learning_rate": 2.312215373764551e-07,
+      "logits/chosen": -0.17602002620697021,
+      "logits/rejected": -0.7885143756866455,
+      "logps/chosen": -1041.0810546875,
+      "logps/rejected": -2838.9697265625,
+      "loss": 0.3635,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -6.526537895202637,
+      "rewards/margins": 18.3980655670166,
+      "rewards/rejected": -24.924602508544922,
       "step": 680
     },
     {
+      "epoch": 1.44,
+      "learning_rate": 2.1596762663442213e-07,
+      "logits/chosen": -0.11598227918148041,
+      "logits/rejected": -0.8071243166923523,
+      "logps/chosen": -812.7769165039062,
+      "logps/rejected": -2409.599365234375,
+      "loss": 0.3651,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -5.32067346572876,
+      "rewards/margins": 16.22947120666504,
+      "rewards/rejected": -21.55014419555664,
       "step": 690
     },
     {
+      "epoch": 1.47,
+      "learning_rate": 2.0109446990692963e-07,
+      "logits/chosen": -0.1322178840637207,
+      "logits/rejected": -0.6750038862228394,
+      "logps/chosen": -735.38623046875,
+      "logps/rejected": -2221.10107421875,
+      "loss": 0.3629,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -4.028614044189453,
+      "rewards/margins": 14.953264236450195,
+      "rewards/rejected": -18.98187828063965,
       "step": 700
     },
     {
+      "epoch": 1.49,
+      "learning_rate": 1.8662200511184872e-07,
+      "logits/chosen": -0.07118358463048935,
+      "logits/rejected": -0.6492079496383667,
+      "logps/chosen": -733.4075317382812,
+      "logps/rejected": -1978.872314453125,
+      "loss": 0.3605,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -4.418785572052002,
+      "rewards/margins": 12.647371292114258,
+      "rewards/rejected": -17.0661563873291,
       "step": 710
     },
     {
+      "epoch": 1.51,
+      "learning_rate": 1.725696330273575e-07,
+      "logits/chosen": -0.013000762090086937,
+      "logits/rejected": -0.4818207621574402,
+      "logps/chosen": -668.6626586914062,
+      "logps/rejected": -2029.7943115234375,
+      "loss": 0.3526,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -3.4144835472106934,
+      "rewards/margins": 13.840230941772461,
+      "rewards/rejected": -17.25471305847168,
       "step": 720
     },
     {
+      "epoch": 1.53,
+      "learning_rate": 1.589561912846089e-07,
+      "logits/chosen": -0.08404045552015305,
+      "logits/rejected": -0.6345758438110352,
+      "logps/chosen": -747.2855224609375,
+      "logps/rejected": -2472.15234375,
+      "loss": 0.3523,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -4.540907859802246,
+      "rewards/margins": 17.551443099975586,
+      "rewards/rejected": -22.092350006103516,
       "step": 730
     },
     {
+      "epoch": 1.55,
+      "learning_rate": 1.4579992911531496e-07,
+      "logits/chosen": -0.21502713859081268,
+      "logits/rejected": -0.8310446739196777,
+      "logps/chosen": -1271.535888671875,
+      "logps/rejected": -2498.06884765625,
+      "loss": 0.3595,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -9.246122360229492,
+      "rewards/margins": 12.74262809753418,
+      "rewards/rejected": -21.988750457763672,
       "step": 740
     },
     {
+      "epoch": 1.57,
+      "learning_rate": 1.3311848288809813e-07,
+      "logits/chosen": -0.06439349055290222,
+      "logits/rejected": -0.5617343187332153,
+      "logps/chosen": -864.2130126953125,
+      "logps/rejected": -2242.72119140625,
+      "loss": 0.3647,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -5.325442790985107,
+      "rewards/margins": 14.041879653930664,
+      "rewards/rejected": -19.367321014404297,
       "step": 750
     },
     {
+      "epoch": 1.59,
+      "learning_rate": 1.209288524664029e-07,
+      "logits/chosen": -0.007544988300651312,
+      "logits/rejected": -0.6543707251548767,
+      "logps/chosen": -929.5089721679688,
+      "logps/rejected": -2724.5986328125,
+      "loss": 0.3608,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -5.293430805206299,
+      "rewards/margins": 18.260942459106445,
+      "rewards/rejected": -23.554372787475586,
       "step": 760
     },
     {
+      "epoch": 1.61,
+      "learning_rate": 1.0924737841966497e-07,
+      "logits/chosen": -0.09723073244094849,
+      "logits/rejected": -0.6276915669441223,
+      "logps/chosen": -1004.7063598632812,
+      "logps/rejected": -2738.22119140625,
+      "loss": 0.3611,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -6.353689193725586,
+      "rewards/margins": 17.72109031677246,
+      "rewards/rejected": -24.074779510498047,
       "step": 770
     },
     {
+      "epoch": 1.63,
+      "learning_rate": 9.808972011828054e-08,
+      "logits/chosen": -0.10224993526935577,
+      "logits/rejected": -0.7376490831375122,
+      "logps/chosen": -815.9857788085938,
+      "logps/rejected": -2558.365478515625,
+      "loss": 0.3546,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -5.3413801193237305,
+      "rewards/margins": 17.04741859436035,
+      "rewards/rejected": -22.388797760009766,
       "step": 780
     },
     {
+      "epoch": 1.65,
+      "learning_rate": 8.747083474174527e-08,
+      "logits/chosen": -0.06878294795751572,
+      "logits/rejected": -0.6381550431251526,
+      "logps/chosen": -684.91455078125,
+      "logps/rejected": -2131.619140625,
+      "loss": 0.3659,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -3.895407199859619,
+      "rewards/margins": 14.6422700881958,
+      "rewards/rejected": -18.537677764892578,
       "step": 790
     },
     {
+      "epoch": 1.67,
+      "learning_rate": 7.740495722810269e-08,
+      "logits/chosen": -0.13722161948680878,
+      "logits/rejected": -0.8848565220832825,
+      "logps/chosen": -734.0003662109375,
+      "logps/rejected": -2482.77490234375,
+      "loss": 0.3646,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -4.181973934173584,
+      "rewards/margins": 17.644306182861328,
+      "rewards/rejected": -21.826278686523438,
       "step": 800
     },
     {
       "epoch": 1.7,
+      "learning_rate": 6.790558119157597e-08,
+      "logits/chosen": -0.0752606987953186,
+      "logits/rejected": -0.6523066163063049,
+      "logps/chosen": -913.1563720703125,
+      "logps/rejected": -2458.097412109375,
+      "loss": 0.3615,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -5.732936859130859,
+      "rewards/margins": 15.887182235717773,
+      "rewards/rejected": -21.620121002197266,
+      "step": 810
     },
     {
       "epoch": 1.72,
+      "learning_rate": 5.898544083397e-08,
+      "logits/chosen": 0.020809601992368698,
+      "logits/rejected": -0.5849136114120483,
+      "logps/chosen": -540.7110595703125,
+      "logps/rejected": -2217.325927734375,
+      "loss": 0.3579,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -2.4081716537475586,
+      "rewards/margins": 16.857872009277344,
+      "rewards/rejected": -19.266042709350586,
+      "step": 820
     },
     {
       "epoch": 1.74,
+      "learning_rate": 5.065649387408705e-08,
+      "logits/chosen": -0.09206173568964005,
+      "logits/rejected": -0.7031819224357605,
+      "logps/chosen": -1010.9982299804688,
+      "logps/rejected": -2271.75537109375,
+      "loss": 0.3578,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -6.834753513336182,
+      "rewards/margins": 12.86634349822998,
+      "rewards/rejected": -19.701095581054688,
+      "step": 830
     },
     {
       "epoch": 1.76,
+      "learning_rate": 4.292990551804171e-08,
+      "logits/chosen": -0.19090762734413147,
+      "logits/rejected": -0.7296367883682251,
+      "logps/chosen": -932.6066284179688,
+      "logps/rejected": -2595.78759765625,
+      "loss": 0.3589,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -6.08009672164917,
+      "rewards/margins": 16.833927154541016,
+      "rewards/rejected": -22.914024353027344,
+      "step": 840
     },
     {
       "epoch": 1.78,
+      "learning_rate": 3.581603349196371e-08,
+      "logits/chosen": -0.07513806223869324,
+      "logits/rejected": -0.844355583190918,
+      "logps/chosen": -655.0567626953125,
+      "logps/rejected": -2801.64501953125,
+      "loss": 0.3561,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -3.282649517059326,
+      "rewards/margins": 21.719741821289062,
+      "rewards/rejected": -25.002391815185547,
+      "step": 850
     },
     {
       "epoch": 1.8,
+      "learning_rate": 2.9324414157151367e-08,
+      "logits/chosen": -0.12824216485023499,
+      "logits/rejected": -0.7398759126663208,
+      "logps/chosen": -818.0006103515625,
+      "logps/rejected": -2734.663818359375,
+      "loss": 0.3529,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -4.799277305603027,
+      "rewards/margins": 19.707080841064453,
+      "rewards/rejected": -24.506359100341797,
+      "step": 860
     },
     {
       "epoch": 1.82,
+      "learning_rate": 2.3463749726290284e-08,
+      "logits/chosen": -0.22140809893608093,
+      "logits/rejected": -0.7506135702133179,
+      "logps/chosen": -939.72900390625,
+      "logps/rejected": -2747.75537109375,
+      "loss": 0.3642,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -6.083466053009033,
+      "rewards/margins": 18.29672622680664,
+      "rewards/rejected": -24.380191802978516,
+      "step": 870
     },
     {
       "epoch": 1.84,
+      "learning_rate": 1.824189659787284e-08,
+      "logits/chosen": -0.051941704005002975,
+      "logits/rejected": -0.5002130270004272,
+      "logps/chosen": -670.8041381835938,
+      "logps/rejected": -2170.00439453125,
+      "loss": 0.3627,
       "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -3.512953519821167,
+      "rewards/margins": 15.10865306854248,
+      "rewards/rejected": -18.621606826782227,
+      "step": 880
     },
     {
       "epoch": 1.86,
+      "learning_rate": 1.3665854824458035e-08,
+      "logits/chosen": -0.14072179794311523,
+      "logits/rejected": -0.6090524792671204,
+      "logps/chosen": -987.47119140625,
+      "logps/rejected": -2067.42236328125,
+      "loss": 0.3647,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -6.492043972015381,
+      "rewards/margins": 11.107647895812988,
+      "rewards/rejected": -17.599689483642578,
+      "step": 890
     },
     {
       "epoch": 1.88,
+      "learning_rate": 9.741758728888217e-09,
+      "logits/chosen": -0.022175291553139687,
+      "logits/rejected": -0.6860365271568298,
+      "logps/chosen": -564.6074829101562,
+      "logps/rejected": -2140.48681640625,
+      "loss": 0.3545,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -2.2749757766723633,
+      "rewards/margins": 15.992487907409668,
+      "rewards/rejected": -18.2674617767334,
+      "step": 900
     },
     {
       "epoch": 1.91,
+      "learning_rate": 6.474868681043577e-09,
+      "logits/chosen": -0.09770497679710388,
+      "logits/rejected": -0.611740231513977,
+      "logps/chosen": -823.6361083984375,
+      "logps/rejected": -2548.73388671875,
+      "loss": 0.3561,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -5.1007561683654785,
+      "rewards/margins": 17.229694366455078,
+      "rewards/rejected": -22.330448150634766,
+      "step": 910
     },
     {
       "epoch": 1.93,
+      "learning_rate": 3.869564046156459e-09,
+      "logits/chosen": -0.051595211029052734,
+      "logits/rejected": -0.6881163716316223,
+      "logps/chosen": -818.4075927734375,
+      "logps/rejected": -2222.89892578125,
+      "loss": 0.3632,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -5.061829566955566,
+      "rewards/margins": 14.042346000671387,
+      "rewards/rejected": -19.104175567626953,
+      "step": 920
     },
     {
       "epoch": 1.95,
+      "learning_rate": 1.929337314139412e-09,
+      "logits/chosen": -0.2066664695739746,
+      "logits/rejected": -0.7445483803749084,
+      "logps/chosen": -808.8455200195312,
+      "logps/rejected": -2086.377197265625,
+      "loss": 0.3643,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -5.122731685638428,
+      "rewards/margins": 12.991943359375,
+      "rewards/rejected": -18.114675521850586,
+      "step": 930
     },
     {
       "epoch": 1.97,
+      "learning_rate": 6.567894177967325e-10,
+      "logits/chosen": 0.007280481047928333,
+      "logits/rejected": -0.49907398223876953,
+      "logps/chosen": -689.2498779296875,
+      "logps/rejected": -2379.00048828125,
+      "loss": 0.3578,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -3.5881881713867188,
+      "rewards/margins": 17.178848266601562,
+      "rewards/rejected": -20.767038345336914,
+      "step": 940
     },
     {
       "epoch": 1.99,
+      "learning_rate": 5.3626246194704575e-11,
+      "logits/chosen": -0.05890023708343506,
+      "logits/rejected": -0.6455780863761902,
+      "logps/chosen": -604.0885009765625,
+      "logps/rejected": -2217.527099609375,
+      "loss": 0.366,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -3.149109363555908,
+      "rewards/margins": 16.183589935302734,
+      "rewards/rejected": -19.332698822021484,
+      "step": 950
     },
     {
       "epoch": 2.0,
+      "step": 954,
       "total_flos": 0.0,
+      "train_loss": 0.39703809490243847,
+      "train_runtime": 12665.7954,
+      "train_samples_per_second": 9.653,
+      "train_steps_per_second": 0.075
     }
   ],
   "logging_steps": 10,
+  "max_steps": 954,
   "num_train_epochs": 2,
   "save_steps": 10000,
   "total_flos": 0.0,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:072f43def2f0cfd813f5885acb43461e138fab8cca306b121a33c9104652c789
 size 6648

 version https://git-lfs.github.com/spec/v1
+oid sha256:1397e8512176db34249f7cc8cdf6db6939284d3b90a77a3bb793ba3757e0ba4c
 size 6648