Model save

Browse files

Files changed (9) hide show

README.md +2 -2
all_results.json +4 -4
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +863 -359
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -32,7 +32,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 6e-07
 - train_batch_size: 2
 - eval_batch_size: 8
 - seed: 1
@@ -44,7 +44,7 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 1
 ### Training results

 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 2e-06
 - train_batch_size: 2
 - eval_batch_size: 8
 - seed: 1
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 2
 ### Training results

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "train_loss": 0.3690809929874581,
-    "train_runtime": 4080.3754,
     "train_samples": 45548,
-    "train_samples_per_second": 11.163,
     "train_steps_per_second": 0.087
 }

 {
+    "epoch": 2.0,
+    "train_loss": 0.18113358499298632,
+    "train_runtime": 8124.3794,
     "train_samples": 45548,
+    "train_samples_per_second": 11.213,
     "train_steps_per_second": 0.087
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f4f17433bd2d92dc7cba649a1503479b1dc8c8665c4e62f92c826f216cf894b
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:5e0f852f610b5179bc0d46ffe89d5644556da8841082b008cdae3c65d2a759bb
 size 4976698672

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f99a126079cf2dcf1947e1129268693ee9f95527ce5bdbc64e5f851e8fdec1b9
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2b594dde7a8f834fedff85680da6838d81c3edbfb2b21c505fa6c3c19bf968f
 size 4999802720

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b7dad13c05b9a2f45ddd42755d8c6729604dc624e5e075767fde2e3814155ed
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:efd9bdaaa5dc9e6569743b905fb69b653c0deaca599081e9a0b714570bd74b7b
 size 4915916176

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb498df1142ca494ee28ebb8f0486463a4ef22dafb34834e534d0f9cc3ba890b
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:4291b6d92a0c55352fc37c06c9f74edafeb0cfa5b292a4fa380c79ded3be2a05
 size 1168138808

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "train_loss": 0.3690809929874581,
-    "train_runtime": 4080.3754,
     "train_samples": 45548,
-    "train_samples_per_second": 11.163,
     "train_steps_per_second": 0.087
 }

 {
+    "epoch": 2.0,
+    "train_loss": 0.18113358499298632,
+    "train_runtime": 8124.3794,
     "train_samples": 45548,
+    "train_samples_per_second": 11.213,
     "train_steps_per_second": 0.087
 }

trainer_state.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9975412715138743,
   "eval_steps": 10000,
-  "global_step": 355,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 1.6666666666666664e-08,
       "logits/chosen": -0.20257116854190826,
       "logits/rejected": -0.07568661123514175,
       "logps/chosen": -521.0269775390625,
@@ -24,507 +24,1011 @@
     },
     {
       "epoch": 0.03,
-      "learning_rate": 1.6666666666666668e-07,
-      "logits/chosen": -0.1373891830444336,
-      "logits/rejected": -0.08751454204320908,
-      "logps/chosen": -345.7755126953125,
-      "logps/rejected": -280.5328369140625,
-      "loss": 0.3324,
-      "rewards/accuracies": 0.4305555522441864,
-      "rewards/chosen": 0.0009845916647464037,
-      "rewards/margins": -0.000507845135871321,
-      "rewards/rejected": 0.0014924367424100637,
       "step": 10
     },
     {
       "epoch": 0.06,
-      "learning_rate": 3.3333333333333335e-07,
-      "logits/chosen": -0.09530053287744522,
-      "logits/rejected": -0.057766783982515335,
-      "logps/chosen": -331.8036193847656,
-      "logps/rejected": -241.38040161132812,
-      "loss": 0.3273,
-      "rewards/accuracies": 0.5249999761581421,
-      "rewards/chosen": 0.0003432310186326504,
-      "rewards/margins": 0.0036160368472337723,
-      "rewards/rejected": -0.0032728048972785473,
       "step": 20
     },
     {
       "epoch": 0.08,
-      "learning_rate": 5e-07,
-      "logits/chosen": -0.05748342350125313,
-      "logits/rejected": -0.0007677968824282289,
-      "logps/chosen": -387.08172607421875,
-      "logps/rejected": -252.73422241210938,
-      "loss": 0.3304,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": 0.005954659543931484,
-      "rewards/margins": 0.0251843873411417,
-      "rewards/rejected": -0.01922973059117794,
       "step": 30
     },
     {
       "epoch": 0.11,
-      "learning_rate": 5.997672586985958e-07,
-      "logits/chosen": -0.07639958709478378,
-      "logits/rejected": -0.022928383201360703,
-      "logps/chosen": -336.4403381347656,
-      "logps/rejected": -264.67816162109375,
-      "loss": 0.3471,
-      "rewards/accuracies": 0.4937500059604645,
-      "rewards/chosen": -0.012622691690921783,
-      "rewards/margins": 0.028503477573394775,
-      "rewards/rejected": -0.04112616926431656,
       "step": 40
     },
     {
       "epoch": 0.14,
-      "learning_rate": 5.971530645651517e-07,
-      "logits/chosen": -0.03327672928571701,
-      "logits/rejected": 0.012270031496882439,
-      "logps/chosen": -337.4351501464844,
-      "logps/rejected": -274.238037109375,
-      "loss": 0.3628,
-      "rewards/accuracies": 0.59375,
-      "rewards/chosen": -0.037199534475803375,
-      "rewards/margins": 0.07937473058700562,
-      "rewards/rejected": -0.11657427251338959,
       "step": 50
     },
     {
       "epoch": 0.17,
-      "learning_rate": 5.916591683996543e-07,
-      "logits/chosen": -0.11650659143924713,
-      "logits/rejected": -0.05357403680682182,
-      "logps/chosen": -427.34234619140625,
-      "logps/rejected": -269.29986572265625,
-      "loss": 0.3787,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.0501934215426445,
-      "rewards/margins": 0.18952855467796326,
-      "rewards/rejected": -0.23972198367118835,
       "step": 60
     },
     {
       "epoch": 0.2,
-      "learning_rate": 5.833388113960816e-07,
-      "logits/chosen": -0.12481005489826202,
-      "logits/rejected": -0.005098237190395594,
-      "logps/chosen": -416.65228271484375,
-      "logps/rejected": -284.81597900390625,
-      "loss": 0.3807,
-      "rewards/accuracies": 0.59375,
-      "rewards/chosen": -0.09515923261642456,
-      "rewards/margins": 0.1445816308259964,
-      "rewards/rejected": -0.23974089324474335,
       "step": 70
     },
     {
       "epoch": 0.22,
-      "learning_rate": 5.722726259012871e-07,
-      "logits/chosen": -0.05684986710548401,
-      "logits/rejected": -0.04887344688177109,
-      "logps/chosen": -294.81927490234375,
-      "logps/rejected": -225.86239624023438,
-      "loss": 0.3878,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": -0.07498661428689957,
-      "rewards/margins": 0.1458462029695511,
-      "rewards/rejected": -0.22083279490470886,
       "step": 80
     },
     {
       "epoch": 0.25,
-      "learning_rate": 5.585678540091831e-07,
-      "logits/chosen": -0.17602315545082092,
-      "logits/rejected": -0.11405785381793976,
-      "logps/chosen": -396.6595153808594,
-      "logps/rejected": -251.8555450439453,
-      "loss": 0.4019,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": 0.04193733260035515,
-      "rewards/margins": 0.31379786133766174,
-      "rewards/rejected": -0.2718605399131775,
       "step": 90
     },
     {
       "epoch": 0.28,
-      "learning_rate": 5.423573082806102e-07,
-      "logits/chosen": -0.14118409156799316,
-      "logits/rejected": -0.12395182996988297,
-      "logps/chosen": -367.1158142089844,
-      "logps/rejected": -290.043701171875,
-      "loss": 0.4055,
-      "rewards/accuracies": 0.6187499761581421,
-      "rewards/chosen": 0.0070620388723909855,
-      "rewards/margins": 0.13053932785987854,
-      "rewards/rejected": -0.12347729504108429,
       "step": 100
     },
     {
       "epoch": 0.31,
-      "learning_rate": 5.237980846605272e-07,
-      "logits/chosen": -0.21393266320228577,
-      "logits/rejected": -0.147337406873703,
-      "logps/chosen": -323.988037109375,
-      "logps/rejected": -283.0029296875,
-      "loss": 0.387,
-      "rewards/accuracies": 0.5249999761581421,
-      "rewards/chosen": 0.039300259202718735,
-      "rewards/margins": 0.07628022134304047,
-      "rewards/rejected": -0.036979954689741135,
       "step": 110
     },
     {
       "epoch": 0.34,
-      "learning_rate": 5.030700400656054e-07,
-      "logits/chosen": -0.1691286861896515,
-      "logits/rejected": -0.14601187407970428,
-      "logps/chosen": -320.6222839355469,
-      "logps/rejected": -222.4764862060547,
-      "loss": 0.3776,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": 0.11762751638889313,
-      "rewards/margins": 0.16835612058639526,
-      "rewards/rejected": -0.05072859674692154,
       "step": 120
     },
     {
       "epoch": 0.37,
-      "learning_rate": 4.803740493958825e-07,
-      "logits/chosen": -0.1492381989955902,
-      "logits/rejected": -0.08098205178976059,
-      "logps/chosen": -373.0888671875,
-      "logps/rejected": -238.7802734375,
-      "loss": 0.3805,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": 0.13058921694755554,
-      "rewards/margins": 0.2242775857448578,
-      "rewards/rejected": -0.09368837624788284,
       "step": 130
     },
     {
       "epoch": 0.39,
-      "learning_rate": 4.55930058861729e-07,
-      "logits/chosen": -0.08527354896068573,
-      "logits/rejected": -0.07073564827442169,
-      "logps/chosen": -332.2552490234375,
-      "logps/rejected": -256.6856994628906,
-      "loss": 0.3667,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": 0.04465603083372116,
-      "rewards/margins": 0.1187175065279007,
-      "rewards/rejected": -0.07406148314476013,
       "step": 140
     },
     {
       "epoch": 0.42,
-      "learning_rate": 4.299749544912791e-07,
-      "logits/chosen": -0.06994438916444778,
-      "logits/rejected": -0.0168614462018013,
-      "logps/chosen": -304.38177490234375,
-      "logps/rejected": -260.00445556640625,
-      "loss": 0.3768,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": 0.007120351307094097,
-      "rewards/margins": 0.1270408183336258,
-      "rewards/rejected": -0.11992046982049942,
       "step": 150
     },
     {
       "epoch": 0.45,
-      "learning_rate": 4.027602664745615e-07,
-      "logits/chosen": -0.15323472023010254,
-      "logits/rejected": -0.04593028873205185,
-      "logps/chosen": -379.24261474609375,
-      "logps/rejected": -269.5823669433594,
-      "loss": 0.376,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": 0.06589729338884354,
-      "rewards/margins": 0.18567749857902527,
-      "rewards/rejected": -0.11978019773960114,
       "step": 160
     },
     {
       "epoch": 0.48,
-      "learning_rate": 3.745497315914682e-07,
-      "logits/chosen": -0.013535602018237114,
-      "logits/rejected": 0.018643662333488464,
-      "logps/chosen": -328.8080139160156,
-      "logps/rejected": -276.9248352050781,
-      "loss": 0.3666,
-      "rewards/accuracies": 0.5874999761581421,
-      "rewards/chosen": 0.029607612639665604,
-      "rewards/margins": 0.15850290656089783,
-      "rewards/rejected": -0.12889528274536133,
       "step": 170
     },
     {
       "epoch": 0.51,
-      "learning_rate": 3.4561673734600165e-07,
-      "logits/chosen": -0.13275566697120667,
-      "logits/rejected": -0.020833751186728477,
-      "logps/chosen": -342.6797180175781,
-      "logps/rejected": -269.35284423828125,
-      "loss": 0.3702,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": -0.01415695808827877,
-      "rewards/margins": 0.15856146812438965,
-      "rewards/rejected": -0.17271842062473297,
       "step": 180
     },
     {
       "epoch": 0.53,
-      "learning_rate": 3.162416725756253e-07,
-      "logits/chosen": -0.13924065232276917,
-      "logits/rejected": -0.04883600026369095,
-      "logps/chosen": -348.85302734375,
-      "logps/rejected": -245.0505828857422,
-      "loss": 0.3633,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": 0.07588053494691849,
-      "rewards/margins": 0.23258164525032043,
-      "rewards/rejected": -0.15670111775398254,
       "step": 190
     },
     {
       "epoch": 0.56,
-      "learning_rate": 2.8670921021088637e-07,
-      "logits/chosen": -0.21472378075122833,
-      "logits/rejected": -0.10051591694355011,
-      "logps/chosen": -329.66375732421875,
-      "logps/rejected": -258.19708251953125,
-      "loss": 0.3762,
-      "rewards/accuracies": 0.550000011920929,
-      "rewards/chosen": 0.0037776001263409853,
-      "rewards/margins": 0.14271879196166992,
-      "rewards/rejected": -0.1389411985874176,
       "step": 200
     },
     {
       "epoch": 0.59,
-      "learning_rate": 2.5730554851801445e-07,
-      "logits/chosen": -0.08867742121219635,
-      "logits/rejected": -0.011654907837510109,
-      "logps/chosen": -397.9272766113281,
-      "logps/rejected": -282.2477722167969,
-      "loss": 0.368,
-      "rewards/accuracies": 0.581250011920929,
-      "rewards/chosen": 0.04778025299310684,
-      "rewards/margins": 0.1878301203250885,
-      "rewards/rejected": -0.14004988968372345,
       "step": 210
     },
     {
       "epoch": 0.62,
-      "learning_rate": 2.2831563755953257e-07,
-      "logits/chosen": -0.14884492754936218,
-      "logits/rejected": -0.07271833717823029,
-      "logps/chosen": -392.21148681640625,
-      "logps/rejected": -283.1535339355469,
-      "loss": 0.37,
-      "rewards/accuracies": 0.6187499761581421,
-      "rewards/chosen": -0.015015458688139915,
-      "rewards/margins": 0.16640064120292664,
-      "rewards/rejected": -0.1814161092042923,
       "step": 220
     },
     {
       "epoch": 0.65,
-      "learning_rate": 2.0002041775117676e-07,
-      "logits/chosen": -0.02442442998290062,
-      "logits/rejected": 0.09585187584161758,
-      "logps/chosen": -347.29718017578125,
-      "logps/rejected": -259.71417236328125,
-      "loss": 0.354,
-      "rewards/accuracies": 0.6187499761581421,
-      "rewards/chosen": 0.030735868960618973,
-      "rewards/margins": 0.19112178683280945,
-      "rewards/rejected": -0.16038593649864197,
       "step": 230
     },
     {
       "epoch": 0.67,
-      "learning_rate": 1.7269409727619003e-07,
-      "logits/chosen": -0.1566091626882553,
-      "logits/rejected": -0.05667473003268242,
-      "logps/chosen": -358.17559814453125,
-      "logps/rejected": -256.12359619140625,
-      "loss": 0.3523,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": 0.006419791374355555,
-      "rewards/margins": 0.17600928246974945,
-      "rewards/rejected": -0.16958951950073242,
       "step": 240
     },
     {
       "epoch": 0.7,
-      "learning_rate": 1.4660149474149333e-07,
-      "logits/chosen": -0.20844526588916779,
-      "logits/rejected": -0.11610259860754013,
-      "logps/chosen": -375.3673400878906,
-      "logps/rejected": -258.17755126953125,
-      "loss": 0.3681,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": 0.06525658071041107,
-      "rewards/margins": 0.23956258594989777,
-      "rewards/rejected": -0.1743059903383255,
       "step": 250
     },
     {
       "epoch": 0.73,
-      "learning_rate": 1.2199547282797668e-07,
-      "logits/chosen": -0.2157951295375824,
-      "logits/rejected": -0.14467604458332062,
-      "logps/chosen": -356.88177490234375,
-      "logps/rejected": -262.650634765625,
-      "loss": 0.373,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": 0.04438536614179611,
-      "rewards/margins": 0.21440760791301727,
-      "rewards/rejected": -0.17002221941947937,
       "step": 260
     },
     {
       "epoch": 0.76,
-      "learning_rate": 9.911448780533683e-08,
-      "logits/chosen": -0.10362567752599716,
-      "logits/rejected": -0.0793529748916626,
-      "logps/chosen": -341.40643310546875,
-      "logps/rejected": -265.728759765625,
-      "loss": 0.354,
       "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": -0.02589365281164646,
-      "rewards/margins": 0.18927648663520813,
-      "rewards/rejected": -0.21517011523246765,
       "step": 270
     },
     {
       "epoch": 0.79,
-      "learning_rate": 7.818027865904066e-08,
-      "logits/chosen": -0.06940381973981857,
-      "logits/rejected": 0.005552980117499828,
-      "logps/chosen": -392.7503967285156,
-      "logps/rejected": -266.26336669921875,
-      "loss": 0.3726,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": 0.0008523270371370018,
-      "rewards/margins": 0.23990051448345184,
-      "rewards/rejected": -0.23904819786548615,
       "step": 280
     },
     {
       "epoch": 0.81,
-      "learning_rate": 5.939571822402344e-08,
-      "logits/chosen": -0.0072554959915578365,
-      "logits/rejected": 0.09928109496831894,
-      "logps/chosen": -357.13214111328125,
-      "logps/rejected": -278.2020568847656,
-      "loss": 0.3673,
-      "rewards/accuracies": 0.581250011920929,
-      "rewards/chosen": -0.05366254597902298,
-      "rewards/margins": 0.1507035791873932,
-      "rewards/rejected": -0.20436611771583557,
       "step": 290
     },
     {
       "epoch": 0.84,
-      "learning_rate": 4.294284714972328e-08,
-      "logits/chosen": -0.1297733187675476,
-      "logits/rejected": 0.023598220199346542,
-      "logps/chosen": -373.9766845703125,
-      "logps/rejected": -266.6443786621094,
-      "loss": 0.3664,
-      "rewards/accuracies": 0.581250011920929,
-      "rewards/chosen": 0.03205788880586624,
-      "rewards/margins": 0.22466811537742615,
-      "rewards/rejected": -0.1926102191209793,
       "step": 300
     },
     {
       "epoch": 0.87,
-      "learning_rate": 2.898110974924204e-08,
-      "logits/chosen": -0.12901733815670013,
-      "logits/rejected": -0.009932445362210274,
-      "logps/chosen": -342.9382629394531,
-      "logps/rejected": -265.42694091796875,
-      "loss": 0.3671,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": -0.021569866687059402,
-      "rewards/margins": 0.21053311228752136,
-      "rewards/rejected": -0.23210299015045166,
       "step": 310
     },
     {
       "epoch": 0.9,
-      "learning_rate": 1.7645808828970386e-08,
-      "logits/chosen": -0.042768631130456924,
-      "logits/rejected": 0.015888463705778122,
-      "logps/chosen": -334.8662109375,
-      "logps/rejected": -274.4682922363281,
-      "loss": 0.3668,
-      "rewards/accuracies": 0.543749988079071,
-      "rewards/chosen": -0.02143627032637596,
-      "rewards/margins": 0.15031638741493225,
-      "rewards/rejected": -0.17175263166427612,
       "step": 320
     },
     {
       "epoch": 0.93,
-      "learning_rate": 9.046794472876795e-09,
-      "logits/chosen": -0.14016547799110413,
-      "logits/rejected": -0.05904890224337578,
-      "logps/chosen": -413.7017517089844,
-      "logps/rejected": -300.39898681640625,
-      "loss": 0.3653,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": 0.01573246344923973,
-      "rewards/margins": 0.22949358820915222,
-      "rewards/rejected": -0.2137611210346222,
       "step": 330
     },
     {
       "epoch": 0.96,
-      "learning_rate": 3.2673994884191645e-09,
-      "logits/chosen": -0.1197160929441452,
-      "logits/rejected": -0.031962133944034576,
-      "logps/chosen": -352.93072509765625,
-      "logps/rejected": -263.76800537109375,
-      "loss": 0.3739,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": -0.021505916491150856,
-      "rewards/margins": 0.21374592185020447,
-      "rewards/rejected": -0.23525182902812958,
       "step": 340
     },
     {
       "epoch": 0.98,
-      "learning_rate": 3.636318306395547e-10,
-      "logits/chosen": -0.15480563044548035,
-      "logits/rejected": -0.10061918199062347,
-      "logps/chosen": -362.84967041015625,
-      "logps/rejected": -271.993408203125,
-      "loss": 0.3781,
-      "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": -0.013031726703047752,
-      "rewards/margins": 0.21329036355018616,
-      "rewards/rejected": -0.22632208466529846,
       "step": 350
     },
     {
-      "epoch": 1.0,
-      "step": 355,
       "total_flos": 0.0,
-      "train_loss": 0.3690809929874581,
-      "train_runtime": 4080.3754,
-      "train_samples_per_second": 11.163,
       "train_steps_per_second": 0.087
     }
   ],
   "logging_steps": 10,
-  "max_steps": 355,
-  "num_train_epochs": 1,
   "save_steps": 10000,
   "total_flos": 0.0,
   "trial_name": null,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9950825430277486,
   "eval_steps": 10000,
+  "global_step": 710,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 2.816901408450704e-08,
       "logits/chosen": -0.20257116854190826,
       "logits/rejected": -0.07568661123514175,
       "logps/chosen": -521.0269775390625,
     },
     {
       "epoch": 0.03,
+      "learning_rate": 2.8169014084507043e-07,
+      "logits/chosen": -0.13755783438682556,
+      "logits/rejected": -0.08772192895412445,
+      "logps/chosen": -345.8690185546875,
+      "logps/rejected": -280.64691162109375,
+      "loss": 0.3323,
+      "rewards/accuracies": 0.4513888955116272,
+      "rewards/chosen": 4.912400618195534e-05,
+      "rewards/margins": -0.00030259901541285217,
+      "rewards/rejected": 0.0003517230798024684,
       "step": 10
     },
     {
       "epoch": 0.06,
+      "learning_rate": 5.633802816901409e-07,
+      "logits/chosen": -0.0957806184887886,
+      "logits/rejected": -0.057603687047958374,
+      "logps/chosen": -331.79766845703125,
+      "logps/rejected": -241.81185913085938,
+      "loss": 0.329,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": 0.0004024081281386316,
+      "rewards/margins": 0.00799016747623682,
+      "rewards/rejected": -0.007587759289890528,
       "step": 20
     },
     {
       "epoch": 0.08,
+      "learning_rate": 8.450704225352112e-07,
+      "logits/chosen": -0.05522637814283371,
+      "logits/rejected": 0.0007691409555263817,
+      "logps/chosen": -387.5187072753906,
+      "logps/rejected": -256.33380126953125,
+      "loss": 0.3393,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": 0.0015848552575334907,
+      "rewards/margins": 0.056810565292835236,
+      "rewards/rejected": -0.05522570759057999,
       "step": 30
     },
     {
       "epoch": 0.11,
+      "learning_rate": 1.1267605633802817e-06,
+      "logits/chosen": -0.07449092715978622,
+      "logits/rejected": -0.021578723564743996,
+      "logps/chosen": -341.57391357421875,
+      "logps/rejected": -272.60400390625,
+      "loss": 0.3699,
+      "rewards/accuracies": 0.518750011920929,
+      "rewards/chosen": -0.0639580637216568,
+      "rewards/margins": 0.056426145136356354,
+      "rewards/rejected": -0.12038421630859375,
       "step": 40
     },
     {
       "epoch": 0.14,
+      "learning_rate": 1.408450704225352e-06,
+      "logits/chosen": -0.06206550449132919,
+      "logits/rejected": -0.011999653652310371,
+      "logps/chosen": -344.6331787109375,
+      "logps/rejected": -287.69635009765625,
+      "loss": 0.3883,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.10917987674474716,
+      "rewards/margins": 0.14197741448879242,
+      "rewards/rejected": -0.251157283782959,
       "step": 50
     },
     {
       "epoch": 0.17,
+      "learning_rate": 1.6901408450704225e-06,
+      "logits/chosen": -0.17808644473552704,
+      "logits/rejected": -0.11181376129388809,
+      "logps/chosen": -425.6441345214844,
+      "logps/rejected": -281.8149108886719,
+      "loss": 0.3986,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.03321179002523422,
+      "rewards/margins": 0.33166056871414185,
+      "rewards/rejected": -0.36487236618995667,
       "step": 60
     },
     {
       "epoch": 0.2,
+      "learning_rate": 1.971830985915493e-06,
+      "logits/chosen": -0.17757034301757812,
+      "logits/rejected": -0.054698117077350616,
+      "logps/chosen": -403.33819580078125,
+      "logps/rejected": -279.6980895996094,
+      "loss": 0.3837,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": 0.03798174858093262,
+      "rewards/margins": 0.2265440672636032,
+      "rewards/rejected": -0.1885623335838318,
       "step": 70
     },
     {
       "epoch": 0.22,
+      "learning_rate": 1.9990212265199736e-06,
+      "logits/chosen": -0.1993887722492218,
+      "logits/rejected": -0.19502341747283936,
+      "logps/chosen": -284.59423828125,
+      "logps/rejected": -219.568359375,
+      "loss": 0.3918,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": 0.027263695374131203,
+      "rewards/margins": 0.18515612185001373,
+      "rewards/rejected": -0.1578924059867859,
       "step": 80
     },
     {
       "epoch": 0.25,
+      "learning_rate": 1.995640271796129e-06,
+      "logits/chosen": -0.3508986830711365,
+      "logits/rejected": -0.2989083230495453,
+      "logps/chosen": -388.96124267578125,
+      "logps/rejected": -249.9578094482422,
+      "loss": 0.3972,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": 0.1189202070236206,
+      "rewards/margins": 0.3718037009239197,
+      "rewards/rejected": -0.25288352370262146,
       "step": 90
     },
     {
       "epoch": 0.28,
+      "learning_rate": 1.9898532207817787e-06,
+      "logits/chosen": -0.13028475642204285,
+      "logits/rejected": -0.12288811057806015,
+      "logps/chosen": -375.6239929199219,
+      "logps/rejected": -300.58013916015625,
+      "loss": 0.3681,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.078019879758358,
+      "rewards/margins": 0.1508217304944992,
+      "rewards/rejected": -0.2288416177034378,
       "step": 100
     },
     {
       "epoch": 0.31,
+      "learning_rate": 1.9816740586504575e-06,
+      "logits/chosen": -0.09742162376642227,
+      "logits/rejected": -0.04224073141813278,
+      "logps/chosen": -351.0619201660156,
+      "logps/rejected": -310.95257568359375,
+      "loss": 0.3116,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.23143887519836426,
+      "rewards/margins": 0.0850377082824707,
+      "rewards/rejected": -0.3164765536785126,
       "step": 110
     },
     {
       "epoch": 0.34,
+      "learning_rate": 1.971122551428331e-06,
+      "logits/chosen": -0.10740338265895844,
+      "logits/rejected": -0.07498879730701447,
+      "logps/chosen": -354.75677490234375,
+      "logps/rejected": -261.3316955566406,
+      "loss": 0.3164,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.22371773421764374,
+      "rewards/margins": 0.21556267142295837,
+      "rewards/rejected": -0.4392804205417633,
       "step": 120
     },
     {
       "epoch": 0.37,
+      "learning_rate": 1.9582241982269803e-06,
+      "logits/chosen": -0.090018130838871,
+      "logits/rejected": -0.013507525436580181,
+      "logps/chosen": -415.02020263671875,
+      "logps/rejected": -290.92144775390625,
+      "loss": 0.3473,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.28872472047805786,
+      "rewards/margins": 0.3263753056526184,
+      "rewards/rejected": -0.6151000261306763,
       "step": 130
     },
     {
       "epoch": 0.39,
+      "learning_rate": 1.9430101696214336e-06,
+      "logits/chosen": -0.1004706472158432,
+      "logits/rejected": -0.08849872648715973,
+      "logps/chosen": -363.7771301269531,
+      "logps/rejected": -290.38299560546875,
+      "loss": 0.3338,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.2705627381801605,
+      "rewards/margins": 0.14047202467918396,
+      "rewards/rejected": -0.4110347628593445,
       "step": 140
     },
     {
       "epoch": 0.42,
+      "learning_rate": 1.9255172323223463e-06,
+      "logits/chosen": -0.04992828518152237,
+      "logits/rejected": 0.011964783072471619,
+      "logps/chosen": -336.70928955078125,
+      "logps/rejected": -298.07611083984375,
+      "loss": 0.3193,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -0.31615492701530457,
+      "rewards/margins": 0.1844826191663742,
+      "rewards/rejected": -0.5006375312805176,
       "step": 150
     },
     {
       "epoch": 0.45,
+      "learning_rate": 1.905787660324391e-06,
+      "logits/chosen": -0.011503048241138458,
+      "logits/rejected": 0.1220928207039833,
+      "logps/chosen": -424.7059631347656,
+      "logps/rejected": -320.0885009765625,
+      "loss": 0.3057,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.3887358605861664,
+      "rewards/margins": 0.23610559105873108,
+      "rewards/rejected": -0.6248414516448975,
       "step": 160
     },
     {
       "epoch": 0.48,
+      "learning_rate": 1.8838691327455609e-06,
+      "logits/chosen": -0.026822054758667946,
+      "logits/rejected": 0.04267163202166557,
+      "logps/chosen": -369.6314392089844,
+      "logps/rejected": -326.5650329589844,
+      "loss": 0.3049,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.37862712144851685,
+      "rewards/margins": 0.2466701716184616,
+      "rewards/rejected": -0.6252972483634949,
       "step": 170
     },
     {
       "epoch": 0.51,
+      "learning_rate": 1.8598146186042808e-06,
+      "logits/chosen": -0.2679498791694641,
+      "logits/rejected": -0.21142823994159698,
+      "logps/chosen": -383.9067687988281,
+      "logps/rejected": -319.5235900878906,
+      "loss": 0.3293,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.4264276623725891,
+      "rewards/margins": 0.24799779057502747,
+      "rewards/rejected": -0.674425482749939,
       "step": 180
     },
     {
       "epoch": 0.53,
+      "learning_rate": 1.8336822488127723e-06,
+      "logits/chosen": -0.05206901952624321,
+      "logits/rejected": 0.03507734090089798,
+      "logps/chosen": -408.74798583984375,
+      "logps/rejected": -323.0229797363281,
+      "loss": 0.284,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.5230687260627747,
+      "rewards/margins": 0.4133565425872803,
+      "rewards/rejected": -0.9364253282546997,
       "step": 190
     },
     {
       "epoch": 0.56,
+      "learning_rate": 1.805535175696026e-06,
+      "logits/chosen": -0.026757067069411278,
+      "logits/rejected": 0.11062588542699814,
+      "logps/chosen": -406.74176025390625,
+      "logps/rejected": -343.10546875,
+      "loss": 0.2943,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.7670020461082458,
+      "rewards/margins": 0.22102268040180206,
+      "rewards/rejected": -0.9880247116088867,
       "step": 200
     },
     {
       "epoch": 0.59,
+      "learning_rate": 1.7754414203758602e-06,
+      "logits/chosen": 0.09901715815067291,
+      "logits/rejected": 0.19180616736412048,
+      "logps/chosen": -463.052734375,
+      "logps/rejected": -346.2613220214844,
+      "loss": 0.2641,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.6034746766090393,
+      "rewards/margins": 0.1767103672027588,
+      "rewards/rejected": -0.7801850438117981,
       "step": 210
     },
     {
       "epoch": 0.62,
+      "learning_rate": 1.7434737083888904e-06,
+      "logits/chosen": 0.036244794726371765,
+      "logits/rejected": 0.10729759931564331,
+      "logps/chosen": -457.8307189941406,
+      "logps/rejected": -356.2217712402344,
+      "loss": 0.2726,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.6712073087692261,
+      "rewards/margins": 0.2408912628889084,
+      "rewards/rejected": -0.9120985865592957,
       "step": 220
     },
     {
       "epoch": 0.65,
+      "learning_rate": 1.709709293935662e-06,
+      "logits/chosen": 0.09133528172969818,
+      "logits/rejected": 0.2221805602312088,
+      "logps/chosen": -408.2891540527344,
+      "logps/rejected": -331.88568115234375,
+      "loss": 0.2977,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.5791844129562378,
+      "rewards/margins": 0.30291682481765747,
+      "rewards/rejected": -0.8821012377738953,
       "step": 230
     },
     {
       "epoch": 0.67,
+      "learning_rate": 1.6742297731856636e-06,
+      "logits/chosen": -0.13875767588615417,
+      "logits/rejected": -0.030141670256853104,
+      "logps/chosen": -401.0727233886719,
+      "logps/rejected": -305.03875732421875,
+      "loss": 0.301,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.4225517213344574,
+      "rewards/margins": 0.2361893206834793,
+      "rewards/rejected": -0.6587410569190979,
       "step": 240
     },
     {
       "epoch": 0.7,
+      "learning_rate": 1.6371208870894001e-06,
+      "logits/chosen": -0.11314062029123306,
+      "logits/rejected": -0.028332043439149857,
+      "logps/chosen": -430.2290954589844,
+      "logps/rejected": -321.7243957519531,
+      "loss": 0.3146,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.48336172103881836,
+      "rewards/margins": 0.32641273736953735,
+      "rewards/rejected": -0.8097743988037109,
       "step": 250
     },
     {
       "epoch": 0.73,
+      "learning_rate": 1.5984723141740574e-06,
+      "logits/chosen": -0.060978569090366364,
+      "logits/rejected": 0.013845810666680336,
+      "logps/chosen": -429.4888610839844,
+      "logps/rejected": -350.95147705078125,
+      "loss": 0.3233,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.6816853880882263,
+      "rewards/margins": 0.37134552001953125,
+      "rewards/rejected": -1.0530308485031128,
       "step": 260
     },
     {
       "epoch": 0.76,
+      "learning_rate": 1.5583774538234882e-06,
+      "logits/chosen": 0.009507184848189354,
+      "logits/rejected": 0.053323499858379364,
+      "logps/chosen": -420.3421325683594,
+      "logps/rejected": -358.8752136230469,
+      "loss": 0.2801,
       "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.8152508735656738,
+      "rewards/margins": 0.3313834071159363,
+      "rewards/rejected": -1.1466342210769653,
       "step": 270
     },
     {
       "epoch": 0.79,
+      "learning_rate": 1.5169332005662589e-06,
+      "logits/chosen": 0.036943964660167694,
+      "logits/rejected": 0.12250173091888428,
+      "logps/chosen": -484.43389892578125,
+      "logps/rejected": -375.3249816894531,
+      "loss": 0.2936,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.9159828424453735,
+      "rewards/margins": 0.4136818051338196,
+      "rewards/rejected": -1.3296645879745483,
       "step": 280
     },
     {
       "epoch": 0.81,
+      "learning_rate": 1.474239709917218e-06,
+      "logits/chosen": 0.05337507277727127,
+      "logits/rejected": 0.19436481595039368,
+      "logps/chosen": -443.375244140625,
+      "logps/rejected": -374.6485900878906,
+      "loss": 0.2803,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.916093647480011,
+      "rewards/margins": 0.25273779034614563,
+      "rewards/rejected": -1.1688312292099,
       "step": 290
     },
     {
       "epoch": 0.84,
+      "learning_rate": 1.430400156338457e-06,
+      "logits/chosen": -0.04387836158275604,
+      "logits/rejected": 0.08865033835172653,
+      "logps/chosen": -432.93719482421875,
+      "logps/rejected": -336.19378662109375,
+      "loss": 0.2739,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.5575471520423889,
+      "rewards/margins": 0.33055704832077026,
+      "rewards/rejected": -0.888104259967804,
       "step": 300
     },
     {
       "epoch": 0.87,
+      "learning_rate": 1.3855204839045892e-06,
+      "logits/chosen": -0.09471622109413147,
+      "logits/rejected": 0.04182841628789902,
+      "logps/chosen": -394.19952392578125,
+      "logps/rejected": -326.4076232910156,
+      "loss": 0.2828,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.5341824293136597,
+      "rewards/margins": 0.30772727727890015,
+      "rewards/rejected": -0.8419097661972046,
       "step": 310
     },
     {
       "epoch": 0.9,
+      "learning_rate": 1.3397091502748927e-06,
+      "logits/chosen": 0.06928735971450806,
+      "logits/rejected": 0.12053768336772919,
+      "logps/chosen": -407.7933654785156,
+      "logps/rejected": -357.62225341796875,
+      "loss": 0.3016,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.7507076263427734,
+      "rewards/margins": 0.2525845170021057,
+      "rewards/rejected": -1.0032920837402344,
       "step": 320
     },
     {
       "epoch": 0.93,
+      "learning_rate": 1.2930768645910449e-06,
+      "logits/chosen": -0.04908103495836258,
+      "logits/rejected": 0.05275033786892891,
+      "logps/chosen": -489.91741943359375,
+      "logps/rejected": -391.38861083984375,
+      "loss": 0.269,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.7464247941970825,
+      "rewards/margins": 0.3772323727607727,
+      "rewards/rejected": -1.1236572265625,
       "step": 330
     },
     {
       "epoch": 0.96,
+      "learning_rate": 1.2457363199338495e-06,
+      "logits/chosen": -0.023084616288542747,
+      "logits/rejected": 0.06722521036863327,
+      "logps/chosen": -424.7259216308594,
+      "logps/rejected": -344.1465148925781,
+      "loss": 0.2641,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.7394579648971558,
+      "rewards/margins": 0.2995792627334595,
+      "rewards/rejected": -1.0390373468399048,
       "step": 340
     },
     {
       "epoch": 0.98,
+      "learning_rate": 1.1978019209855173e-06,
+      "logits/chosen": -0.03397887200117111,
+      "logits/rejected": 0.0008539498085156083,
+      "logps/chosen": -443.153076171875,
+      "logps/rejected": -367.44195556640625,
+      "loss": 0.2896,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.816065788269043,
+      "rewards/margins": 0.3647410273551941,
+      "rewards/rejected": -1.1808068752288818,
       "step": 350
     },
     {
+      "epoch": 1.01,
+      "learning_rate": 1.14938950755563e-06,
+      "logits/chosen": -0.0028023570775985718,
+      "logits/rejected": 0.09356020390987396,
+      "logps/chosen": -409.0108947753906,
+      "logps/rejected": -419.5281677246094,
+      "loss": 0.2361,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.937981128692627,
+      "rewards/margins": 0.5299195051193237,
+      "rewards/rejected": -1.4679005146026611,
+      "step": 360
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 1.1006160746389332e-06,
+      "logits/chosen": -0.15354487299919128,
+      "logits/rejected": -0.0770144909620285,
+      "logps/chosen": -461.51806640625,
+      "logps/rejected": -445.2923278808594,
+      "loss": 0.102,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.0436856746673584,
+      "rewards/margins": 0.894515335559845,
+      "rewards/rejected": -1.9382011890411377,
+      "step": 370
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1.0515994896814731e-06,
+      "logits/chosen": -0.12813356518745422,
+      "logits/rejected": -0.008146116510033607,
+      "logps/chosen": -474.5690002441406,
+      "logps/rejected": -505.58367919921875,
+      "loss": 0.076,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -1.539747953414917,
+      "rewards/margins": 0.9511996507644653,
+      "rewards/rejected": -2.490947723388672,
+      "step": 380
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 1.002458207738333e-06,
+      "logits/chosen": 0.014720706269145012,
+      "logits/rejected": 0.19409914314746857,
+      "logps/chosen": -462.5455627441406,
+      "logps/rejected": -508.26947021484375,
+      "loss": 0.0717,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -1.7438398599624634,
+      "rewards/margins": 1.1367576122283936,
+      "rewards/rejected": -2.8805973529815674,
+      "step": 390
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 9.533109852113413e-07,
+      "logits/chosen": 0.06460610777139664,
+      "logits/rejected": 0.15287192165851593,
+      "logps/chosen": -476.78753662109375,
+      "logps/rejected": -506.93701171875,
+      "loss": 0.0591,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -1.3379477262496948,
+      "rewards/margins": 1.1289650201797485,
+      "rewards/rejected": -2.4669127464294434,
+      "step": 400
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 9.042765928585326e-07,
+      "logits/chosen": 0.21788999438285828,
+      "logits/rejected": 0.2529798150062561,
+      "logps/chosen": -483.2903747558594,
+      "logps/rejected": -527.7869262695312,
+      "loss": 0.0602,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -1.615551233291626,
+      "rewards/margins": 1.4097917079925537,
+      "rewards/rejected": -3.0253429412841797,
+      "step": 410
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 8.554735287689148e-07,
+      "logits/chosen": 0.1305566430091858,
+      "logits/rejected": 0.27758485078811646,
+      "logps/chosen": -527.9423217773438,
+      "logps/rejected": -558.6550903320312,
+      "loss": 0.062,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.9209682941436768,
+      "rewards/margins": 1.1167800426483154,
+      "rewards/rejected": -3.037747859954834,
+      "step": 420
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 8.070197319961782e-07,
+      "logits/chosen": 0.25931409001350403,
+      "logits/rejected": 0.3246735632419586,
+      "logps/chosen": -550.6995849609375,
+      "logps/rejected": -537.9232177734375,
+      "loss": 0.0486,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -1.6232093572616577,
+      "rewards/margins": 1.3964422941207886,
+      "rewards/rejected": -3.0196518898010254,
+      "step": 430
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 7.590322975433856e-07,
+      "logits/chosen": 0.2402382791042328,
+      "logits/rejected": 0.37099042534828186,
+      "logps/chosen": -511.0347595214844,
+      "logps/rejected": -555.0653686523438,
+      "loss": 0.0533,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.9829241037368774,
+      "rewards/margins": 1.3394062519073486,
+      "rewards/rejected": -3.3223304748535156,
+      "step": 440
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 7.116271933874245e-07,
+      "logits/chosen": 0.2019539177417755,
+      "logits/rejected": 0.3705137372016907,
+      "logps/chosen": -551.7188110351562,
+      "logps/rejected": -568.9718017578125,
+      "loss": 0.0512,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -1.8252284526824951,
+      "rewards/margins": 1.3718860149383545,
+      "rewards/rejected": -3.1971147060394287,
+      "step": 450
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 6.649189802270652e-07,
+      "logits/chosen": 0.2931487560272217,
+      "logits/rejected": 0.4406962990760803,
+      "logps/chosen": -505.7900390625,
+      "logps/rejected": -604.8612060546875,
+      "loss": 0.0489,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -1.829275131225586,
+      "rewards/margins": 1.4683018922805786,
+      "rewards/rejected": -3.297576904296875,
+      "step": 460
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 6.190205346318926e-07,
+      "logits/chosen": 0.15103109180927277,
+      "logits/rejected": 0.2090083360671997,
+      "logps/chosen": -548.1585693359375,
+      "logps/rejected": -613.2918701171875,
+      "loss": 0.0454,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -2.007948398590088,
+      "rewards/margins": 1.6015655994415283,
+      "rewards/rejected": -3.609513759613037,
+      "step": 470
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 5.740427762611604e-07,
+      "logits/chosen": 0.24043090641498566,
+      "logits/rejected": 0.37472882866859436,
+      "logps/chosen": -557.3897705078125,
+      "logps/rejected": -610.3823852539062,
+      "loss": 0.0382,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -2.103377103805542,
+      "rewards/margins": 1.6295030117034912,
+      "rewards/rejected": -3.732880115509033,
+      "step": 480
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 5.300943998117749e-07,
+      "logits/chosen": 0.23212356865406036,
+      "logits/rejected": 0.3468802273273468,
+      "logps/chosen": -589.6870727539062,
+      "logps/rejected": -632.7547607421875,
+      "loss": 0.0425,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -2.1241652965545654,
+      "rewards/margins": 1.638109564781189,
+      "rewards/rejected": -3.762274980545044,
+      "step": 490
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 4.872816123431976e-07,
+      "logits/chosen": 0.17420414090156555,
+      "logits/rejected": 0.3029765188694,
+      "logps/chosen": -583.6693115234375,
+      "logps/rejected": -632.7525024414062,
+      "loss": 0.0332,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -2.0016562938690186,
+      "rewards/margins": 1.703657865524292,
+      "rewards/rejected": -3.7053139209747314,
+      "step": 500
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 4.4570787661405e-07,
+      "logits/chosen": 0.24483375251293182,
+      "logits/rejected": 0.43443599343299866,
+      "logps/chosen": -568.5266723632812,
+      "logps/rejected": -630.6636962890625,
+      "loss": 0.0398,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -2.0844273567199707,
+      "rewards/margins": 1.567047357559204,
+      "rewards/rejected": -3.651474714279175,
+      "step": 510
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 4.0547366105068347e-07,
+      "logits/chosen": 0.2337774932384491,
+      "logits/rejected": 0.3223033547401428,
+      "logps/chosen": -556.1533813476562,
+      "logps/rejected": -626.2739868164062,
+      "loss": 0.041,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -2.1958367824554443,
+      "rewards/margins": 1.7631685733795166,
+      "rewards/rejected": -3.959005355834961,
+      "step": 520
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 3.666761969519528e-07,
+      "logits/chosen": 0.2308119833469391,
+      "logits/rejected": 0.40482252836227417,
+      "logps/chosen": -531.3250732421875,
+      "logps/rejected": -586.0523071289062,
+      "loss": 0.0321,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.9775184392929077,
+      "rewards/margins": 1.4050841331481934,
+      "rewards/rejected": -3.3826022148132324,
+      "step": 530
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 3.2940924351693213e-07,
+      "logits/chosen": 0.18636593222618103,
+      "logits/rejected": 0.3547353744506836,
+      "logps/chosen": -605.5850830078125,
+      "logps/rejected": -643.3690185546875,
+      "loss": 0.0335,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -2.183945894241333,
+      "rewards/margins": 1.709857702255249,
+      "rewards/rejected": -3.8938040733337402,
+      "step": 540
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 2.937628612634184e-07,
+      "logits/chosen": 0.2420307844877243,
+      "logits/rejected": 0.41368550062179565,
+      "logps/chosen": -569.5245971679688,
+      "logps/rejected": -632.2020263671875,
+      "loss": 0.0344,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -2.410912036895752,
+      "rewards/margins": 1.8822616338729858,
+      "rewards/rejected": -4.293173789978027,
+      "step": 550
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 2.598231943847916e-07,
+      "logits/chosen": 0.22710604965686798,
+      "logits/rejected": 0.4254523813724518,
+      "logps/chosen": -606.672119140625,
+      "logps/rejected": -696.2296142578125,
+      "loss": 0.0376,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -2.5400805473327637,
+      "rewards/margins": 1.9197076559066772,
+      "rewards/rejected": -4.4597883224487305,
+      "step": 560
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 2.276722625711861e-07,
+      "logits/chosen": 0.2909803092479706,
+      "logits/rejected": 0.4825025200843811,
+      "logps/chosen": -583.4527587890625,
+      "logps/rejected": -639.517333984375,
+      "loss": 0.0302,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -2.0665905475616455,
+      "rewards/margins": 1.7480655908584595,
+      "rewards/rejected": -3.8146564960479736,
+      "step": 570
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 1.973877627980699e-07,
+      "logits/chosen": 0.26504355669021606,
+      "logits/rejected": 0.332762211561203,
+      "logps/chosen": -514.5237426757812,
+      "logps/rejected": -629.0364990234375,
+      "loss": 0.0301,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -1.9947683811187744,
+      "rewards/margins": 1.5820239782333374,
+      "rewards/rejected": -3.5767929553985596,
+      "step": 580
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 1.6904288156123636e-07,
+      "logits/chosen": 0.23839843273162842,
+      "logits/rejected": 0.39869600534439087,
+      "logps/chosen": -580.44921875,
+      "logps/rejected": -675.9835815429688,
+      "loss": 0.0358,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -2.2089920043945312,
+      "rewards/margins": 1.9142862558364868,
+      "rewards/rejected": -4.12327766418457,
+      "step": 590
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1.4270611801196642e-07,
+      "logits/chosen": 0.32313600182533264,
+      "logits/rejected": 0.4433811604976654,
+      "logps/chosen": -588.3478393554688,
+      "logps/rejected": -604.0819091796875,
+      "loss": 0.031,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -2.1629788875579834,
+      "rewards/margins": 1.6147849559783936,
+      "rewards/rejected": -3.777763843536377,
+      "step": 600
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 1.1844111841977633e-07,
+      "logits/chosen": 0.2681792378425598,
+      "logits/rejected": 0.34347304701805115,
+      "logps/chosen": -597.367431640625,
+      "logps/rejected": -694.4761962890625,
+      "loss": 0.0319,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -2.333829879760742,
+      "rewards/margins": 1.9641401767730713,
+      "rewards/rejected": -4.297970294952393,
+      "step": 610
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 9.630652236279625e-08,
+      "logits/chosen": 0.28177735209465027,
+      "logits/rejected": 0.3899393081665039,
+      "logps/chosen": -565.4825439453125,
+      "logps/rejected": -616.7823486328125,
+      "loss": 0.0329,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -2.153439521789551,
+      "rewards/margins": 1.7681152820587158,
+      "rewards/rejected": -3.9215550422668457,
+      "step": 620
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 7.63558210174814e-08,
+      "logits/chosen": 0.21648459136486053,
+      "logits/rejected": 0.4712795615196228,
+      "logps/chosen": -561.133056640625,
+      "logps/rejected": -631.644287109375,
+      "loss": 0.0334,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -2.387845754623413,
+      "rewards/margins": 1.6112064123153687,
+      "rewards/rejected": -3.9990525245666504,
+      "step": 630
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 5.8637227890115273e-08,
+      "logits/chosen": 0.23778888583183289,
+      "logits/rejected": 0.34435296058654785,
+      "logps/chosen": -649.9002685546875,
+      "logps/rejected": -715.91943359375,
+      "loss": 0.0299,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -2.4873223304748535,
+      "rewards/margins": 2.0735325813293457,
+      "rewards/rejected": -4.560854911804199,
+      "step": 640
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 4.3193562302499046e-08,
+      "logits/chosen": 0.3359209895133972,
+      "logits/rejected": 0.4597659707069397,
+      "logps/chosen": -579.0816650390625,
+      "logps/rejected": -621.2535400390625,
+      "loss": 0.0336,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -2.270595073699951,
+      "rewards/margins": 1.7250922918319702,
+      "rewards/rejected": -3.995687484741211,
+      "step": 650
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 3.006214591340339e-08,
+      "logits/chosen": 0.2430475950241089,
+      "logits/rejected": 0.3344910740852356,
+      "logps/chosen": -618.7166748046875,
+      "logps/rejected": -714.7845458984375,
+      "loss": 0.0302,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -2.330672264099121,
+      "rewards/margins": 2.0827202796936035,
+      "rewards/rejected": -4.413392543792725,
+      "step": 660
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 1.9274712525847447e-08,
+      "logits/chosen": 0.3407454490661621,
+      "logits/rejected": 0.4727950692176819,
+      "logps/chosen": -568.6539306640625,
+      "logps/rejected": -646.0457153320312,
+      "loss": 0.0271,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -2.3302292823791504,
+      "rewards/margins": 1.696593999862671,
+      "rewards/rejected": -4.0268235206604,
+      "step": 670
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 1.0857331398169577e-08,
+      "logits/chosen": 0.16540665924549103,
+      "logits/rejected": 0.4224317669868469,
+      "logps/chosen": -581.6246337890625,
+      "logps/rejected": -642.5072021484375,
+      "loss": 0.0299,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -2.267688274383545,
+      "rewards/margins": 1.918178915977478,
+      "rewards/rejected": -4.185866832733154,
+      "step": 680
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 4.830344244220686e-09,
+      "logits/chosen": 0.14440816640853882,
+      "logits/rejected": 0.27977341413497925,
+      "logps/chosen": -637.5778198242188,
+      "logps/rejected": -684.380859375,
+      "loss": 0.0277,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -2.4349887371063232,
+      "rewards/margins": 1.7913310527801514,
+      "rewards/rejected": -4.226320266723633,
+      "step": 690
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 1.2083160749236653e-09,
+      "logits/chosen": 0.23438580334186554,
+      "logits/rejected": 0.3880893290042877,
+      "logps/chosen": -624.1004028320312,
+      "logps/rejected": -729.334716796875,
+      "loss": 0.0276,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -2.6064438819885254,
+      "rewards/margins": 1.8713786602020264,
+      "rewards/rejected": -4.477822780609131,
+      "step": 700
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0,
+      "logits/chosen": 0.3188737630844116,
+      "logits/rejected": 0.4447614252567291,
+      "logps/chosen": -564.446533203125,
+      "logps/rejected": -686.6253662109375,
+      "loss": 0.0308,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -2.405637264251709,
+      "rewards/margins": 1.9922983646392822,
+      "rewards/rejected": -4.39793586730957,
+      "step": 710
+    },
+    {
+      "epoch": 2.0,
+      "step": 710,
       "total_flos": 0.0,
+      "train_loss": 0.18113358499298632,
+      "train_runtime": 8124.3794,
+      "train_samples_per_second": 11.213,
       "train_steps_per_second": 0.087
     }
   ],
   "logging_steps": 10,
+  "max_steps": 710,
+  "num_train_epochs": 2,
   "save_steps": 10000,
   "total_flos": 0.0,
   "trial_name": null,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a620ac098e6a148b2f93f65f138eae3a0f016042c94d69dd2792a7ace8c3c12
 size 6008

 version https://git-lfs.github.com/spec/v1
+oid sha256:fda369e142d3189323c2d59bf379d7fe0026912ef983c553220d80f8569efb58
 size 6008