Model save

Browse files

Files changed (9) hide show

README.md +1 -1
all_results.json +4 -4
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +707 -707
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -32,7 +32,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 2e-06
 - train_batch_size: 2
 - eval_batch_size: 8
 - seed: 1

 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 1e-06
 - train_batch_size: 2
 - eval_batch_size: 8
 - seed: 1

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.0,
-    "train_loss": 0.18113358499298632,
-    "train_runtime": 8124.3794,
     "train_samples": 45548,
-    "train_samples_per_second": 11.213,
-    "train_steps_per_second": 0.087
 }

 {
     "epoch": 2.0,
+    "train_loss": 0.25192113166124047,
+    "train_runtime": 8113.4503,
     "train_samples": 45548,
+    "train_samples_per_second": 11.228,
+    "train_steps_per_second": 0.088
 }

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e0f852f610b5179bc0d46ffe89d5644556da8841082b008cdae3c65d2a759bb
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:3402aa3938e1c31d822d0e375cf01dcc5f8377b7a31a3b6cf0575f1fb7953d4a
 size 4976698672

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2b594dde7a8f834fedff85680da6838d81c3edbfb2b21c505fa6c3c19bf968f
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:655f95ca04b0961ed4b515a7348c05cf72428837d0d1656bb20de7415dd6d23b
 size 4999802720

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:efd9bdaaa5dc9e6569743b905fb69b653c0deaca599081e9a0b714570bd74b7b
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8c376df770dfdaedca5de952735c527acff55b46dffecb9de5c18634541d6e2
 size 4915916176

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4291b6d92a0c55352fc37c06c9f74edafeb0cfa5b292a4fa380c79ded3be2a05
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:a996e33d039658928f6a70a590d6caec1f6957e1db80bebabe1c6f9186fd855d
 size 1168138808

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 2.0,
-    "train_loss": 0.18113358499298632,
-    "train_runtime": 8124.3794,
     "train_samples": 45548,
-    "train_samples_per_second": 11.213,
-    "train_steps_per_second": 0.087
 }

 {
     "epoch": 2.0,
+    "train_loss": 0.25192113166124047,
+    "train_runtime": 8113.4503,
     "train_samples": 45548,
+    "train_samples_per_second": 11.228,
+    "train_steps_per_second": 0.088
 }

trainer_state.json CHANGED Viewed

@@ -10,7 +10,7 @@
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 2.816901408450704e-08,
       "logits/chosen": -0.20257116854190826,
       "logits/rejected": -0.07568661123514175,
       "logps/chosen": -521.0269775390625,
@@ -24,1006 +24,1006 @@
     },
     {
       "epoch": 0.03,
-      "learning_rate": 2.8169014084507043e-07,
-      "logits/chosen": -0.13755783438682556,
-      "logits/rejected": -0.08772192895412445,
-      "logps/chosen": -345.8690185546875,
-      "logps/rejected": -280.64691162109375,
       "loss": 0.3323,
-      "rewards/accuracies": 0.4513888955116272,
-      "rewards/chosen": 4.912400618195534e-05,
-      "rewards/margins": -0.00030259901541285217,
-      "rewards/rejected": 0.0003517230798024684,
       "step": 10
     },
     {
       "epoch": 0.06,
-      "learning_rate": 5.633802816901409e-07,
-      "logits/chosen": -0.0957806184887886,
-      "logits/rejected": -0.057603687047958374,
-      "logps/chosen": -331.79766845703125,
-      "logps/rejected": -241.81185913085938,
-      "loss": 0.329,
-      "rewards/accuracies": 0.550000011920929,
-      "rewards/chosen": 0.0004024081281386316,
-      "rewards/margins": 0.00799016747623682,
-      "rewards/rejected": -0.007587759289890528,
       "step": 20
     },
     {
       "epoch": 0.08,
-      "learning_rate": 8.450704225352112e-07,
-      "logits/chosen": -0.05522637814283371,
-      "logits/rejected": 0.0007691409555263817,
-      "logps/chosen": -387.5187072753906,
-      "logps/rejected": -256.33380126953125,
-      "loss": 0.3393,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": 0.0015848552575334907,
-      "rewards/margins": 0.056810565292835236,
-      "rewards/rejected": -0.05522570759057999,
       "step": 30
     },
     {
       "epoch": 0.11,
-      "learning_rate": 1.1267605633802817e-06,
-      "logits/chosen": -0.07449092715978622,
-      "logits/rejected": -0.021578723564743996,
-      "logps/chosen": -341.57391357421875,
-      "logps/rejected": -272.60400390625,
-      "loss": 0.3699,
-      "rewards/accuracies": 0.518750011920929,
-      "rewards/chosen": -0.0639580637216568,
-      "rewards/margins": 0.056426145136356354,
-      "rewards/rejected": -0.12038421630859375,
       "step": 40
     },
     {
       "epoch": 0.14,
-      "learning_rate": 1.408450704225352e-06,
-      "logits/chosen": -0.06206550449132919,
-      "logits/rejected": -0.011999653652310371,
-      "logps/chosen": -344.6331787109375,
-      "logps/rejected": -287.69635009765625,
-      "loss": 0.3883,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": -0.10917987674474716,
-      "rewards/margins": 0.14197741448879242,
-      "rewards/rejected": -0.251157283782959,
       "step": 50
     },
     {
       "epoch": 0.17,
-      "learning_rate": 1.6901408450704225e-06,
-      "logits/chosen": -0.17808644473552704,
-      "logits/rejected": -0.11181376129388809,
-      "logps/chosen": -425.6441345214844,
-      "logps/rejected": -281.8149108886719,
-      "loss": 0.3986,
       "rewards/accuracies": 0.6875,
-      "rewards/chosen": -0.03321179002523422,
-      "rewards/margins": 0.33166056871414185,
-      "rewards/rejected": -0.36487236618995667,
       "step": 60
     },
     {
       "epoch": 0.2,
-      "learning_rate": 1.971830985915493e-06,
-      "logits/chosen": -0.17757034301757812,
-      "logits/rejected": -0.054698117077350616,
-      "logps/chosen": -403.33819580078125,
-      "logps/rejected": -279.6980895996094,
-      "loss": 0.3837,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": 0.03798174858093262,
-      "rewards/margins": 0.2265440672636032,
-      "rewards/rejected": -0.1885623335838318,
       "step": 70
     },
     {
       "epoch": 0.22,
-      "learning_rate": 1.9990212265199736e-06,
-      "logits/chosen": -0.1993887722492218,
-      "logits/rejected": -0.19502341747283936,
-      "logps/chosen": -284.59423828125,
-      "logps/rejected": -219.568359375,
-      "loss": 0.3918,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": 0.027263695374131203,
-      "rewards/margins": 0.18515612185001373,
-      "rewards/rejected": -0.1578924059867859,
       "step": 80
     },
     {
       "epoch": 0.25,
-      "learning_rate": 1.995640271796129e-06,
-      "logits/chosen": -0.3508986830711365,
-      "logits/rejected": -0.2989083230495453,
-      "logps/chosen": -388.96124267578125,
-      "logps/rejected": -249.9578094482422,
-      "loss": 0.3972,
       "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": 0.1189202070236206,
-      "rewards/margins": 0.3718037009239197,
-      "rewards/rejected": -0.25288352370262146,
       "step": 90
     },
     {
       "epoch": 0.28,
-      "learning_rate": 1.9898532207817787e-06,
-      "logits/chosen": -0.13028475642204285,
-      "logits/rejected": -0.12288811057806015,
-      "logps/chosen": -375.6239929199219,
-      "logps/rejected": -300.58013916015625,
-      "loss": 0.3681,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": -0.078019879758358,
-      "rewards/margins": 0.1508217304944992,
-      "rewards/rejected": -0.2288416177034378,
       "step": 100
     },
     {
       "epoch": 0.31,
-      "learning_rate": 1.9816740586504575e-06,
-      "logits/chosen": -0.09742162376642227,
-      "logits/rejected": -0.04224073141813278,
-      "logps/chosen": -351.0619201660156,
-      "logps/rejected": -310.95257568359375,
-      "loss": 0.3116,
-      "rewards/accuracies": 0.53125,
-      "rewards/chosen": -0.23143887519836426,
-      "rewards/margins": 0.0850377082824707,
-      "rewards/rejected": -0.3164765536785126,
       "step": 110
     },
     {
       "epoch": 0.34,
-      "learning_rate": 1.971122551428331e-06,
-      "logits/chosen": -0.10740338265895844,
-      "logits/rejected": -0.07498879730701447,
-      "logps/chosen": -354.75677490234375,
-      "logps/rejected": -261.3316955566406,
-      "loss": 0.3164,
       "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": -0.22371773421764374,
-      "rewards/margins": 0.21556267142295837,
-      "rewards/rejected": -0.4392804205417633,
       "step": 120
     },
     {
       "epoch": 0.37,
-      "learning_rate": 1.9582241982269803e-06,
-      "logits/chosen": -0.090018130838871,
-      "logits/rejected": -0.013507525436580181,
-      "logps/chosen": -415.02020263671875,
-      "logps/rejected": -290.92144775390625,
-      "loss": 0.3473,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -0.28872472047805786,
-      "rewards/margins": 0.3263753056526184,
-      "rewards/rejected": -0.6151000261306763,
       "step": 130
     },
     {
       "epoch": 0.39,
-      "learning_rate": 1.9430101696214336e-06,
-      "logits/chosen": -0.1004706472158432,
-      "logits/rejected": -0.08849872648715973,
-      "logps/chosen": -363.7771301269531,
-      "logps/rejected": -290.38299560546875,
-      "loss": 0.3338,
-      "rewards/accuracies": 0.581250011920929,
-      "rewards/chosen": -0.2705627381801605,
-      "rewards/margins": 0.14047202467918396,
-      "rewards/rejected": -0.4110347628593445,
       "step": 140
     },
     {
       "epoch": 0.42,
-      "learning_rate": 1.9255172323223463e-06,
-      "logits/chosen": -0.04992828518152237,
-      "logits/rejected": 0.011964783072471619,
-      "logps/chosen": -336.70928955078125,
-      "logps/rejected": -298.07611083984375,
-      "loss": 0.3193,
-      "rewards/accuracies": 0.5562499761581421,
-      "rewards/chosen": -0.31615492701530457,
-      "rewards/margins": 0.1844826191663742,
-      "rewards/rejected": -0.5006375312805176,
       "step": 150
     },
     {
       "epoch": 0.45,
-      "learning_rate": 1.905787660324391e-06,
-      "logits/chosen": -0.011503048241138458,
-      "logits/rejected": 0.1220928207039833,
-      "logps/chosen": -424.7059631347656,
-      "logps/rejected": -320.0885009765625,
-      "loss": 0.3057,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": -0.3887358605861664,
-      "rewards/margins": 0.23610559105873108,
-      "rewards/rejected": -0.6248414516448975,
       "step": 160
     },
     {
       "epoch": 0.48,
-      "learning_rate": 1.8838691327455609e-06,
-      "logits/chosen": -0.026822054758667946,
-      "logits/rejected": 0.04267163202166557,
-      "logps/chosen": -369.6314392089844,
-      "logps/rejected": -326.5650329589844,
-      "loss": 0.3049,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": -0.37862712144851685,
-      "rewards/margins": 0.2466701716184616,
-      "rewards/rejected": -0.6252972483634949,
       "step": 170
     },
     {
       "epoch": 0.51,
-      "learning_rate": 1.8598146186042808e-06,
-      "logits/chosen": -0.2679498791694641,
-      "logits/rejected": -0.21142823994159698,
-      "logps/chosen": -383.9067687988281,
-      "logps/rejected": -319.5235900878906,
-      "loss": 0.3293,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": -0.4264276623725891,
-      "rewards/margins": 0.24799779057502747,
-      "rewards/rejected": -0.674425482749939,
       "step": 180
     },
     {
       "epoch": 0.53,
-      "learning_rate": 1.8336822488127723e-06,
-      "logits/chosen": -0.05206901952624321,
-      "logits/rejected": 0.03507734090089798,
-      "logps/chosen": -408.74798583984375,
-      "logps/rejected": -323.0229797363281,
-      "loss": 0.284,
       "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": -0.5230687260627747,
-      "rewards/margins": 0.4133565425872803,
-      "rewards/rejected": -0.9364253282546997,
       "step": 190
     },
     {
       "epoch": 0.56,
-      "learning_rate": 1.805535175696026e-06,
-      "logits/chosen": -0.026757067069411278,
-      "logits/rejected": 0.11062588542699814,
-      "logps/chosen": -406.74176025390625,
-      "logps/rejected": -343.10546875,
-      "loss": 0.2943,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": -0.7670020461082458,
-      "rewards/margins": 0.22102268040180206,
-      "rewards/rejected": -0.9880247116088867,
       "step": 200
     },
     {
       "epoch": 0.59,
-      "learning_rate": 1.7754414203758602e-06,
-      "logits/chosen": 0.09901715815067291,
-      "logits/rejected": 0.19180616736412048,
-      "logps/chosen": -463.052734375,
-      "logps/rejected": -346.2613220214844,
-      "loss": 0.2641,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": -0.6034746766090393,
-      "rewards/margins": 0.1767103672027588,
-      "rewards/rejected": -0.7801850438117981,
       "step": 210
     },
     {
       "epoch": 0.62,
-      "learning_rate": 1.7434737083888904e-06,
-      "logits/chosen": 0.036244794726371765,
-      "logits/rejected": 0.10729759931564331,
-      "logps/chosen": -457.8307189941406,
-      "logps/rejected": -356.2217712402344,
-      "loss": 0.2726,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.6712073087692261,
-      "rewards/margins": 0.2408912628889084,
-      "rewards/rejected": -0.9120985865592957,
       "step": 220
     },
     {
       "epoch": 0.65,
-      "learning_rate": 1.709709293935662e-06,
-      "logits/chosen": 0.09133528172969818,
-      "logits/rejected": 0.2221805602312088,
-      "logps/chosen": -408.2891540527344,
-      "logps/rejected": -331.88568115234375,
-      "loss": 0.2977,
       "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": -0.5791844129562378,
-      "rewards/margins": 0.30291682481765747,
-      "rewards/rejected": -0.8821012377738953,
       "step": 230
     },
     {
       "epoch": 0.67,
-      "learning_rate": 1.6742297731856636e-06,
-      "logits/chosen": -0.13875767588615417,
-      "logits/rejected": -0.030141670256853104,
-      "logps/chosen": -401.0727233886719,
-      "logps/rejected": -305.03875732421875,
-      "loss": 0.301,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.4225517213344574,
-      "rewards/margins": 0.2361893206834793,
-      "rewards/rejected": -0.6587410569190979,
       "step": 240
     },
     {
       "epoch": 0.7,
-      "learning_rate": 1.6371208870894001e-06,
-      "logits/chosen": -0.11314062029123306,
-      "logits/rejected": -0.028332043439149857,
-      "logps/chosen": -430.2290954589844,
-      "logps/rejected": -321.7243957519531,
-      "loss": 0.3146,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.48336172103881836,
-      "rewards/margins": 0.32641273736953735,
-      "rewards/rejected": -0.8097743988037109,
       "step": 250
     },
     {
       "epoch": 0.73,
-      "learning_rate": 1.5984723141740574e-06,
-      "logits/chosen": -0.060978569090366364,
-      "logits/rejected": 0.013845810666680336,
-      "logps/chosen": -429.4888610839844,
-      "logps/rejected": -350.95147705078125,
-      "loss": 0.3233,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.6816853880882263,
-      "rewards/margins": 0.37134552001953125,
-      "rewards/rejected": -1.0530308485031128,
       "step": 260
     },
     {
       "epoch": 0.76,
-      "learning_rate": 1.5583774538234882e-06,
-      "logits/chosen": 0.009507184848189354,
-      "logits/rejected": 0.053323499858379364,
-      "logps/chosen": -420.3421325683594,
-      "logps/rejected": -358.8752136230469,
-      "loss": 0.2801,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": -0.8152508735656738,
-      "rewards/margins": 0.3313834071159363,
-      "rewards/rejected": -1.1466342210769653,
       "step": 270
     },
     {
       "epoch": 0.79,
-      "learning_rate": 1.5169332005662589e-06,
-      "logits/chosen": 0.036943964660167694,
-      "logits/rejected": 0.12250173091888428,
-      "logps/chosen": -484.43389892578125,
-      "logps/rejected": -375.3249816894531,
-      "loss": 0.2936,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.9159828424453735,
-      "rewards/margins": 0.4136818051338196,
-      "rewards/rejected": -1.3296645879745483,
       "step": 280
     },
     {
       "epoch": 0.81,
-      "learning_rate": 1.474239709917218e-06,
-      "logits/chosen": 0.05337507277727127,
-      "logits/rejected": 0.19436481595039368,
-      "logps/chosen": -443.375244140625,
-      "logps/rejected": -374.6485900878906,
-      "loss": 0.2803,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": -0.916093647480011,
-      "rewards/margins": 0.25273779034614563,
-      "rewards/rejected": -1.1688312292099,
       "step": 290
     },
     {
       "epoch": 0.84,
-      "learning_rate": 1.430400156338457e-06,
-      "logits/chosen": -0.04387836158275604,
-      "logits/rejected": 0.08865033835172653,
-      "logps/chosen": -432.93719482421875,
-      "logps/rejected": -336.19378662109375,
-      "loss": 0.2739,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.5575471520423889,
-      "rewards/margins": 0.33055704832077026,
-      "rewards/rejected": -0.888104259967804,
       "step": 300
     },
     {
       "epoch": 0.87,
-      "learning_rate": 1.3855204839045892e-06,
-      "logits/chosen": -0.09471622109413147,
-      "logits/rejected": 0.04182841628789902,
-      "logps/chosen": -394.19952392578125,
-      "logps/rejected": -326.4076232910156,
-      "loss": 0.2828,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -0.5341824293136597,
-      "rewards/margins": 0.30772727727890015,
-      "rewards/rejected": -0.8419097661972046,
       "step": 310
     },
     {
       "epoch": 0.9,
-      "learning_rate": 1.3397091502748927e-06,
-      "logits/chosen": 0.06928735971450806,
-      "logits/rejected": 0.12053768336772919,
-      "logps/chosen": -407.7933654785156,
-      "logps/rejected": -357.62225341796875,
-      "loss": 0.3016,
-      "rewards/accuracies": 0.581250011920929,
-      "rewards/chosen": -0.7507076263427734,
-      "rewards/margins": 0.2525845170021057,
-      "rewards/rejected": -1.0032920837402344,
       "step": 320
     },
     {
       "epoch": 0.93,
-      "learning_rate": 1.2930768645910449e-06,
-      "logits/chosen": -0.04908103495836258,
-      "logits/rejected": 0.05275033786892891,
-      "logps/chosen": -489.91741943359375,
-      "logps/rejected": -391.38861083984375,
-      "loss": 0.269,
-      "rewards/accuracies": 0.625,
-      "rewards/chosen": -0.7464247941970825,
-      "rewards/margins": 0.3772323727607727,
-      "rewards/rejected": -1.1236572265625,
       "step": 330
     },
     {
       "epoch": 0.96,
-      "learning_rate": 1.2457363199338495e-06,
-      "logits/chosen": -0.023084616288542747,
-      "logits/rejected": 0.06722521036863327,
-      "logps/chosen": -424.7259216308594,
-      "logps/rejected": -344.1465148925781,
-      "loss": 0.2641,
-      "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": -0.7394579648971558,
-      "rewards/margins": 0.2995792627334595,
-      "rewards/rejected": -1.0390373468399048,
       "step": 340
     },
     {
       "epoch": 0.98,
-      "learning_rate": 1.1978019209855173e-06,
-      "logits/chosen": -0.03397887200117111,
-      "logits/rejected": 0.0008539498085156083,
-      "logps/chosen": -443.153076171875,
-      "logps/rejected": -367.44195556640625,
-      "loss": 0.2896,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -0.816065788269043,
-      "rewards/margins": 0.3647410273551941,
-      "rewards/rejected": -1.1808068752288818,
       "step": 350
     },
     {
       "epoch": 1.01,
-      "learning_rate": 1.14938950755563e-06,
-      "logits/chosen": -0.0028023570775985718,
-      "logits/rejected": 0.09356020390987396,
-      "logps/chosen": -409.0108947753906,
-      "logps/rejected": -419.5281677246094,
-      "loss": 0.2361,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.937981128692627,
-      "rewards/margins": 0.5299195051193237,
-      "rewards/rejected": -1.4679005146026611,
       "step": 360
     },
     {
       "epoch": 1.04,
-      "learning_rate": 1.1006160746389332e-06,
-      "logits/chosen": -0.15354487299919128,
-      "logits/rejected": -0.0770144909620285,
-      "logps/chosen": -461.51806640625,
-      "logps/rejected": -445.2923278808594,
-      "loss": 0.102,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -1.0436856746673584,
-      "rewards/margins": 0.894515335559845,
-      "rewards/rejected": -1.9382011890411377,
       "step": 370
     },
     {
       "epoch": 1.07,
-      "learning_rate": 1.0515994896814731e-06,
-      "logits/chosen": -0.12813356518745422,
-      "logits/rejected": -0.008146116510033607,
-      "logps/chosen": -474.5690002441406,
-      "logps/rejected": -505.58367919921875,
-      "loss": 0.076,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -1.539747953414917,
-      "rewards/margins": 0.9511996507644653,
-      "rewards/rejected": -2.490947723388672,
       "step": 380
     },
     {
       "epoch": 1.1,
-      "learning_rate": 1.002458207738333e-06,
-      "logits/chosen": 0.014720706269145012,
-      "logits/rejected": 0.19409914314746857,
-      "logps/chosen": -462.5455627441406,
-      "logps/rejected": -508.26947021484375,
-      "loss": 0.0717,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -1.7438398599624634,
-      "rewards/margins": 1.1367576122283936,
-      "rewards/rejected": -2.8805973529815674,
       "step": 390
     },
     {
       "epoch": 1.12,
-      "learning_rate": 9.533109852113413e-07,
-      "logits/chosen": 0.06460610777139664,
-      "logits/rejected": 0.15287192165851593,
-      "logps/chosen": -476.78753662109375,
-      "logps/rejected": -506.93701171875,
-      "loss": 0.0591,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -1.3379477262496948,
-      "rewards/margins": 1.1289650201797485,
-      "rewards/rejected": -2.4669127464294434,
       "step": 400
     },
     {
       "epoch": 1.15,
-      "learning_rate": 9.042765928585326e-07,
-      "logits/chosen": 0.21788999438285828,
-      "logits/rejected": 0.2529798150062561,
-      "logps/chosen": -483.2903747558594,
-      "logps/rejected": -527.7869262695312,
-      "loss": 0.0602,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -1.615551233291626,
-      "rewards/margins": 1.4097917079925537,
-      "rewards/rejected": -3.0253429412841797,
       "step": 410
     },
     {
       "epoch": 1.18,
-      "learning_rate": 8.554735287689148e-07,
-      "logits/chosen": 0.1305566430091858,
-      "logits/rejected": 0.27758485078811646,
-      "logps/chosen": -527.9423217773438,
-      "logps/rejected": -558.6550903320312,
-      "loss": 0.062,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -1.9209682941436768,
-      "rewards/margins": 1.1167800426483154,
-      "rewards/rejected": -3.037747859954834,
       "step": 420
     },
     {
       "epoch": 1.21,
-      "learning_rate": 8.070197319961782e-07,
-      "logits/chosen": 0.25931409001350403,
-      "logits/rejected": 0.3246735632419586,
-      "logps/chosen": -550.6995849609375,
-      "logps/rejected": -537.9232177734375,
-      "loss": 0.0486,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -1.6232093572616577,
-      "rewards/margins": 1.3964422941207886,
-      "rewards/rejected": -3.0196518898010254,
       "step": 430
     },
     {
       "epoch": 1.24,
-      "learning_rate": 7.590322975433856e-07,
-      "logits/chosen": 0.2402382791042328,
-      "logits/rejected": 0.37099042534828186,
-      "logps/chosen": -511.0347595214844,
-      "logps/rejected": -555.0653686523438,
-      "loss": 0.0533,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -1.9829241037368774,
-      "rewards/margins": 1.3394062519073486,
-      "rewards/rejected": -3.3223304748535156,
       "step": 440
     },
     {
       "epoch": 1.26,
-      "learning_rate": 7.116271933874245e-07,
-      "logits/chosen": 0.2019539177417755,
-      "logits/rejected": 0.3705137372016907,
-      "logps/chosen": -551.7188110351562,
-      "logps/rejected": -568.9718017578125,
-      "loss": 0.0512,
       "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -1.8252284526824951,
-      "rewards/margins": 1.3718860149383545,
-      "rewards/rejected": -3.1971147060394287,
       "step": 450
     },
     {
       "epoch": 1.29,
-      "learning_rate": 6.649189802270652e-07,
-      "logits/chosen": 0.2931487560272217,
-      "logits/rejected": 0.4406962990760803,
-      "logps/chosen": -505.7900390625,
-      "logps/rejected": -604.8612060546875,
-      "loss": 0.0489,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -1.829275131225586,
-      "rewards/margins": 1.4683018922805786,
-      "rewards/rejected": -3.297576904296875,
       "step": 460
     },
     {
       "epoch": 1.32,
-      "learning_rate": 6.190205346318926e-07,
-      "logits/chosen": 0.15103109180927277,
-      "logits/rejected": 0.2090083360671997,
-      "logps/chosen": -548.1585693359375,
-      "logps/rejected": -613.2918701171875,
-      "loss": 0.0454,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -2.007948398590088,
-      "rewards/margins": 1.6015655994415283,
-      "rewards/rejected": -3.609513759613037,
       "step": 470
     },
     {
       "epoch": 1.35,
-      "learning_rate": 5.740427762611604e-07,
-      "logits/chosen": 0.24043090641498566,
-      "logits/rejected": 0.37472882866859436,
-      "logps/chosen": -557.3897705078125,
-      "logps/rejected": -610.3823852539062,
-      "loss": 0.0382,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -2.103377103805542,
-      "rewards/margins": 1.6295030117034912,
-      "rewards/rejected": -3.732880115509033,
       "step": 480
     },
     {
       "epoch": 1.38,
-      "learning_rate": 5.300943998117749e-07,
-      "logits/chosen": 0.23212356865406036,
-      "logits/rejected": 0.3468802273273468,
-      "logps/chosen": -589.6870727539062,
-      "logps/rejected": -632.7547607421875,
-      "loss": 0.0425,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -2.1241652965545654,
-      "rewards/margins": 1.638109564781189,
-      "rewards/rejected": -3.762274980545044,
       "step": 490
     },
     {
       "epoch": 1.4,
-      "learning_rate": 4.872816123431976e-07,
-      "logits/chosen": 0.17420414090156555,
-      "logits/rejected": 0.3029765188694,
-      "logps/chosen": -583.6693115234375,
-      "logps/rejected": -632.7525024414062,
-      "loss": 0.0332,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -2.0016562938690186,
-      "rewards/margins": 1.703657865524292,
-      "rewards/rejected": -3.7053139209747314,
       "step": 500
     },
     {
       "epoch": 1.43,
-      "learning_rate": 4.4570787661405e-07,
-      "logits/chosen": 0.24483375251293182,
-      "logits/rejected": 0.43443599343299866,
-      "logps/chosen": -568.5266723632812,
-      "logps/rejected": -630.6636962890625,
-      "loss": 0.0398,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -2.0844273567199707,
-      "rewards/margins": 1.567047357559204,
-      "rewards/rejected": -3.651474714279175,
       "step": 510
     },
     {
       "epoch": 1.46,
-      "learning_rate": 4.0547366105068347e-07,
-      "logits/chosen": 0.2337774932384491,
-      "logits/rejected": 0.3223033547401428,
-      "logps/chosen": -556.1533813476562,
-      "logps/rejected": -626.2739868164062,
-      "loss": 0.041,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -2.1958367824554443,
-      "rewards/margins": 1.7631685733795166,
-      "rewards/rejected": -3.959005355834961,
       "step": 520
     },
     {
       "epoch": 1.49,
-      "learning_rate": 3.666761969519528e-07,
-      "logits/chosen": 0.2308119833469391,
-      "logits/rejected": 0.40482252836227417,
-      "logps/chosen": -531.3250732421875,
-      "logps/rejected": -586.0523071289062,
-      "loss": 0.0321,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -1.9775184392929077,
-      "rewards/margins": 1.4050841331481934,
-      "rewards/rejected": -3.3826022148132324,
       "step": 530
     },
     {
       "epoch": 1.52,
-      "learning_rate": 3.2940924351693213e-07,
-      "logits/chosen": 0.18636593222618103,
-      "logits/rejected": 0.3547353744506836,
-      "logps/chosen": -605.5850830078125,
-      "logps/rejected": -643.3690185546875,
-      "loss": 0.0335,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -2.183945894241333,
-      "rewards/margins": 1.709857702255249,
-      "rewards/rejected": -3.8938040733337402,
       "step": 540
     },
     {
       "epoch": 1.55,
-      "learning_rate": 2.937628612634184e-07,
-      "logits/chosen": 0.2420307844877243,
-      "logits/rejected": 0.41368550062179565,
-      "logps/chosen": -569.5245971679688,
-      "logps/rejected": -632.2020263671875,
-      "loss": 0.0344,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -2.410912036895752,
-      "rewards/margins": 1.8822616338729858,
-      "rewards/rejected": -4.293173789978027,
       "step": 550
     },
     {
       "epoch": 1.57,
-      "learning_rate": 2.598231943847916e-07,
-      "logits/chosen": 0.22710604965686798,
-      "logits/rejected": 0.4254523813724518,
-      "logps/chosen": -606.672119140625,
-      "logps/rejected": -696.2296142578125,
-      "loss": 0.0376,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": -2.5400805473327637,
-      "rewards/margins": 1.9197076559066772,
-      "rewards/rejected": -4.4597883224487305,
       "step": 560
     },
     {
       "epoch": 1.6,
-      "learning_rate": 2.276722625711861e-07,
-      "logits/chosen": 0.2909803092479706,
-      "logits/rejected": 0.4825025200843811,
-      "logps/chosen": -583.4527587890625,
-      "logps/rejected": -639.517333984375,
-      "loss": 0.0302,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -2.0665905475616455,
-      "rewards/margins": 1.7480655908584595,
-      "rewards/rejected": -3.8146564960479736,
       "step": 570
     },
     {
       "epoch": 1.63,
-      "learning_rate": 1.973877627980699e-07,
-      "logits/chosen": 0.26504355669021606,
-      "logits/rejected": 0.332762211561203,
-      "logps/chosen": -514.5237426757812,
-      "logps/rejected": -629.0364990234375,
-      "loss": 0.0301,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -1.9947683811187744,
-      "rewards/margins": 1.5820239782333374,
-      "rewards/rejected": -3.5767929553985596,
       "step": 580
     },
     {
       "epoch": 1.66,
-      "learning_rate": 1.6904288156123636e-07,
-      "logits/chosen": 0.23839843273162842,
-      "logits/rejected": 0.39869600534439087,
-      "logps/chosen": -580.44921875,
-      "logps/rejected": -675.9835815429688,
-      "loss": 0.0358,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -2.2089920043945312,
-      "rewards/margins": 1.9142862558364868,
-      "rewards/rejected": -4.12327766418457,
       "step": 590
     },
     {
       "epoch": 1.69,
-      "learning_rate": 1.4270611801196642e-07,
-      "logits/chosen": 0.32313600182533264,
-      "logits/rejected": 0.4433811604976654,
-      "logps/chosen": -588.3478393554688,
-      "logps/rejected": -604.0819091796875,
-      "loss": 0.031,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -2.1629788875579834,
-      "rewards/margins": 1.6147849559783936,
-      "rewards/rejected": -3.777763843536377,
       "step": 600
     },
     {
       "epoch": 1.71,
-      "learning_rate": 1.1844111841977633e-07,
-      "logits/chosen": 0.2681792378425598,
-      "logits/rejected": 0.34347304701805115,
-      "logps/chosen": -597.367431640625,
-      "logps/rejected": -694.4761962890625,
-      "loss": 0.0319,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -2.333829879760742,
-      "rewards/margins": 1.9641401767730713,
-      "rewards/rejected": -4.297970294952393,
       "step": 610
     },
     {
       "epoch": 1.74,
-      "learning_rate": 9.630652236279625e-08,
-      "logits/chosen": 0.28177735209465027,
-      "logits/rejected": 0.3899393081665039,
-      "logps/chosen": -565.4825439453125,
-      "logps/rejected": -616.7823486328125,
-      "loss": 0.0329,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -2.153439521789551,
-      "rewards/margins": 1.7681152820587158,
-      "rewards/rejected": -3.9215550422668457,
       "step": 620
     },
     {
       "epoch": 1.77,
-      "learning_rate": 7.63558210174814e-08,
-      "logits/chosen": 0.21648459136486053,
-      "logits/rejected": 0.4712795615196228,
-      "logps/chosen": -561.133056640625,
-      "logps/rejected": -631.644287109375,
-      "loss": 0.0334,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -2.387845754623413,
-      "rewards/margins": 1.6112064123153687,
-      "rewards/rejected": -3.9990525245666504,
       "step": 630
     },
     {
       "epoch": 1.8,
-      "learning_rate": 5.8637227890115273e-08,
-      "logits/chosen": 0.23778888583183289,
-      "logits/rejected": 0.34435296058654785,
-      "logps/chosen": -649.9002685546875,
-      "logps/rejected": -715.91943359375,
-      "loss": 0.0299,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -2.4873223304748535,
-      "rewards/margins": 2.0735325813293457,
-      "rewards/rejected": -4.560854911804199,
       "step": 640
     },
     {
       "epoch": 1.83,
-      "learning_rate": 4.3193562302499046e-08,
-      "logits/chosen": 0.3359209895133972,
-      "logits/rejected": 0.4597659707069397,
-      "logps/chosen": -579.0816650390625,
-      "logps/rejected": -621.2535400390625,
-      "loss": 0.0336,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -2.270595073699951,
-      "rewards/margins": 1.7250922918319702,
-      "rewards/rejected": -3.995687484741211,
       "step": 650
     },
     {
       "epoch": 1.85,
-      "learning_rate": 3.006214591340339e-08,
-      "logits/chosen": 0.2430475950241089,
-      "logits/rejected": 0.3344910740852356,
-      "logps/chosen": -618.7166748046875,
-      "logps/rejected": -714.7845458984375,
-      "loss": 0.0302,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -2.330672264099121,
-      "rewards/margins": 2.0827202796936035,
-      "rewards/rejected": -4.413392543792725,
       "step": 660
     },
     {
       "epoch": 1.88,
-      "learning_rate": 1.9274712525847447e-08,
-      "logits/chosen": 0.3407454490661621,
-      "logits/rejected": 0.4727950692176819,
-      "logps/chosen": -568.6539306640625,
-      "logps/rejected": -646.0457153320312,
-      "loss": 0.0271,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -2.3302292823791504,
-      "rewards/margins": 1.696593999862671,
-      "rewards/rejected": -4.0268235206604,
       "step": 670
     },
     {
       "epoch": 1.91,
-      "learning_rate": 1.0857331398169577e-08,
-      "logits/chosen": 0.16540665924549103,
-      "logits/rejected": 0.4224317669868469,
-      "logps/chosen": -581.6246337890625,
-      "logps/rejected": -642.5072021484375,
-      "loss": 0.0299,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -2.267688274383545,
-      "rewards/margins": 1.918178915977478,
-      "rewards/rejected": -4.185866832733154,
       "step": 680
     },
     {
       "epoch": 1.94,
-      "learning_rate": 4.830344244220686e-09,
-      "logits/chosen": 0.14440816640853882,
-      "logits/rejected": 0.27977341413497925,
-      "logps/chosen": -637.5778198242188,
-      "logps/rejected": -684.380859375,
-      "loss": 0.0277,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": -2.4349887371063232,
-      "rewards/margins": 1.7913310527801514,
-      "rewards/rejected": -4.226320266723633,
       "step": 690
     },
     {
       "epoch": 1.97,
-      "learning_rate": 1.2083160749236653e-09,
-      "logits/chosen": 0.23438580334186554,
-      "logits/rejected": 0.3880893290042877,
-      "logps/chosen": -624.1004028320312,
-      "logps/rejected": -729.334716796875,
-      "loss": 0.0276,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -2.6064438819885254,
-      "rewards/margins": 1.8713786602020264,
-      "rewards/rejected": -4.477822780609131,
       "step": 700
     },
     {
       "epoch": 2.0,
       "learning_rate": 0.0,
-      "logits/chosen": 0.3188737630844116,
-      "logits/rejected": 0.4447614252567291,
-      "logps/chosen": -564.446533203125,
-      "logps/rejected": -686.6253662109375,
-      "loss": 0.0308,
-      "rewards/accuracies": 0.887499988079071,
-      "rewards/chosen": -2.405637264251709,
-      "rewards/margins": 1.9922983646392822,
-      "rewards/rejected": -4.39793586730957,
       "step": 710
     },
     {
       "epoch": 2.0,
       "step": 710,
       "total_flos": 0.0,
-      "train_loss": 0.18113358499298632,
-      "train_runtime": 8124.3794,
-      "train_samples_per_second": 11.213,
-      "train_steps_per_second": 0.087
     }
   ],
   "logging_steps": 10,

   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 1.408450704225352e-08,
       "logits/chosen": -0.20257116854190826,
       "logits/rejected": -0.07568661123514175,
       "logps/chosen": -521.0269775390625,
     },
     {
       "epoch": 0.03,
+      "learning_rate": 1.4084507042253522e-07,
+      "logits/chosen": -0.13786724209785461,
+      "logits/rejected": -0.08816312253475189,
+      "logps/chosen": -345.8097229003906,
+      "logps/rejected": -280.6612854003906,
       "loss": 0.3323,
+      "rewards/accuracies": 0.4444444477558136,
+      "rewards/chosen": 0.0006422583828680217,
+      "rewards/margins": 0.0004346017958596349,
+      "rewards/rejected": 0.00020765644148923457,
       "step": 10
     },
     {
       "epoch": 0.06,
+      "learning_rate": 2.8169014084507043e-07,
+      "logits/chosen": -0.09473811089992523,
+      "logits/rejected": -0.056791383773088455,
+      "logps/chosen": -331.81280517578125,
+      "logps/rejected": -241.23910522460938,
+      "loss": 0.3272,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": 0.0002513823565095663,
+      "rewards/margins": 0.0021114428527653217,
+      "rewards/rejected": -0.001860060729086399,
       "step": 20
     },
     {
       "epoch": 0.08,
+      "learning_rate": 4.225352112676056e-07,
+      "logits/chosen": -0.05887429043650627,
+      "logits/rejected": -0.0021190904080867767,
+      "logps/chosen": -387.2514953613281,
+      "logps/rejected": -252.19833374023438,
+      "loss": 0.3291,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": 0.004256925545632839,
+      "rewards/margins": 0.018127940595149994,
+      "rewards/rejected": -0.01387101411819458,
       "step": 30
     },
     {
       "epoch": 0.11,
+      "learning_rate": 5.633802816901409e-07,
+      "logits/chosen": -0.07777061313390732,
+      "logits/rejected": -0.023820143193006516,
+      "logps/chosen": -335.6570129394531,
+      "logps/rejected": -263.23907470703125,
+      "loss": 0.3421,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -0.004789065103977919,
+      "rewards/margins": 0.021946147084236145,
+      "rewards/rejected": -0.02673521265387535,
       "step": 40
     },
     {
       "epoch": 0.14,
+      "learning_rate": 7.04225352112676e-07,
+      "logits/chosen": -0.03277156129479408,
+      "logits/rejected": 0.012101896107196808,
+      "logps/chosen": -336.37176513671875,
+      "logps/rejected": -272.0014953613281,
+      "loss": 0.358,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.026565855368971825,
+      "rewards/margins": 0.06764300167560577,
+      "rewards/rejected": -0.09420885145664215,
       "step": 50
     },
     {
       "epoch": 0.17,
+      "learning_rate": 8.450704225352112e-07,
+      "logits/chosen": -0.11417659372091293,
+      "logits/rejected": -0.05113930255174637,
+      "logps/chosen": -427.59600830078125,
+      "logps/rejected": -268.9815673828125,
+      "loss": 0.3784,
       "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.052729975432157516,
+      "rewards/margins": 0.18380871415138245,
+      "rewards/rejected": -0.23653869330883026,
       "step": 60
     },
     {
       "epoch": 0.2,
+      "learning_rate": 9.859154929577465e-07,
+      "logits/chosen": -0.12808646261692047,
+      "logits/rejected": -0.009413952939212322,
+      "logps/chosen": -417.78680419921875,
+      "logps/rejected": -287.1832580566406,
+      "loss": 0.3848,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.10650447756052017,
+      "rewards/margins": 0.15690955519676208,
+      "rewards/rejected": -0.26341402530670166,
       "step": 70
     },
     {
       "epoch": 0.22,
+      "learning_rate": 9.995106132599868e-07,
+      "logits/chosen": -0.0769750103354454,
+      "logits/rejected": -0.06951722502708435,
+      "logps/chosen": -294.3128662109375,
+      "logps/rejected": -227.47463989257812,
+      "loss": 0.3948,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.06992264091968536,
+      "rewards/margins": 0.16703224182128906,
+      "rewards/rejected": -0.23695488274097443,
       "step": 80
     },
     {
       "epoch": 0.25,
+      "learning_rate": 9.978201358980644e-07,
+      "logits/chosen": -0.2559957504272461,
+      "logits/rejected": -0.20053008198738098,
+      "logps/chosen": -389.33929443359375,
+      "logps/rejected": -247.1188201904297,
+      "loss": 0.4103,
       "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": 0.11513955891132355,
+      "rewards/margins": 0.3396330177783966,
+      "rewards/rejected": -0.22449345886707306,
       "step": 90
     },
     {
       "epoch": 0.28,
+      "learning_rate": 9.949266103908894e-07,
+      "logits/chosen": -0.18818387389183044,
+      "logits/rejected": -0.16776612401008606,
+      "logps/chosen": -360.2618103027344,
+      "logps/rejected": -283.3966979980469,
+      "loss": 0.4011,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": 0.07560204714536667,
+      "rewards/margins": 0.13260915875434875,
+      "rewards/rejected": -0.05700710415840149,
       "step": 100
     },
     {
       "epoch": 0.31,
+      "learning_rate": 9.908370293252287e-07,
+      "logits/chosen": -0.2396635115146637,
+      "logits/rejected": -0.16480541229248047,
+      "logps/chosen": -319.79925537109375,
+      "logps/rejected": -279.1387023925781,
+      "loss": 0.3716,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": 0.08118756860494614,
+      "rewards/margins": 0.0795254111289978,
+      "rewards/rejected": 0.0016621515387669206,
       "step": 110
     },
     {
       "epoch": 0.34,
+      "learning_rate": 9.855612757141654e-07,
+      "logits/chosen": -0.2065432071685791,
+      "logits/rejected": -0.17942771315574646,
+      "logps/chosen": -320.2702941894531,
+      "logps/rejected": -222.2958221435547,
+      "loss": 0.3645,
       "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": 0.12114707380533218,
+      "rewards/margins": 0.17006908357143402,
+      "rewards/rejected": -0.04892200976610184,
       "step": 120
     },
     {
       "epoch": 0.37,
+      "learning_rate": 9.791120991134902e-07,
+      "logits/chosen": -0.162322998046875,
+      "logits/rejected": -0.08893263339996338,
+      "logps/chosen": -376.00360107421875,
+      "logps/rejected": -244.6248016357422,
+      "loss": 0.3721,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": 0.10144136846065521,
+      "rewards/margins": 0.25357523560523987,
+      "rewards/rejected": -0.15213388204574585,
       "step": 130
     },
     {
       "epoch": 0.39,
+      "learning_rate": 9.715050848107168e-07,
+      "logits/chosen": -0.14301994442939758,
+      "logits/rejected": -0.13107290863990784,
+      "logps/chosen": -337.5934753417969,
+      "logps/rejected": -264.13153076171875,
+      "loss": 0.3693,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.008726155385375023,
+      "rewards/margins": 0.13979385793209076,
+      "rewards/rejected": -0.14851999282836914,
       "step": 140
     },
     {
       "epoch": 0.42,
+      "learning_rate": 9.627586161611731e-07,
+      "logits/chosen": -0.25995808839797974,
+      "logits/rejected": -0.22309823334217072,
+      "logps/chosen": -305.5233459472656,
+      "logps/rejected": -264.06097412109375,
+      "loss": 0.387,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.004295418970286846,
+      "rewards/margins": 0.1561904400587082,
+      "rewards/rejected": -0.16048584878444672,
       "step": 150
     },
     {
       "epoch": 0.45,
+      "learning_rate": 9.528938301621955e-07,
+      "logits/chosen": -0.17277738451957703,
+      "logits/rejected": -0.054037339985370636,
+      "logps/chosen": -388.6319885253906,
+      "logps/rejected": -281.8338317871094,
+      "loss": 0.3624,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.027996420860290527,
+      "rewards/margins": 0.2142985761165619,
+      "rewards/rejected": -0.2422950267791748,
       "step": 160
     },
     {
       "epoch": 0.48,
+      "learning_rate": 9.419345663727804e-07,
+      "logits/chosen": 0.1668136566877365,
+      "logits/rejected": 0.24267610907554626,
+      "logps/chosen": -348.5519104003906,
+      "logps/rejected": -298.996826171875,
+      "loss": 0.3338,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.16783149540424347,
+      "rewards/margins": 0.18178348243236542,
+      "rewards/rejected": -0.3496149778366089,
       "step": 170
     },
     {
       "epoch": 0.51,
+      "learning_rate": 9.299073093021404e-07,
+      "logits/chosen": 0.047697070986032486,
+      "logits/rejected": 0.1468953937292099,
+      "logps/chosen": -363.13934326171875,
+      "logps/rejected": -292.49822998046875,
+      "loss": 0.3368,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.21875329315662384,
+      "rewards/margins": 0.1854187548160553,
+      "rewards/rejected": -0.40417203307151794,
       "step": 180
     },
     {
       "epoch": 0.53,
+      "learning_rate": 9.168411244063861e-07,
+      "logits/chosen": 0.016937877982854843,
+      "logits/rejected": 0.10573382675647736,
+      "logps/chosen": -369.8836975097656,
+      "logps/rejected": -270.32574462890625,
+      "loss": 0.3274,
       "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.134426087141037,
+      "rewards/margins": 0.2750268578529358,
+      "rewards/rejected": -0.40945297479629517,
       "step": 190
     },
     {
       "epoch": 0.56,
+      "learning_rate": 9.02767587848013e-07,
+      "logits/chosen": -0.031068842858076096,
+      "logits/rejected": 0.08885425329208374,
+      "logps/chosen": -358.65374755859375,
+      "logps/rejected": -290.309814453125,
+      "loss": 0.3447,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.28612247109413147,
+      "rewards/margins": 0.17394599318504333,
+      "rewards/rejected": -0.4600685238838196,
       "step": 200
     },
     {
       "epoch": 0.59,
+      "learning_rate": 8.877207101879301e-07,
+      "logits/chosen": 0.1502365916967392,
+      "logits/rejected": 0.24661250412464142,
+      "logps/chosen": -428.3617248535156,
+      "logps/rejected": -313.82257080078125,
+      "loss": 0.3299,
+      "rewards/accuracies": 0.5687500238418579,
+      "rewards/chosen": -0.25656384229660034,
+      "rewards/margins": 0.19923393428325653,
+      "rewards/rejected": -0.4557977616786957,
       "step": 210
     },
     {
       "epoch": 0.62,
+      "learning_rate": 8.717368541944452e-07,
+      "logits/chosen": 0.08803655207157135,
+      "logits/rejected": 0.1639718860387802,
+      "logps/chosen": -423.03228759765625,
+      "logps/rejected": -313.6676025390625,
+      "loss": 0.3218,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.3232230246067047,
+      "rewards/margins": 0.1633337289094925,
+      "rewards/rejected": -0.4865567088127136,
       "step": 220
     },
     {
       "epoch": 0.65,
+      "learning_rate": 8.54854646967831e-07,
+      "logits/chosen": -0.0030194534920156,
+      "logits/rejected": 0.14094045758247375,
+      "logps/chosen": -369.0701904296875,
+      "logps/rejected": -286.33990478515625,
+      "loss": 0.3382,
       "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.18699464201927185,
+      "rewards/margins": 0.23964881896972656,
+      "rewards/rejected": -0.4266434609889984,
       "step": 230
     },
     {
       "epoch": 0.67,
+      "learning_rate": 8.371148865928318e-07,
+      "logits/chosen": -0.2055165320634842,
+      "logits/rejected": -0.08643672615289688,
+      "logps/chosen": -377.8648986816406,
+      "logps/rejected": -279.52703857421875,
+      "loss": 0.3443,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.19047299027442932,
+      "rewards/margins": 0.21315133571624756,
+      "rewards/rejected": -0.40362435579299927,
       "step": 240
     },
     {
       "epoch": 0.7,
+      "learning_rate": 8.185604435447001e-07,
+      "logits/chosen": -0.21048621833324432,
+      "logits/rejected": -0.12320221960544586,
+      "logps/chosen": -396.4952392578125,
+      "logps/rejected": -284.85693359375,
+      "loss": 0.3476,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.14602257311344147,
+      "rewards/margins": 0.29507723450660706,
+      "rewards/rejected": -0.4410998225212097,
       "step": 250
     },
     {
       "epoch": 0.73,
+      "learning_rate": 7.992361570870287e-07,
+      "logits/chosen": -0.09357413649559021,
+      "logits/rejected": -0.02147941291332245,
+      "logps/chosen": -391.3370666503906,
+      "logps/rejected": -304.73248291015625,
+      "loss": 0.3457,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.30016764998435974,
+      "rewards/margins": 0.2906726002693176,
+      "rewards/rejected": -0.590840220451355,
       "step": 260
     },
     {
       "epoch": 0.76,
+      "learning_rate": 7.791887269117441e-07,
+      "logits/chosen": -0.01912299357354641,
+      "logits/rejected": 0.015499010682106018,
+      "logps/chosen": -385.39788818359375,
+      "logps/rejected": -318.03045654296875,
+      "loss": 0.3332,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.46580857038497925,
+      "rewards/margins": 0.2723786234855652,
+      "rewards/rejected": -0.7381871938705444,
       "step": 270
     },
     {
       "epoch": 0.79,
+      "learning_rate": 7.584666002831294e-07,
+      "logits/chosen": -0.1838226318359375,
+      "logits/rejected": -0.11540188640356064,
+      "logps/chosen": -431.819580078125,
+      "logps/rejected": -314.17315673828125,
+      "loss": 0.3741,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.38983967900276184,
+      "rewards/margins": 0.3283058702945709,
+      "rewards/rejected": -0.718145489692688,
       "step": 280
     },
     {
       "epoch": 0.81,
+      "learning_rate": 7.37119854958609e-07,
+      "logits/chosen": -0.16166582703590393,
+      "logits/rejected": -0.06856708228588104,
+      "logps/chosen": -389.5946960449219,
+      "logps/rejected": -316.12677001953125,
+      "loss": 0.3638,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.3782878816127777,
+      "rewards/margins": 0.20532508194446564,
+      "rewards/rejected": -0.5836129188537598,
       "step": 290
     },
     {
       "epoch": 0.84,
+      "learning_rate": 7.152000781692285e-07,
+      "logits/chosen": -0.15225966274738312,
+      "logits/rejected": 0.023759862408041954,
+      "logps/chosen": -398.35040283203125,
+      "logps/rejected": -296.66046142578125,
+      "loss": 0.3393,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.21167917549610138,
+      "rewards/margins": 0.28109148144721985,
+      "rewards/rejected": -0.4927706718444824,
       "step": 300
     },
     {
       "epoch": 0.87,
+      "learning_rate": 6.927602419522946e-07,
+      "logits/chosen": -0.1469275802373886,
+      "logits/rejected": 0.009778399951756,
+      "logps/chosen": -370.21051025390625,
+      "logps/rejected": -298.3064880371094,
+      "loss": 0.3295,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.29429182410240173,
+      "rewards/margins": 0.266606867313385,
+      "rewards/rejected": -0.5608987212181091,
       "step": 310
     },
     {
       "epoch": 0.9,
+      "learning_rate": 6.698545751374463e-07,
+      "logits/chosen": -0.008808034472167492,
+      "logits/rejected": 0.06853709369897842,
+      "logps/chosen": -371.8343200683594,
+      "logps/rejected": -314.5874328613281,
+      "loss": 0.3437,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.3911176323890686,
+      "rewards/margins": 0.1818263977766037,
+      "rewards/rejected": -0.5729440450668335,
       "step": 320
     },
     {
       "epoch": 0.93,
+      "learning_rate": 6.465384322955224e-07,
+      "logits/chosen": -0.17208532989025116,
+      "logits/rejected": -0.05994819477200508,
+      "logps/chosen": -450.02850341796875,
+      "logps/rejected": -345.80419921875,
+      "loss": 0.3342,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.3475356698036194,
+      "rewards/margins": 0.32027798891067505,
+      "rewards/rejected": -0.6678135991096497,
       "step": 330
     },
     {
       "epoch": 0.96,
+      "learning_rate": 6.228681599669248e-07,
+      "logits/chosen": 0.0015781521797180176,
+      "logits/rejected": 0.043049950152635574,
+      "logps/chosen": -387.4454345703125,
+      "logps/rejected": -302.407958984375,
+      "loss": 0.3188,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.3666529059410095,
+      "rewards/margins": 0.25499850511550903,
+      "rewards/rejected": -0.6216514110565186,
       "step": 340
     },
     {
       "epoch": 0.98,
+      "learning_rate": 5.989009604927586e-07,
+      "logits/chosen": -0.03641257435083389,
+      "logits/rejected": 0.037856753915548325,
+      "logps/chosen": -401.0362854003906,
+      "logps/rejected": -317.9659729003906,
+      "loss": 0.3231,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.3948978781700134,
+      "rewards/margins": 0.2911498546600342,
+      "rewards/rejected": -0.6860476732254028,
       "step": 350
     },
     {
       "epoch": 1.01,
+      "learning_rate": 5.74694753777815e-07,
+      "logits/chosen": -0.12373703718185425,
+      "logits/rejected": -0.014805403538048267,
+      "logps/chosen": -356.97100830078125,
+      "logps/rejected": -344.86102294921875,
+      "loss": 0.3052,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.41758236289024353,
+      "rewards/margins": 0.3036467730998993,
+      "rewards/rejected": -0.721229076385498,
       "step": 360
     },
     {
       "epoch": 1.04,
+      "learning_rate": 5.503080373194666e-07,
+      "logits/chosen": -0.13851913809776306,
+      "logits/rejected": -0.07055823504924774,
+      "logps/chosen": -396.57769775390625,
+      "logps/rejected": -335.1228942871094,
+      "loss": 0.2391,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.39428186416625977,
+      "rewards/margins": 0.44222506880760193,
+      "rewards/rejected": -0.8365070223808289,
       "step": 370
     },
     {
       "epoch": 1.07,
+      "learning_rate": 5.257997448407366e-07,
+      "logits/chosen": -0.13537368178367615,
+      "logits/rejected": 0.009506871923804283,
+      "logps/chosen": -375.4892578125,
+      "logps/rejected": -355.96136474609375,
+      "loss": 0.232,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.5489501357078552,
+      "rewards/margins": 0.44577375054359436,
+      "rewards/rejected": -0.9947239756584167,
       "step": 380
     },
     {
       "epoch": 1.1,
+      "learning_rate": 5.012291038691665e-07,
+      "logits/chosen": -0.292557954788208,
+      "logits/rejected": -0.12162590026855469,
+      "logps/chosen": -359.124755859375,
+      "logps/rejected": -338.5267333984375,
+      "loss": 0.2175,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.7096319794654846,
+      "rewards/margins": 0.47353801131248474,
+      "rewards/rejected": -1.1831700801849365,
       "step": 390
     },
     {
       "epoch": 1.12,
+      "learning_rate": 4.7665549260567063e-07,
+      "logits/chosen": -0.24239158630371094,
+      "logits/rejected": -0.13934944570064545,
+      "logps/chosen": -426.60369873046875,
+      "logps/rejected": -403.0608215332031,
+      "loss": 0.1717,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.8361096382141113,
+      "rewards/margins": 0.5920412540435791,
+      "rewards/rejected": -1.4281507730484009,
       "step": 400
     },
     {
       "epoch": 1.15,
+      "learning_rate": 4.521382964292663e-07,
+      "logits/chosen": -0.040043365210294724,
+      "logits/rejected": -0.01921779289841652,
+      "logps/chosen": -417.27215576171875,
+      "logps/rejected": -388.7860412597656,
+      "loss": 0.1755,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.9553691744804382,
+      "rewards/margins": 0.6799647212028503,
+      "rewards/rejected": -1.6353340148925781,
       "step": 410
     },
     {
       "epoch": 1.18,
+      "learning_rate": 4.277367643844574e-07,
+      "logits/chosen": -0.097591333091259,
+      "logits/rejected": 0.017194192856550217,
+      "logps/chosen": -437.2616271972656,
+      "logps/rejected": -411.5907287597656,
+      "loss": 0.1823,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.0141613483428955,
+      "rewards/margins": 0.5529431700706482,
+      "rewards/rejected": -1.567104458808899,
       "step": 420
     },
     {
       "epoch": 1.21,
+      "learning_rate": 4.035098659980891e-07,
+      "logits/chosen": 0.12445954233407974,
+      "logits/rejected": 0.16896803677082062,
+      "logps/chosen": -484.2261657714844,
+      "logps/rejected": -403.1665344238281,
+      "loss": 0.1577,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.9584755897521973,
+      "rewards/margins": 0.7136095762252808,
+      "rewards/rejected": -1.672085165977478,
       "step": 430
     },
     {
       "epoch": 1.24,
+      "learning_rate": 3.795161487716928e-07,
+      "logits/chosen": 0.10622860491275787,
+      "logits/rejected": 0.20460453629493713,
+      "logps/chosen": -416.31878662109375,
+      "logps/rejected": -390.43353271484375,
+      "loss": 0.1601,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.0357643365859985,
+      "rewards/margins": 0.6402472257614136,
+      "rewards/rejected": -1.6760118007659912,
       "step": 440
     },
     {
       "epoch": 1.26,
+      "learning_rate": 3.5581359669371223e-07,
+      "logits/chosen": 0.04869859293103218,
+      "logits/rejected": 0.1988603174686432,
+      "logps/chosen": -459.97161865234375,
+      "logps/rejected": -406.51129150390625,
+      "loss": 0.1485,
       "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.9077569246292114,
+      "rewards/margins": 0.6647528409957886,
+      "rewards/rejected": -1.572509527206421,
       "step": 450
     },
     {
       "epoch": 1.29,
+      "learning_rate": 3.324594901135326e-07,
+      "logits/chosen": 0.09600436687469482,
+      "logits/rejected": 0.2769695520401001,
+      "logps/chosen": -412.62481689453125,
+      "logps/rejected": -427.94573974609375,
+      "loss": 0.1594,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.8976230621337891,
+      "rewards/margins": 0.6307999491691589,
+      "rewards/rejected": -1.5284230709075928,
       "step": 460
     },
     {
       "epoch": 1.32,
+      "learning_rate": 3.095102673159463e-07,
+      "logits/chosen": -0.04745341092348099,
+      "logits/rejected": 0.04035920277237892,
+      "logps/chosen": -448.31304931640625,
+      "logps/rejected": -434.83026123046875,
+      "loss": 0.162,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -1.009493112564087,
+      "rewards/margins": 0.8154042363166809,
+      "rewards/rejected": -1.8248971700668335,
       "step": 470
     },
     {
       "epoch": 1.35,
+      "learning_rate": 2.870213881305802e-07,
+      "logits/chosen": 0.003581273602321744,
+      "logits/rejected": 0.15165765583515167,
+      "logps/chosen": -442.5594177246094,
+      "logps/rejected": -411.17144775390625,
+      "loss": 0.1555,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.9550750851631165,
+      "rewards/margins": 0.7856963872909546,
+      "rewards/rejected": -1.7407715320587158,
       "step": 480
     },
     {
       "epoch": 1.38,
+      "learning_rate": 2.6504719990588745e-07,
+      "logits/chosen": -0.00950574316084385,
+      "logits/rejected": 0.15859754383563995,
+      "logps/chosen": -484.21954345703125,
+      "logps/rejected": -441.0923767089844,
+      "loss": 0.1608,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.0694897174835205,
+      "rewards/margins": 0.7761608362197876,
+      "rewards/rejected": -1.8456504344940186,
       "step": 490
     },
     {
       "epoch": 1.4,
+      "learning_rate": 2.436408061715988e-07,
+      "logits/chosen": -0.03855917602777481,
+      "logits/rejected": 0.09556344896554947,
+      "logps/chosen": -491.30523681640625,
+      "logps/rejected": -452.349609375,
+      "loss": 0.1511,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.0780155658721924,
+      "rewards/margins": 0.823270320892334,
+      "rewards/rejected": -1.9012857675552368,
       "step": 500
     },
     {
       "epoch": 1.43,
+      "learning_rate": 2.22853938307025e-07,
+      "logits/chosen": 0.043701499700546265,
+      "logits/rejected": 0.22214682400226593,
+      "logps/chosen": -456.72662353515625,
+      "logps/rejected": -426.0232849121094,
+      "loss": 0.1501,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.9664266705513,
+      "rewards/margins": 0.6386443376541138,
+      "rewards/rejected": -1.6050708293914795,
       "step": 510
     },
     {
       "epoch": 1.46,
+      "learning_rate": 2.0273683052534173e-07,
+      "logits/chosen": 0.0689583569765091,
+      "logits/rejected": 0.1506797820329666,
+      "logps/chosen": -445.80133056640625,
+      "logps/rejected": -414.3836975097656,
+      "loss": 0.1396,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -1.0923160314559937,
+      "rewards/margins": 0.7477865219116211,
+      "rewards/rejected": -1.8401025533676147,
       "step": 520
     },
     {
       "epoch": 1.49,
+      "learning_rate": 1.833380984759764e-07,
+      "logits/chosen": 0.10293974727392197,
+      "logits/rejected": 0.26486995816230774,
+      "logps/chosen": -436.48907470703125,
+      "logps/rejected": -422.7872009277344,
+      "loss": 0.1299,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.0291588306427002,
+      "rewards/margins": 0.720792829990387,
+      "rewards/rejected": -1.749951720237732,
       "step": 530
     },
     {
       "epoch": 1.52,
+      "learning_rate": 1.6470462175846606e-07,
+      "logits/chosen": 0.07386808097362518,
+      "logits/rejected": 0.2429957389831543,
+      "logps/chosen": -517.3760986328125,
+      "logps/rejected": -460.2138671875,
+      "loss": 0.1413,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -1.3018550872802734,
+      "rewards/margins": 0.7603974342346191,
+      "rewards/rejected": -2.0622525215148926,
       "step": 540
     },
     {
       "epoch": 1.55,
+      "learning_rate": 1.468814306317092e-07,
+      "logits/chosen": 0.11437557637691498,
+      "logits/rejected": 0.2697022557258606,
+      "logps/chosen": -451.03326416015625,
+      "logps/rejected": -420.84100341796875,
+      "loss": 0.1376,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -1.2259981632232666,
+      "rewards/margins": 0.9535650014877319,
+      "rewards/rejected": -2.179563045501709,
       "step": 550
     },
     {
       "epoch": 1.57,
+      "learning_rate": 1.299115971923958e-07,
+      "logits/chosen": 0.07330118119716644,
+      "logits/rejected": 0.24497468769550323,
+      "logps/chosen": -482.2550354003906,
+      "logps/rejected": -460.70367431640625,
+      "loss": 0.1354,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.2959102392196655,
+      "rewards/margins": 0.8086190223693848,
+      "rewards/rejected": -2.10452938079834,
       "step": 560
     },
     {
       "epoch": 1.6,
+      "learning_rate": 1.1383613128559305e-07,
+      "logits/chosen": 0.15279309451580048,
+      "logits/rejected": 0.3158939480781555,
+      "logps/chosen": -485.0721740722656,
+      "logps/rejected": -450.25799560546875,
+      "loss": 0.1225,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -1.0827850103378296,
+      "rewards/margins": 0.839277446269989,
+      "rewards/rejected": -1.9220625162124634,
       "step": 570
     },
     {
       "epoch": 1.63,
+      "learning_rate": 9.869388139903495e-08,
+      "logits/chosen": 0.09564773738384247,
+      "logits/rejected": 0.150350421667099,
+      "logps/chosen": -427.63616943359375,
+      "logps/rejected": -459.97064208984375,
+      "loss": 0.1297,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -1.125893473625183,
+      "rewards/margins": 0.7602401971817017,
+      "rewards/rejected": -1.8861335515975952,
       "step": 580
     },
     {
       "epoch": 1.66,
+      "learning_rate": 8.452144078061818e-08,
+      "logits/chosen": 0.08417952060699463,
+      "logits/rejected": 0.249791219830513,
+      "logps/chosen": -476.9566345214844,
+      "logps/rejected": -474.86944580078125,
+      "loss": 0.1333,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.174066185951233,
+      "rewards/margins": 0.9380697011947632,
+      "rewards/rejected": -2.112135648727417,
       "step": 590
     },
     {
       "epoch": 1.69,
+      "learning_rate": 7.135305900598321e-08,
+      "logits/chosen": 0.11366138607263565,
+      "logits/rejected": 0.24674567580223083,
+      "logps/chosen": -484.5184631347656,
+      "logps/rejected": -416.90863037109375,
+      "loss": 0.1273,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.1246851682662964,
+      "rewards/margins": 0.781345546245575,
+      "rewards/rejected": -1.9060306549072266,
       "step": 600
     },
     {
       "epoch": 1.71,
+      "learning_rate": 5.9220559209888166e-08,
+      "logits/chosen": 0.10064254701137543,
+      "logits/rejected": 0.16818474233150482,
+      "logps/chosen": -491.97662353515625,
+      "logps/rejected": -483.4784240722656,
+      "loss": 0.1357,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.2799218893051147,
+      "rewards/margins": 0.9080696105957031,
+      "rewards/rejected": -2.1879916191101074,
       "step": 610
     },
     {
       "epoch": 1.74,
+      "learning_rate": 4.815326118139812e-08,
+      "logits/chosen": 0.08698529005050659,
+      "logits/rejected": 0.18599075078964233,
+      "logps/chosen": -458.9814453125,
+      "logps/rejected": -416.03424072265625,
+      "loss": 0.1329,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.0884288549423218,
+      "rewards/margins": 0.8256447911262512,
+      "rewards/rejected": -1.9140735864639282,
       "step": 620
     },
     {
       "epoch": 1.77,
+      "learning_rate": 3.81779105087407e-08,
+      "logits/chosen": 0.028252029791474342,
+      "logits/rejected": 0.24228385090827942,
+      "logps/chosen": -447.22283935546875,
+      "logps/rejected": -428.1376953125,
+      "loss": 0.1349,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.2487438917160034,
+      "rewards/margins": 0.7152423858642578,
+      "rewards/rejected": -1.9639861583709717,
       "step": 630
     },
     {
       "epoch": 1.8,
+      "learning_rate": 2.9318613945057637e-08,
+      "logits/chosen": 0.03168308362364769,
+      "logits/rejected": 0.14438685774803162,
+      "logps/chosen": -530.6989135742188,
+      "logps/rejected": -481.19317626953125,
+      "loss": 0.1283,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -1.2953087091445923,
+      "rewards/margins": 0.9182836413383484,
+      "rewards/rejected": -2.213592529296875,
       "step": 640
     },
     {
       "epoch": 1.83,
+      "learning_rate": 2.1596781151249523e-08,
+      "logits/chosen": 0.15784808993339539,
+      "logits/rejected": 0.28222331404685974,
+      "logps/chosen": -461.800048828125,
+      "logps/rejected": -412.47320556640625,
+      "loss": 0.136,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -1.0977789163589478,
+      "rewards/margins": 0.8101053237915039,
+      "rewards/rejected": -1.9078842401504517,
       "step": 650
     },
     {
       "epoch": 1.85,
+      "learning_rate": 1.5031072956701695e-08,
+      "logits/chosen": 0.04679325968027115,
+      "logits/rejected": 0.1709231436252594,
+      "logps/chosen": -501.66656494140625,
+      "logps/rejected": -491.91925048828125,
+      "loss": 0.1335,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -1.1601709127426147,
+      "rewards/margins": 1.024567723274231,
+      "rewards/rejected": -2.1847386360168457,
       "step": 660
     },
     {
       "epoch": 1.88,
+      "learning_rate": 9.637356262923723e-09,
+      "logits/chosen": 0.12124764919281006,
+      "logits/rejected": 0.2632105350494385,
+      "logps/chosen": -449.41064453125,
+      "logps/rejected": -440.3700256347656,
+      "loss": 0.125,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.137796401977539,
+      "rewards/margins": 0.832270622253418,
+      "rewards/rejected": -1.970067024230957,
       "step": 670
     },
     {
       "epoch": 1.91,
+      "learning_rate": 5.428665699084789e-09,
+      "logits/chosen": -0.006133219692856073,
+      "logits/rejected": 0.22374041378498077,
+      "logps/chosen": -471.9480895996094,
+      "logps/rejected": -433.7080078125,
+      "loss": 0.1286,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -1.1709232330322266,
+      "rewards/margins": 0.926952064037323,
+      "rewards/rejected": -2.0978751182556152,
       "step": 680
     },
     {
       "epoch": 1.94,
+      "learning_rate": 2.415172122110343e-09,
+      "logits/chosen": -0.02816038951277733,
+      "logits/rejected": 0.07123323529958725,
+      "logps/chosen": -522.4472045898438,
+      "logps/rejected": -474.63934326171875,
+      "loss": 0.1306,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -1.2836827039718628,
+      "rewards/margins": 0.8452218174934387,
+      "rewards/rejected": -2.1289045810699463,
       "step": 690
     },
     {
       "epoch": 1.97,
+      "learning_rate": 6.041580374618327e-10,
+      "logits/chosen": 0.06725062429904938,
+      "logits/rejected": 0.20876435935497284,
+      "logps/chosen": -496.45098876953125,
+      "logps/rejected": -499.33856201171875,
+      "loss": 0.1292,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.3299496173858643,
+      "rewards/margins": 0.8479114770889282,
+      "rewards/rejected": -2.177860975265503,
       "step": 700
     },
     {
       "epoch": 2.0,
       "learning_rate": 0.0,
+      "logits/chosen": 0.11434557288885117,
+      "logits/rejected": 0.21849770843982697,
+      "logps/chosen": -448.5828552246094,
+      "logps/rejected": -464.2832946777344,
+      "loss": 0.1326,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -1.2470009326934814,
+      "rewards/margins": 0.9275137782096863,
+      "rewards/rejected": -2.1745147705078125,
       "step": 710
     },
     {
       "epoch": 2.0,
       "step": 710,
       "total_flos": 0.0,
+      "train_loss": 0.25192113166124047,
+      "train_runtime": 8113.4503,
+      "train_samples_per_second": 11.228,
+      "train_steps_per_second": 0.088
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fda369e142d3189323c2d59bf379d7fe0026912ef983c553220d80f8569efb58
 size 6008

 version https://git-lfs.github.com/spec/v1
+oid sha256:c481ba85df8845bff76e10943520a1179a74d1197923c5d013b878850f576711
 size 6008