Model save

Browse files

Files changed (6) hide show

README.md +61 -0
adapter_model.safetensors +1 -1
all_results.json +8 -0
runs/May21_02-50-47_gpu4-119-5/events.out.tfevents.1716224008.gpu4-119-5.1224963.0 +2 -2
train_results.json +8 -0
trainer_state.json +1346 -0

README.md ADDED Viewed

	@@ -0,0 +1,61 @@

+---
+library_name: peft
+tags:
+- trl
+- dpo
+- generated_from_trainer
+base_model: DUAL-GPO/phi-2-irepo-chatml-merged-i0
+model-index:
+- name: phi-2-irepo-chatml-v12-i1
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# phi-2-irepo-chatml-v12-i1
+This model is a fine-tuned version of [DUAL-GPO/phi-2-irepo-chatml-merged-i0](https://huggingface.co/DUAL-GPO/phi-2-irepo-chatml-merged-i0) on the None dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 32
+- total_eval_batch_size: 8
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+### Framework versions
+- PEFT 0.7.1
+- Transformers 4.36.2
+- Pytorch 2.1.2+cu121
+- Datasets 2.14.6
+- Tokenizers 0.15.2

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2248c1aaab890e45119b8355d8513315ef5351c6bff7433889be21739d0c7056
 size 335579632

 version https://git-lfs.github.com/spec/v1
+oid sha256:65ffeecb360e1d6ca4df09840309227cf8b939667bca09179ab07502707dcbe7
 size 335579632

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.275421927202982,
+    "train_runtime": 7850.8319,
+    "train_samples": 30000,
+    "train_samples_per_second": 3.821,
+    "train_steps_per_second": 0.119
+}

runs/May21_02-50-47_gpu4-119-5/events.out.tfevents.1716224008.gpu4-119-5.1224963.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:156dc8535ed321d1a0d643dbd5ae442593892ee25bff44478374f8c9583aa257
-size 62464

 version https://git-lfs.github.com/spec/v1
+oid sha256:bfae93cc43fb7a11be44a827b8db1ce4cc0fc0f051dd91e21c4ff9048ecf4365
+size 64720

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.275421927202982,
+    "train_runtime": 7850.8319,
+    "train_samples": 30000,
+    "train_samples_per_second": 3.821,
+    "train_steps_per_second": 0.119
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1346 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9994666666666666,
+  "eval_steps": 500,
+  "global_step": 937,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 5.319148936170213e-08,
+      "logits/chosen": 0.06642268598079681,
+      "logits/rejected": 0.23397813737392426,
+      "logps/chosen": -587.28369140625,
+      "logps/rejected": -568.082763671875,
+      "loss": 0.279,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 5.319148936170213e-07,
+      "logits/chosen": 0.16077889502048492,
+      "logits/rejected": 0.28465068340301514,
+      "logps/chosen": -462.99114990234375,
+      "logps/rejected": -441.3485107421875,
+      "loss": 0.303,
+      "rewards/accuracies": 0.4236111044883728,
+      "rewards/chosen": -0.0005749252159148455,
+      "rewards/margins": 0.0002628265065141022,
+      "rewards/rejected": -0.0008377517224289477,
+      "step": 10
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.0638297872340427e-06,
+      "logits/chosen": 0.2244517058134079,
+      "logits/rejected": 0.2146037071943283,
+      "logps/chosen": -456.9951171875,
+      "logps/rejected": -442.496826171875,
+      "loss": 0.3007,
+      "rewards/accuracies": 0.33125001192092896,
+      "rewards/chosen": -0.0011023276019841433,
+      "rewards/margins": -6.420163117581978e-05,
+      "rewards/rejected": -0.0010381259489804506,
+      "step": 20
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.595744680851064e-06,
+      "logits/chosen": 0.34518542885780334,
+      "logits/rejected": 0.15579931437969208,
+      "logps/chosen": -414.3968200683594,
+      "logps/rejected": -407.1432800292969,
+      "loss": 0.3064,
+      "rewards/accuracies": 0.3812499940395355,
+      "rewards/chosen": -0.0004762631724588573,
+      "rewards/margins": 6.935702549526468e-05,
+      "rewards/rejected": -0.0005456201615743339,
+      "step": 30
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.1276595744680853e-06,
+      "logits/chosen": 0.19979876279830933,
+      "logits/rejected": 0.1475386917591095,
+      "logps/chosen": -387.1222839355469,
+      "logps/rejected": -380.3912048339844,
+      "loss": 0.3173,
+      "rewards/accuracies": 0.36250001192092896,
+      "rewards/chosen": 8.398960198974237e-05,
+      "rewards/margins": 0.0001377248700009659,
+      "rewards/rejected": -5.3735253459308296e-05,
+      "step": 40
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.6595744680851065e-06,
+      "logits/chosen": 0.20050282776355743,
+      "logits/rejected": 0.2853023409843445,
+      "logps/chosen": -405.1722717285156,
+      "logps/rejected": -433.797119140625,
+      "loss": 0.2969,
+      "rewards/accuracies": 0.38749998807907104,
+      "rewards/chosen": -0.00031604920513927937,
+      "rewards/margins": 9.358949318993837e-05,
+      "rewards/rejected": -0.0004096386837773025,
+      "step": 50
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 3.191489361702128e-06,
+      "logits/chosen": 0.22685687243938446,
+      "logits/rejected": 0.2761882245540619,
+      "logps/chosen": -418.8284606933594,
+      "logps/rejected": -444.300537109375,
+      "loss": 0.2916,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.0013369970256462693,
+      "rewards/margins": 0.00045625813072547317,
+      "rewards/rejected": -0.0017932550981640816,
+      "step": 60
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 3.723404255319149e-06,
+      "logits/chosen": 0.1869155615568161,
+      "logits/rejected": 0.2700553834438324,
+      "logps/chosen": -443.9104919433594,
+      "logps/rejected": -423.21075439453125,
+      "loss": 0.2976,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": -0.003828343003988266,
+      "rewards/margins": 0.0006897930870763958,
+      "rewards/rejected": -0.004518135450780392,
+      "step": 70
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.255319148936171e-06,
+      "logits/chosen": 0.23689034581184387,
+      "logits/rejected": 0.21069273352622986,
+      "logps/chosen": -386.25067138671875,
+      "logps/rejected": -387.7801818847656,
+      "loss": 0.3143,
+      "rewards/accuracies": 0.48124998807907104,
+      "rewards/chosen": -0.003951665014028549,
+      "rewards/margins": 0.0011586709879338741,
+      "rewards/rejected": -0.005110335536301136,
+      "step": 80
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.787234042553192e-06,
+      "logits/chosen": 0.24118606746196747,
+      "logits/rejected": 0.25480058789253235,
+      "logps/chosen": -412.43499755859375,
+      "logps/rejected": -408.15802001953125,
+      "loss": 0.3065,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.010140495374798775,
+      "rewards/margins": 0.001615689368918538,
+      "rewards/rejected": -0.01175618451088667,
+      "step": 90
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.999375059004058e-06,
+      "logits/chosen": 0.1671404391527176,
+      "logits/rejected": 0.2540619969367981,
+      "logps/chosen": -389.2574157714844,
+      "logps/rejected": -388.87408447265625,
+      "loss": 0.3053,
+      "rewards/accuracies": 0.4937500059604645,
+      "rewards/chosen": -0.022764097899198532,
+      "rewards/margins": 0.0024351924657821655,
+      "rewards/rejected": -0.02519928850233555,
+      "step": 100
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.9955571065548795e-06,
+      "logits/chosen": 0.23305337131023407,
+      "logits/rejected": 0.22437167167663574,
+      "logps/chosen": -441.59771728515625,
+      "logps/rejected": -446.51971435546875,
+      "loss": 0.3081,
+      "rewards/accuracies": 0.4937500059604645,
+      "rewards/chosen": -0.04231434687972069,
+      "rewards/margins": 0.003846729639917612,
+      "rewards/rejected": -0.04616107791662216,
+      "step": 110
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.9882736864879e-06,
+      "logits/chosen": 0.17237094044685364,
+      "logits/rejected": 0.20950445532798767,
+      "logps/chosen": -497.03741455078125,
+      "logps/rejected": -493.6482849121094,
+      "loss": 0.3001,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -0.06084052473306656,
+      "rewards/margins": 0.009210348129272461,
+      "rewards/rejected": -0.07005088031291962,
+      "step": 120
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.977534912960124e-06,
+      "logits/chosen": 0.12596510350704193,
+      "logits/rejected": 0.18595007061958313,
+      "logps/chosen": -534.695556640625,
+      "logps/rejected": -506.4364318847656,
+      "loss": 0.285,
+      "rewards/accuracies": 0.4937500059604645,
+      "rewards/chosen": -0.09366725385189056,
+      "rewards/margins": 0.009929810650646687,
+      "rewards/rejected": -0.10359706729650497,
+      "step": 130
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.963355698422092e-06,
+      "logits/chosen": 0.12804082036018372,
+      "logits/rejected": 0.10300163924694061,
+      "logps/chosen": -515.469970703125,
+      "logps/rejected": -508.8036193847656,
+      "loss": 0.3043,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -0.11144615709781647,
+      "rewards/margins": 0.012134796939790249,
+      "rewards/rejected": -0.1235809326171875,
+      "step": 140
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.945755732909625e-06,
+      "logits/chosen": 0.16220004856586456,
+      "logits/rejected": 0.08028533309698105,
+      "logps/chosen": -479.33184814453125,
+      "logps/rejected": -524.7337646484375,
+      "loss": 0.2802,
+      "rewards/accuracies": 0.48124998807907104,
+      "rewards/chosen": -0.1306999772787094,
+      "rewards/margins": 0.03233319893479347,
+      "rewards/rejected": -0.16303318738937378,
+      "step": 150
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.924759456701167e-06,
+      "logits/chosen": 0.18928228318691254,
+      "logits/rejected": 0.14869533479213715,
+      "logps/chosen": -573.3798828125,
+      "logps/rejected": -610.5779418945312,
+      "loss": 0.2894,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -0.168126180768013,
+      "rewards/margins": 0.04517129063606262,
+      "rewards/rejected": -0.21329745650291443,
+      "step": 160
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.900396026378671e-06,
+      "logits/chosen": 0.062172818928956985,
+      "logits/rejected": 0.019718164578080177,
+      "logps/chosen": -475.08551025390625,
+      "logps/rejected": -561.6641845703125,
+      "loss": 0.2631,
+      "rewards/accuracies": 0.4312500059604645,
+      "rewards/chosen": -0.1646568328142166,
+      "rewards/margins": 0.06741134822368622,
+      "rewards/rejected": -0.23206815123558044,
+      "step": 170
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.872699274339169e-06,
+      "logits/chosen": -0.0011120836716145277,
+      "logits/rejected": 0.13960300385951996,
+      "logps/chosen": -525.2228393554688,
+      "logps/rejected": -511.014404296875,
+      "loss": 0.2908,
+      "rewards/accuracies": 0.4124999940395355,
+      "rewards/chosen": -0.14511564373970032,
+      "rewards/margins": 0.03634321317076683,
+      "rewards/rejected": -0.18145884573459625,
+      "step": 180
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.8417076618132434e-06,
+      "logits/chosen": 0.11656410992145538,
+      "logits/rejected": 0.08704119175672531,
+      "logps/chosen": -514.813720703125,
+      "logps/rejected": -595.0880126953125,
+      "loss": 0.2617,
+      "rewards/accuracies": 0.4937500059604645,
+      "rewards/chosen": -0.14817455410957336,
+      "rewards/margins": 0.04434273764491081,
+      "rewards/rejected": -0.19251729547977448,
+      "step": 190
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.807464225455655e-06,
+      "logits/chosen": 0.06601261347532272,
+      "logits/rejected": 0.12538839876651764,
+      "logps/chosen": -538.46142578125,
+      "logps/rejected": -592.1277465820312,
+      "loss": 0.2739,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.15786947309970856,
+      "rewards/margins": 0.04001317173242569,
+      "rewards/rejected": -0.19788263738155365,
+      "step": 200
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.770016517582283e-06,
+      "logits/chosen": 0.04595109820365906,
+      "logits/rejected": 0.05397043749690056,
+      "logps/chosen": -542.3662109375,
+      "logps/rejected": -587.703125,
+      "loss": 0.2803,
+      "rewards/accuracies": 0.44999998807907104,
+      "rewards/chosen": -0.15854400396347046,
+      "rewards/margins": 0.037279583513736725,
+      "rewards/rejected": -0.19582359492778778,
+      "step": 210
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.7294165401363616e-06,
+      "logits/chosen": 0.06908506900072098,
+      "logits/rejected": 0.0783570259809494,
+      "logps/chosen": -543.8673095703125,
+      "logps/rejected": -552.3768920898438,
+      "loss": 0.273,
+      "rewards/accuracies": 0.4437499940395355,
+      "rewards/chosen": -0.14275754988193512,
+      "rewards/margins": 0.04143111780285835,
+      "rewards/rejected": -0.18418867886066437,
+      "step": 220
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.68572067247573e-06,
+      "logits/chosen": 0.07219888269901276,
+      "logits/rejected": 0.0497373566031456,
+      "logps/chosen": -572.8856201171875,
+      "logps/rejected": -622.0572509765625,
+      "loss": 0.2833,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": -0.14573441445827484,
+      "rewards/margins": 0.06495748460292816,
+      "rewards/rejected": -0.210691899061203,
+      "step": 230
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.638989593081364e-06,
+      "logits/chosen": -0.10666439682245255,
+      "logits/rejected": 0.05354728549718857,
+      "logps/chosen": -541.7586059570312,
+      "logps/rejected": -586.1435546875,
+      "loss": 0.2883,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -0.14508689939975739,
+      "rewards/margins": 0.048395391553640366,
+      "rewards/rejected": -0.19348229467868805,
+      "step": 240
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 4.5892881952959015e-06,
+      "logits/chosen": 0.07505561411380768,
+      "logits/rejected": -0.051252782344818115,
+      "logps/chosen": -555.9990844726562,
+      "logps/rejected": -585.9085083007812,
+      "loss": 0.2815,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -0.14657357335090637,
+      "rewards/margins": 0.04433682560920715,
+      "rewards/rejected": -0.19091038405895233,
+      "step": 250
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 4.536685497209182e-06,
+      "logits/chosen": -0.020656492561101913,
+      "logits/rejected": 0.007626605220139027,
+      "logps/chosen": -612.7149658203125,
+      "logps/rejected": -613.846435546875,
+      "loss": 0.2945,
+      "rewards/accuracies": 0.4937500059604645,
+      "rewards/chosen": -0.1504904180765152,
+      "rewards/margins": 0.03951232135295868,
+      "rewards/rejected": -0.19000275433063507,
+      "step": 260
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.481254545815943e-06,
+      "logits/chosen": 0.06314031779766083,
+      "logits/rejected": 0.05012714862823486,
+      "logps/chosen": -572.8782958984375,
+      "logps/rejected": -599.4718627929688,
+      "loss": 0.286,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": -0.11262224614620209,
+      "rewards/margins": 0.0400107316672802,
+      "rewards/rejected": -0.15263298153877258,
+      "step": 270
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.42307231557875e-06,
+      "logits/chosen": 4.419684410095215e-05,
+      "logits/rejected": 0.1705075055360794,
+      "logps/chosen": -478.0445251464844,
+      "logps/rejected": -514.4085693359375,
+      "loss": 0.2574,
+      "rewards/accuracies": 0.4937500059604645,
+      "rewards/chosen": -0.08713702112436295,
+      "rewards/margins": 0.0530150942504406,
+      "rewards/rejected": -0.14015211164951324,
+      "step": 280
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 4.3622196015370305e-06,
+      "logits/chosen": -0.05049672722816467,
+      "logits/rejected": 0.10665085166692734,
+      "logps/chosen": -562.5294799804688,
+      "logps/rejected": -583.0447998046875,
+      "loss": 0.2866,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -0.12877288460731506,
+      "rewards/margins": 0.0415426567196846,
+      "rewards/rejected": -0.17031553387641907,
+      "step": 290
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.298780907110648e-06,
+      "logits/chosen": -0.13402745127677917,
+      "logits/rejected": 0.04227043688297272,
+      "logps/chosen": -570.83935546875,
+      "logps/rejected": -597.737060546875,
+      "loss": 0.2749,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -0.14190678298473358,
+      "rewards/margins": 0.054900676012039185,
+      "rewards/rejected": -0.19680745899677277,
+      "step": 300
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.23284432675381e-06,
+      "logits/chosen": -0.07339149713516235,
+      "logits/rejected": -0.040264565497636795,
+      "logps/chosen": -619.7767333984375,
+      "logps/rejected": -682.0263061523438,
+      "loss": 0.2589,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.16093352437019348,
+      "rewards/margins": 0.07607638835906982,
+      "rewards/rejected": -0.2370099127292633,
+      "step": 310
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.164501423622277e-06,
+      "logits/chosen": -0.028974998742341995,
+      "logits/rejected": -0.06319359689950943,
+      "logps/chosen": -549.9708862304688,
+      "logps/rejected": -637.650390625,
+      "loss": 0.264,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.13445612788200378,
+      "rewards/margins": 0.07859645038843155,
+      "rewards/rejected": -0.21305255591869354,
+      "step": 320
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.0938471024237355e-06,
+      "logits/chosen": -0.11449748277664185,
+      "logits/rejected": -0.03637564182281494,
+      "logps/chosen": -601.0888671875,
+      "logps/rejected": -669.8153076171875,
+      "loss": 0.2698,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": -0.1675841063261032,
+      "rewards/margins": 0.0730680450797081,
+      "rewards/rejected": -0.2406521737575531,
+      "step": 330
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 4.020979477627907e-06,
+      "logits/chosen": -0.08815717697143555,
+      "logits/rejected": 0.015436625108122826,
+      "logps/chosen": -504.43658447265625,
+      "logps/rejected": -530.493408203125,
+      "loss": 0.2631,
+      "rewards/accuracies": 0.41874998807907104,
+      "rewards/chosen": -0.11692949384450912,
+      "rewards/margins": 0.04244539141654968,
+      "rewards/rejected": -0.1593748927116394,
+      "step": 340
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 3.9459997372194105e-06,
+      "logits/chosen": -0.061802517622709274,
+      "logits/rejected": 0.09361619502305984,
+      "logps/chosen": -579.513671875,
+      "logps/rejected": -639.0809936523438,
+      "loss": 0.2755,
+      "rewards/accuracies": 0.5062500238418579,
+      "rewards/chosen": -0.16077642142772675,
+      "rewards/margins": 0.05602121353149414,
+      "rewards/rejected": -0.2167976200580597,
+      "step": 350
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.869012002182573e-06,
+      "logits/chosen": -0.10564370453357697,
+      "logits/rejected": 0.02583186700940132,
+      "logps/chosen": -590.0396728515625,
+      "logps/rejected": -647.909423828125,
+      "loss": 0.2786,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.15724439918994904,
+      "rewards/margins": 0.0704963356256485,
+      "rewards/rejected": -0.22774071991443634,
+      "step": 360
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 3.7901231819133104e-06,
+      "logits/chosen": -0.10458900034427643,
+      "logits/rejected": -0.004534685518592596,
+      "logps/chosen": -542.1465454101562,
+      "logps/rejected": -573.3040771484375,
+      "loss": 0.2668,
+      "rewards/accuracies": 0.4625000059604645,
+      "rewards/chosen": -0.1385766863822937,
+      "rewards/margins": 0.05575231835246086,
+      "rewards/rejected": -0.19432899355888367,
+      "step": 370
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 3.709442825758875e-06,
+      "logits/chosen": -0.06990720331668854,
+      "logits/rejected": 0.01404495257884264,
+      "logps/chosen": -505.4917907714844,
+      "logps/rejected": -572.2424926757812,
+      "loss": 0.2636,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": -0.14204895496368408,
+      "rewards/margins": 0.050913404673337936,
+      "rewards/rejected": -0.19296236336231232,
+      "step": 380
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 3.6270829708916113e-06,
+      "logits/chosen": -0.040005024522542953,
+      "logits/rejected": 0.017743710428476334,
+      "logps/chosen": -548.9078369140625,
+      "logps/rejected": -573.68408203125,
+      "loss": 0.2815,
+      "rewards/accuracies": 0.4625000059604645,
+      "rewards/chosen": -0.1460207998752594,
+      "rewards/margins": 0.041480742394924164,
+      "rewards/rejected": -0.18750153481960297,
+      "step": 390
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 3.543157986727991e-06,
+      "logits/chosen": -0.13051895797252655,
+      "logits/rejected": 0.012003961019217968,
+      "logps/chosen": -543.142578125,
+      "logps/rejected": -594.59326171875,
+      "loss": 0.2753,
+      "rewards/accuracies": 0.512499988079071,
+      "rewards/chosen": -0.13953322172164917,
+      "rewards/margins": 0.0578032024204731,
+      "rewards/rejected": -0.19733640551567078,
+      "step": 400
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 3.4577844161089614e-06,
+      "logits/chosen": -0.03122936561703682,
+      "logits/rejected": 0.010242189280688763,
+      "logps/chosen": -564.1265869140625,
+      "logps/rejected": -600.2008666992188,
+      "loss": 0.2742,
+      "rewards/accuracies": 0.4625000059604645,
+      "rewards/chosen": -0.14681796729564667,
+      "rewards/margins": 0.06189022213220596,
+      "rewards/rejected": -0.20870819687843323,
+      "step": 410
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 3.3710808134621577e-06,
+      "logits/chosen": -0.010301386937499046,
+      "logits/rejected": -0.039281733334064484,
+      "logps/chosen": -603.3815307617188,
+      "logps/rejected": -645.9063110351562,
+      "loss": 0.2761,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": -0.15229162573814392,
+      "rewards/margins": 0.06186581775546074,
+      "rewards/rejected": -0.21415743231773376,
+      "step": 420
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 3.2831675801707126e-06,
+      "logits/chosen": -0.08892063051462173,
+      "logits/rejected": -0.0773845762014389,
+      "logps/chosen": -537.9869995117188,
+      "logps/rejected": -586.5262451171875,
+      "loss": 0.2721,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.13618162274360657,
+      "rewards/margins": 0.06536873430013657,
+      "rewards/rejected": -0.20155039429664612,
+      "step": 430
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 3.194166797377289e-06,
+      "logits/chosen": -0.03688632696866989,
+      "logits/rejected": -0.00927029736340046,
+      "logps/chosen": -540.3975219726562,
+      "logps/rejected": -622.5618896484375,
+      "loss": 0.2622,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.12767064571380615,
+      "rewards/margins": 0.07470119744539261,
+      "rewards/rejected": -0.20237183570861816,
+      "step": 440
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 3.104202056455501e-06,
+      "logits/chosen": -0.05976264923810959,
+      "logits/rejected": -0.16253043711185455,
+      "logps/chosen": -514.6741943359375,
+      "logps/rejected": -578.7728271484375,
+      "loss": 0.2588,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": -0.13386496901512146,
+      "rewards/margins": 0.05132218077778816,
+      "rewards/rejected": -0.18518713116645813,
+      "step": 450
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 3.013398287384144e-06,
+      "logits/chosen": -0.15890637040138245,
+      "logits/rejected": -0.05094796419143677,
+      "logps/chosen": -516.9619750976562,
+      "logps/rejected": -604.88525390625,
+      "loss": 0.2671,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": -0.11203358322381973,
+      "rewards/margins": 0.08909189701080322,
+      "rewards/rejected": -0.20112547278404236,
+      "step": 460
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.9218815852625717e-06,
+      "logits/chosen": -0.17138849198818207,
+      "logits/rejected": -0.08313537389039993,
+      "logps/chosen": -573.4813232421875,
+      "logps/rejected": -608.16552734375,
+      "loss": 0.2695,
+      "rewards/accuracies": 0.518750011920929,
+      "rewards/chosen": -0.13088415563106537,
+      "rewards/margins": 0.047856587916612625,
+      "rewards/rejected": -0.1787407547235489,
+      "step": 470
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 2.829779035208113e-06,
+      "logits/chosen": -0.12412846088409424,
+      "logits/rejected": -0.11923656612634659,
+      "logps/chosen": -472.38726806640625,
+      "logps/rejected": -527.9046020507812,
+      "loss": 0.2658,
+      "rewards/accuracies": 0.44999998807907104,
+      "rewards/chosen": -0.09405693411827087,
+      "rewards/margins": 0.057601846754550934,
+      "rewards/rejected": -0.1516587734222412,
+      "step": 480
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 2.737218535878705e-06,
+      "logits/chosen": -0.11355652660131454,
+      "logits/rejected": -0.06184381991624832,
+      "logps/chosen": -522.3283081054688,
+      "logps/rejected": -575.9847412109375,
+      "loss": 0.2596,
+      "rewards/accuracies": 0.4937500059604645,
+      "rewards/chosen": -0.11173069477081299,
+      "rewards/margins": 0.06776181608438492,
+      "rewards/rejected": -0.1794925034046173,
+      "step": 490
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.64432862186579e-06,
+      "logits/chosen": -0.1486915647983551,
+      "logits/rejected": -0.1126946210861206,
+      "logps/chosen": -472.10009765625,
+      "logps/rejected": -565.5072021484375,
+      "loss": 0.2578,
+      "rewards/accuracies": 0.512499988079071,
+      "rewards/chosen": -0.10586412250995636,
+      "rewards/margins": 0.08054044097661972,
+      "rewards/rejected": -0.1864045411348343,
+      "step": 500
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 2.551238285204126e-06,
+      "logits/chosen": -0.07071704417467117,
+      "logits/rejected": -0.06895752251148224,
+      "logps/chosen": -553.7777709960938,
+      "logps/rejected": -641.0071411132812,
+      "loss": 0.2755,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": -0.12443629652261734,
+      "rewards/margins": 0.08012167364358902,
+      "rewards/rejected": -0.20455794036388397,
+      "step": 510
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 2.4580767962463688e-06,
+      "logits/chosen": -0.07696928828954697,
+      "logits/rejected": 0.0007179826498031616,
+      "logps/chosen": -548.6107788085938,
+      "logps/rejected": -587.250732421875,
+      "loss": 0.2776,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": -0.14552563428878784,
+      "rewards/margins": 0.04918716475367546,
+      "rewards/rejected": -0.1947127878665924,
+      "step": 520
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 2.3649735241511546e-06,
+      "logits/chosen": -0.07807435840368271,
+      "logits/rejected": 0.01831636391580105,
+      "logps/chosen": -556.7833251953125,
+      "logps/rejected": -576.1497192382812,
+      "loss": 0.2592,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -0.13193278014659882,
+      "rewards/margins": 0.05105576664209366,
+      "rewards/rejected": -0.18298853933811188,
+      "step": 530
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.2720577572339914e-06,
+      "logits/chosen": -0.014492440037429333,
+      "logits/rejected": -0.10470409691333771,
+      "logps/chosen": -520.7554931640625,
+      "logps/rejected": -621.583251953125,
+      "loss": 0.2589,
+      "rewards/accuracies": 0.518750011920929,
+      "rewards/chosen": -0.1109011173248291,
+      "rewards/margins": 0.08521705865859985,
+      "rewards/rejected": -0.19611816108226776,
+      "step": 540
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 2.1794585234303995e-06,
+      "logits/chosen": -0.09592770040035248,
+      "logits/rejected": 0.03173860162496567,
+      "logps/chosen": -527.00537109375,
+      "logps/rejected": -587.9857177734375,
+      "loss": 0.2698,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": -0.13213616609573364,
+      "rewards/margins": 0.07161318510770798,
+      "rewards/rejected": -0.2037493735551834,
+      "step": 550
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 2.0873044111206407e-06,
+      "logits/chosen": -0.08211179822683334,
+      "logits/rejected": -0.07464434206485748,
+      "logps/chosen": -526.9556884765625,
+      "logps/rejected": -597.501708984375,
+      "loss": 0.263,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -0.12764397263526917,
+      "rewards/margins": 0.07685311138629913,
+      "rewards/rejected": -0.2044970691204071,
+      "step": 560
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.9957233905648293e-06,
+      "logits/chosen": -0.17138975858688354,
+      "logits/rejected": 0.06973910331726074,
+      "logps/chosen": -606.2980346679688,
+      "logps/rejected": -656.0491943359375,
+      "loss": 0.2673,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.13349631428718567,
+      "rewards/margins": 0.08181539922952652,
+      "rewards/rejected": -0.2153116911649704,
+      "step": 570
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.904842636196402e-06,
+      "logits/chosen": -0.12237439304590225,
+      "logits/rejected": 0.0009635284659452736,
+      "logps/chosen": -486.32818603515625,
+      "logps/rejected": -522.0555419921875,
+      "loss": 0.2611,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -0.09265846014022827,
+      "rewards/margins": 0.06704847514629364,
+      "rewards/rejected": -0.15970692038536072,
+      "step": 580
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 1.814788350020726e-06,
+      "logits/chosen": -0.0846022367477417,
+      "logits/rejected": 0.020748872309923172,
+      "logps/chosen": -515.6177368164062,
+      "logps/rejected": -512.121337890625,
+      "loss": 0.288,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": -0.10487208515405655,
+      "rewards/margins": 0.0322984978556633,
+      "rewards/rejected": -0.13717058300971985,
+      "step": 590
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.725685586364051e-06,
+      "logits/chosen": -0.1460862159729004,
+      "logits/rejected": -0.06654468178749084,
+      "logps/chosen": -464.4956970214844,
+      "logps/rejected": -489.59161376953125,
+      "loss": 0.2786,
+      "rewards/accuracies": 0.40625,
+      "rewards/chosen": -0.09209474176168442,
+      "rewards/margins": 0.04379875212907791,
+      "rewards/rejected": -0.13589349389076233,
+      "step": 600
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.6376580782162172e-06,
+      "logits/chosen": -0.1410539448261261,
+      "logits/rejected": -0.08074741810560226,
+      "logps/chosen": -483.46893310546875,
+      "logps/rejected": -526.5164794921875,
+      "loss": 0.2829,
+      "rewards/accuracies": 0.5062500238418579,
+      "rewards/chosen": -0.09680439531803131,
+      "rewards/margins": 0.06490226835012436,
+      "rewards/rejected": -0.16170665621757507,
+      "step": 610
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.550828065408227e-06,
+      "logits/chosen": -0.09655305743217468,
+      "logits/rejected": -0.0762481540441513,
+      "logps/chosen": -468.4337463378906,
+      "logps/rejected": -525.4623413085938,
+      "loss": 0.2619,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.08364450931549072,
+      "rewards/margins": 0.0691133439540863,
+      "rewards/rejected": -0.15275785326957703,
+      "step": 620
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.4653161248633053e-06,
+      "logits/chosen": -0.03865772485733032,
+      "logits/rejected": -0.10341192781925201,
+      "logps/chosen": -468.88763427734375,
+      "logps/rejected": -524.7953491210938,
+      "loss": 0.2589,
+      "rewards/accuracies": 0.5062500238418579,
+      "rewards/chosen": -0.08644279092550278,
+      "rewards/margins": 0.0591856949031353,
+      "rewards/rejected": -0.14562849700450897,
+      "step": 630
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.381241003157162e-06,
+      "logits/chosen": -0.08597133308649063,
+      "logits/rejected": 0.0006229489808902144,
+      "logps/chosen": -556.832275390625,
+      "logps/rejected": -577.3524780273438,
+      "loss": 0.2942,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -0.1141686886548996,
+      "rewards/margins": 0.03842983394861221,
+      "rewards/rejected": -0.1525985300540924,
+      "step": 640
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.298719451619979e-06,
+      "logits/chosen": -0.09541022032499313,
+      "logits/rejected": -0.05003209039568901,
+      "logps/chosen": -469.9234313964844,
+      "logps/rejected": -529.8631591796875,
+      "loss": 0.2683,
+      "rewards/accuracies": 0.45625001192092896,
+      "rewards/chosen": -0.09767267853021622,
+      "rewards/margins": 0.054049454629421234,
+      "rewards/rejected": -0.15172213315963745,
+      "step": 650
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.2178660642091036e-06,
+      "logits/chosen": -0.2083953619003296,
+      "logits/rejected": 0.05156536027789116,
+      "logps/chosen": -587.299560546875,
+      "logps/rejected": -581.7611694335938,
+      "loss": 0.2608,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -0.10773968696594238,
+      "rewards/margins": 0.06141304969787598,
+      "rewards/rejected": -0.16915276646614075,
+      "step": 660
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1.1387931183775821e-06,
+      "logits/chosen": -0.09526301920413971,
+      "logits/rejected": -0.06854981184005737,
+      "logps/chosen": -553.5062255859375,
+      "logps/rejected": -567.5850219726562,
+      "loss": 0.2713,
+      "rewards/accuracies": 0.518750011920929,
+      "rewards/chosen": -0.10804013162851334,
+      "rewards/margins": 0.06674468517303467,
+      "rewards/rejected": -0.1747848242521286,
+      "step": 670
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.061610419159532e-06,
+      "logits/chosen": -0.15921640396118164,
+      "logits/rejected": -0.22180967032909393,
+      "logps/chosen": -464.23480224609375,
+      "logps/rejected": -517.2071533203125,
+      "loss": 0.2618,
+      "rewards/accuracies": 0.45625001192092896,
+      "rewards/chosen": -0.1085701733827591,
+      "rewards/margins": 0.06596361845731735,
+      "rewards/rejected": -0.17453376948833466,
+      "step": 680
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 9.864251466888364e-07,
+      "logits/chosen": -0.2035103738307953,
+      "logits/rejected": -0.13756130635738373,
+      "logps/chosen": -533.3971557617188,
+      "logps/rejected": -562.695068359375,
+      "loss": 0.2758,
+      "rewards/accuracies": 0.4437499940395355,
+      "rewards/chosen": -0.12624426186084747,
+      "rewards/margins": 0.05400489643216133,
+      "rewards/rejected": -0.1802491694688797,
+      "step": 690
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 9.133417073629288e-07,
+      "logits/chosen": -0.19000104069709778,
+      "logits/rejected": -0.17901551723480225,
+      "logps/chosen": -564.2060546875,
+      "logps/rejected": -620.484619140625,
+      "loss": 0.2765,
+      "rewards/accuracies": 0.44999998807907104,
+      "rewards/chosen": -0.12581291794776917,
+      "rewards/margins": 0.06180128455162048,
+      "rewards/rejected": -0.18761418759822845,
+      "step": 700
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 8.424615888583332e-07,
+      "logits/chosen": -0.1307680755853653,
+      "logits/rejected": -0.10078835487365723,
+      "logps/chosen": -524.8638916015625,
+      "logps/rejected": -553.104736328125,
+      "loss": 0.2792,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": -0.13305291533470154,
+      "rewards/margins": 0.040464796125888824,
+      "rewards/rejected": -0.17351767420768738,
+      "step": 710
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.738832191993092e-07,
+      "logits/chosen": -0.11268335580825806,
+      "logits/rejected": -0.05942006781697273,
+      "logps/chosen": -497.02325439453125,
+      "logps/rejected": -589.494384765625,
+      "loss": 0.267,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -0.11972874402999878,
+      "rewards/margins": 0.0718456357717514,
+      "rewards/rejected": -0.19157439470291138,
+      "step": 720
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 7.077018300752917e-07,
+      "logits/chosen": -0.14758452773094177,
+      "logits/rejected": -0.0012020498979836702,
+      "logps/chosen": -520.2757568359375,
+      "logps/rejected": -585.8750610351562,
+      "loss": 0.2769,
+      "rewards/accuracies": 0.45625001192092896,
+      "rewards/chosen": -0.11923079192638397,
+      "rewards/margins": 0.06183774396777153,
+      "rewards/rejected": -0.1810685396194458,
+      "step": 730
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.440093245969342e-07,
+      "logits/chosen": -0.1631493866443634,
+      "logits/rejected": -0.14262652397155762,
+      "logps/chosen": -531.8765869140625,
+      "logps/rejected": -570.99365234375,
+      "loss": 0.2753,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -0.11439726501703262,
+      "rewards/margins": 0.05860968679189682,
+      "rewards/rejected": -0.17300695180892944,
+      "step": 740
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 5.828941496744075e-07,
+      "logits/chosen": -0.13462567329406738,
+      "logits/rejected": -0.10775252431631088,
+      "logps/chosen": -528.6737060546875,
+      "logps/rejected": -559.4716796875,
+      "loss": 0.2773,
+      "rewards/accuracies": 0.518750011920929,
+      "rewards/chosen": -0.11941119283437729,
+      "rewards/margins": 0.06873499602079391,
+      "rewards/rejected": -0.1881461888551712,
+      "step": 750
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 5.244411731951671e-07,
+      "logits/chosen": -0.10648471117019653,
+      "logits/rejected": -0.12774226069450378,
+      "logps/chosen": -540.2073974609375,
+      "logps/rejected": -609.1519165039062,
+      "loss": 0.2717,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.1273835450410843,
+      "rewards/margins": 0.07286655902862549,
+      "rewards/rejected": -0.2002500742673874,
+      "step": 760
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 4.6873156617173594e-07,
+      "logits/chosen": -0.2068806141614914,
+      "logits/rejected": -0.1860518753528595,
+      "logps/chosen": -510.51983642578125,
+      "logps/rejected": -575.1392822265625,
+      "loss": 0.2802,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": -0.1164456382393837,
+      "rewards/margins": 0.06441595405340195,
+      "rewards/rejected": -0.18086162209510803,
+      "step": 770
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.1584269002318653e-07,
+      "logits/chosen": -0.23118607699871063,
+      "logits/rejected": 0.012592856772243977,
+      "logps/chosen": -493.88201904296875,
+      "logps/rejected": -535.3624267578125,
+      "loss": 0.2541,
+      "rewards/accuracies": 0.44999998807907104,
+      "rewards/chosen": -0.10904928296804428,
+      "rewards/margins": 0.06981517374515533,
+      "rewards/rejected": -0.17886444926261902,
+      "step": 780
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 3.658479891468258e-07,
+      "logits/chosen": -0.13056764006614685,
+      "logits/rejected": -0.06715533137321472,
+      "logps/chosen": -526.5809326171875,
+      "logps/rejected": -599.15771484375,
+      "loss": 0.2635,
+      "rewards/accuracies": 0.512499988079071,
+      "rewards/chosen": -0.12021216005086899,
+      "rewards/margins": 0.07990214973688126,
+      "rewards/rejected": -0.20011429488658905,
+      "step": 790
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.18816888929272e-07,
+      "logits/chosen": -0.2064342051744461,
+      "logits/rejected": -0.1310141682624817,
+      "logps/chosen": -503.92022705078125,
+      "logps/rejected": -535.3073120117188,
+      "loss": 0.2788,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": -0.1168203130364418,
+      "rewards/margins": 0.04998582974076271,
+      "rewards/rejected": -0.1668061465024948,
+      "step": 800
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 2.748146993385484e-07,
+      "logits/chosen": -0.15658999979496002,
+      "logits/rejected": -0.05465535447001457,
+      "logps/chosen": -493.89666748046875,
+      "logps/rejected": -565.4508056640625,
+      "loss": 0.2593,
+      "rewards/accuracies": 0.5062500238418579,
+      "rewards/chosen": -0.11054392158985138,
+      "rewards/margins": 0.062444061040878296,
+      "rewards/rejected": -0.17298798263072968,
+      "step": 810
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 2.3390252423108077e-07,
+      "logits/chosen": -0.12076146900653839,
+      "logits/rejected": -0.07717995345592499,
+      "logps/chosen": -557.0513305664062,
+      "logps/rejected": -630.1217041015625,
+      "loss": 0.26,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.12639924883842468,
+      "rewards/margins": 0.06895993649959564,
+      "rewards/rejected": -0.19535920023918152,
+      "step": 820
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 1.961371764995243e-07,
+      "logits/chosen": -0.18750372529029846,
+      "logits/rejected": -0.20195484161376953,
+      "logps/chosen": -431.05615234375,
+      "logps/rejected": -488.2513732910156,
+      "loss": 0.2672,
+      "rewards/accuracies": 0.41874998807907104,
+      "rewards/chosen": -0.0998988226056099,
+      "rewards/margins": 0.054485417902469635,
+      "rewards/rejected": -0.15438422560691833,
+      "step": 830
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.61571099179261e-07,
+      "logits/chosen": -0.17934174835681915,
+      "logits/rejected": -0.13482218980789185,
+      "logps/chosen": -465.31268310546875,
+      "logps/rejected": -541.5718994140625,
+      "loss": 0.2379,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -0.11106850951910019,
+      "rewards/margins": 0.07404305785894394,
+      "rewards/rejected": -0.18511156737804413,
+      "step": 840
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.3025229262312367e-07,
+      "logits/chosen": -0.16116994619369507,
+      "logits/rejected": -0.06133908033370972,
+      "logps/chosen": -567.8401489257812,
+      "logps/rejected": -617.7798461914062,
+      "loss": 0.2591,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -0.12380583584308624,
+      "rewards/margins": 0.07460357248783112,
+      "rewards/rejected": -0.19840940833091736,
+      "step": 850
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1.0222424784546853e-07,
+      "logits/chosen": -0.09671641886234283,
+      "logits/rejected": -0.10632093995809555,
+      "logps/chosen": -526.3566284179688,
+      "logps/rejected": -554.2623291015625,
+      "loss": 0.271,
+      "rewards/accuracies": 0.41874998807907104,
+      "rewards/chosen": -0.1161075010895729,
+      "rewards/margins": 0.05733795836567879,
+      "rewards/rejected": -0.1734454333782196,
+      "step": 860
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 7.752588612816553e-08,
+      "logits/chosen": -0.15584774315357208,
+      "logits/rejected": -0.18242886662483215,
+      "logps/chosen": -535.07373046875,
+      "logps/rejected": -580.4075927734375,
+      "loss": 0.2676,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -0.12142983824014664,
+      "rewards/margins": 0.06167648360133171,
+      "rewards/rejected": -0.18310633301734924,
+      "step": 870
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 5.619150497236991e-08,
+      "logits/chosen": -0.09849689900875092,
+      "logits/rejected": -0.10616960376501083,
+      "logps/chosen": -480.7345275878906,
+      "logps/rejected": -568.6452026367188,
+      "loss": 0.2573,
+      "rewards/accuracies": 0.48124998807907104,
+      "rewards/chosen": -0.12242833524942398,
+      "rewards/margins": 0.07691850513219833,
+      "rewards/rejected": -0.19934681057929993,
+      "step": 880
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 3.825073047112743e-08,
+      "logits/chosen": -0.1931258887052536,
+      "logits/rejected": -0.14527785778045654,
+      "logps/chosen": -525.9476318359375,
+      "logps/rejected": -556.6074829101562,
+      "loss": 0.2718,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -0.1265556812286377,
+      "rewards/margins": 0.05168802663683891,
+      "rewards/rejected": -0.1782437115907669,
+      "step": 890
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.372847616895685e-08,
+      "logits/chosen": -0.1395512819290161,
+      "logits/rejected": -0.15351735055446625,
+      "logps/chosen": -519.0070190429688,
+      "logps/rejected": -630.4365234375,
+      "loss": 0.25,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -0.12783722579479218,
+      "rewards/margins": 0.08357492834329605,
+      "rewards/rejected": -0.21141216158866882,
+      "step": 900
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.264490846553279e-08,
+      "logits/chosen": -0.1655835509300232,
+      "logits/rejected": -0.06148504465818405,
+      "logps/chosen": -530.4078979492188,
+      "logps/rejected": -588.1494140625,
+      "loss": 0.2773,
+      "rewards/accuracies": 0.5062500238418579,
+      "rewards/chosen": -0.13116273283958435,
+      "rewards/margins": 0.060104191303253174,
+      "rewards/rejected": -0.19126692414283752,
+      "step": 910
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 5.015418611516165e-09,
+      "logits/chosen": -0.13306137919425964,
+      "logits/rejected": -0.1015244722366333,
+      "logps/chosen": -540.9669189453125,
+      "logps/rejected": -633.6178588867188,
+      "loss": 0.2619,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.13009101152420044,
+      "rewards/margins": 0.07983705401420593,
+      "rewards/rejected": -0.20992806553840637,
+      "step": 920
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 8.506013354186993e-10,
+      "logits/chosen": -0.16086629033088684,
+      "logits/rejected": -0.07110301405191422,
+      "logps/chosen": -540.5888061523438,
+      "logps/rejected": -531.308349609375,
+      "loss": 0.2795,
+      "rewards/accuracies": 0.45625001192092896,
+      "rewards/chosen": -0.11827180534601212,
+      "rewards/margins": 0.032559461891651154,
+      "rewards/rejected": -0.15083125233650208,
+      "step": 930
+    },
+    {
+      "epoch": 1.0,
+      "step": 937,
+      "total_flos": 0.0,
+      "train_loss": 0.275421927202982,
+      "train_runtime": 7850.8319,
+      "train_samples_per_second": 3.821,
+      "train_steps_per_second": 0.119
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 937,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}