Model save

Browse files

Files changed (6) hide show

README.md +62 -0
adapter_model.safetensors +1 -1
all_results.json +8 -0
runs/May12_19-04-40_gpu4-119-5/events.out.tfevents.1715504803.gpu4-119-5.2839953.0 +2 -2
train_results.json +8 -0
trainer_state.json +954 -0

README.md ADDED Viewed

	@@ -0,0 +1,62 @@

+---
+license: apache-2.0
+library_name: peft
+tags:
+- trl
+- dpo
+- generated_from_trainer
+base_model: DUAL-GPO/phi-2-gpo-new-i0
+model-index:
+- name: phi-2-gpo-v5-i1
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# phi-2-gpo-v5-i1
+This model is a fine-tuned version of [DUAL-GPO/phi-2-gpo-new-i0](https://huggingface.co/DUAL-GPO/phi-2-gpo-new-i0) on the None dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 32
+- total_eval_batch_size: 8
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+### Framework versions
+- PEFT 0.7.1
+- Transformers 4.36.2
+- Pytorch 2.1.2+cu121
+- Datasets 2.14.6
+- Tokenizers 0.15.2

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d3e741356b788ffb0e60800f72fd7e2d531e6e1ea0930f161b6061593241af7
 size 167807296

 version https://git-lfs.github.com/spec/v1
+oid sha256:db00f65d11ffe3c62fd9be7c399dd08154b795b2466a57c4f94ad449841d7dd3
 size 167807296

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.20043009792159244,
+    "train_runtime": 6753.4712,
+    "train_samples": 21000,
+    "train_samples_per_second": 3.11,
+    "train_steps_per_second": 0.097
+}

runs/May12_19-04-40_gpu4-119-5/events.out.tfevents.1715504803.gpu4-119-5.2839953.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52de61ff809367bae3b543976b903ebcaf2bd55670ceab3b68096bbbd39ed683
-size 36501

 version https://git-lfs.github.com/spec/v1
+oid sha256:d445aac9a720443f20488a36a9cbd5f87297cce741d6f1d12510707ee09fe4c0
+size 40025

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.20043009792159244,
+    "train_runtime": 6753.4712,
+    "train_samples": 21000,
+    "train_samples_per_second": 3.11,
+    "train_steps_per_second": 0.097
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,954 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9996190476190476,
+  "eval_steps": 500,
+  "global_step": 656,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 7.575757575757576e-08,
+      "logits/chosen": 0.040165986865758896,
+      "logits/rejected": 0.1715753823518753,
+      "logps/chosen": -294.844482421875,
+      "logps/rejected": -361.2099914550781,
+      "loss": 0.3581,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 7.575757575757576e-07,
+      "logits/chosen": 0.08021458983421326,
+      "logits/rejected": 0.320384681224823,
+      "logps/chosen": -393.2468566894531,
+      "logps/rejected": -318.70526123046875,
+      "loss": 0.3399,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -5.44932481716387e-05,
+      "rewards/margins": -7.010095578152686e-05,
+      "rewards/rejected": 1.560769487696234e-05,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 1.5151515151515152e-06,
+      "logits/chosen": 0.07484304904937744,
+      "logits/rejected": 0.23277099430561066,
+      "logps/chosen": -332.4987487792969,
+      "logps/rejected": -281.78729248046875,
+      "loss": 0.3453,
+      "rewards/accuracies": 0.3687500059604645,
+      "rewards/chosen": 1.3394804909694358e-06,
+      "rewards/margins": -0.0002027603331953287,
+      "rewards/rejected": 0.00020409980788826942,
+      "step": 20
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.2727272727272728e-06,
+      "logits/chosen": 0.07151266187429428,
+      "logits/rejected": 0.25990238785743713,
+      "logps/chosen": -358.3196716308594,
+      "logps/rejected": -292.2561950683594,
+      "loss": 0.3517,
+      "rewards/accuracies": 0.543749988079071,
+      "rewards/chosen": 0.0001912448788061738,
+      "rewards/margins": 0.00028789255884476006,
+      "rewards/rejected": -9.664769459050149e-05,
+      "step": 30
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 3.0303030303030305e-06,
+      "logits/chosen": 0.12050364166498184,
+      "logits/rejected": 0.23899266123771667,
+      "logps/chosen": -346.99310302734375,
+      "logps/rejected": -286.31658935546875,
+      "loss": 0.3416,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 0.0006401558639481664,
+      "rewards/margins": 0.0007750070071779191,
+      "rewards/rejected": -0.00013485117233358324,
+      "step": 40
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 3.7878787878787882e-06,
+      "logits/chosen": 0.07284825295209885,
+      "logits/rejected": 0.3108685612678528,
+      "logps/chosen": -343.5631408691406,
+      "logps/rejected": -287.16876220703125,
+      "loss": 0.3439,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": 0.0013991177547723055,
+      "rewards/margins": 0.0013889471301808953,
+      "rewards/rejected": 1.0170697350986302e-05,
+      "step": 50
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.5454545454545455e-06,
+      "logits/chosen": 0.07572797685861588,
+      "logits/rejected": 0.2742985785007477,
+      "logps/chosen": -371.0773620605469,
+      "logps/rejected": -303.0706481933594,
+      "loss": 0.3306,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.0029931231401860714,
+      "rewards/margins": 0.004650537855923176,
+      "rewards/rejected": -0.0016574144829064608,
+      "step": 60
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.999432965739786e-06,
+      "logits/chosen": 0.06861326098442078,
+      "logits/rejected": 0.25036171078681946,
+      "logps/chosen": -321.8224792480469,
+      "logps/rejected": -301.9892272949219,
+      "loss": 0.3315,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 0.005247811786830425,
+      "rewards/margins": 0.0075549171306192875,
+      "rewards/rejected": -0.0023071051109582186,
+      "step": 70
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.9930567839810125e-06,
+      "logits/chosen": 0.0997760072350502,
+      "logits/rejected": 0.26540613174438477,
+      "logps/chosen": -360.35430908203125,
+      "logps/rejected": -307.5221862792969,
+      "loss": 0.3184,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": 0.006557592656463385,
+      "rewards/margins": 0.01593288779258728,
+      "rewards/rejected": -0.009375295601785183,
+      "step": 80
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.979613761906212e-06,
+      "logits/chosen": 0.11980845779180527,
+      "logits/rejected": 0.2542170584201813,
+      "logps/chosen": -325.69989013671875,
+      "logps/rejected": -303.8279724121094,
+      "loss": 0.3053,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": 0.0012294445186853409,
+      "rewards/margins": 0.02537659928202629,
+      "rewards/rejected": -0.02414715476334095,
+      "step": 90
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.959142005221991e-06,
+      "logits/chosen": 0.15030920505523682,
+      "logits/rejected": 0.24269947409629822,
+      "logps/chosen": -357.73846435546875,
+      "logps/rejected": -372.84625244140625,
+      "loss": 0.2998,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.03152700141072273,
+      "rewards/margins": 0.0535690113902092,
+      "rewards/rejected": -0.08509601652622223,
+      "step": 100
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.931699543346854e-06,
+      "logits/chosen": 0.10781173408031464,
+      "logits/rejected": 0.28030428290367126,
+      "logps/chosen": -428.8057556152344,
+      "logps/rejected": -428.8355407714844,
+      "loss": 0.2724,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.09748424589633942,
+      "rewards/margins": 0.0674622505903244,
+      "rewards/rejected": -0.16494649648666382,
+      "step": 110
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.897364164920515e-06,
+      "logits/chosen": 0.1421918272972107,
+      "logits/rejected": 0.2562108039855957,
+      "logps/chosen": -584.6065673828125,
+      "logps/rejected": -657.9326782226562,
+      "loss": 0.2475,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.21280452609062195,
+      "rewards/margins": 0.1321365237236023,
+      "rewards/rejected": -0.34494107961654663,
+      "step": 120
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.8562331973035396e-06,
+      "logits/chosen": 0.1893201768398285,
+      "logits/rejected": 0.2765055298805237,
+      "logps/chosen": -574.9005737304688,
+      "logps/rejected": -700.53125,
+      "loss": 0.2567,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.23022952675819397,
+      "rewards/margins": 0.17663846909999847,
+      "rewards/rejected": -0.40686798095703125,
+      "step": 130
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.808423230692374e-06,
+      "logits/chosen": 0.15862275660037994,
+      "logits/rejected": 0.3002353310585022,
+      "logps/chosen": -557.1515502929688,
+      "logps/rejected": -636.1343994140625,
+      "loss": 0.2578,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.2007971704006195,
+      "rewards/margins": 0.1420392543077469,
+      "rewards/rejected": -0.3428364396095276,
+      "step": 140
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.754069787631761e-06,
+      "logits/chosen": 0.20283110439777374,
+      "logits/rejected": 0.2838110327720642,
+      "logps/chosen": -539.7517700195312,
+      "logps/rejected": -632.3270263671875,
+      "loss": 0.2807,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.22490541636943817,
+      "rewards/margins": 0.13436779379844666,
+      "rewards/rejected": -0.359273225069046,
+      "step": 150
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.693326938861367e-06,
+      "logits/chosen": 0.16693079471588135,
+      "logits/rejected": 0.3414613604545593,
+      "logps/chosen": -519.4967651367188,
+      "logps/rejected": -644.0454711914062,
+      "loss": 0.2302,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.1742098033428192,
+      "rewards/margins": 0.19720463454723358,
+      "rewards/rejected": -0.3714144825935364,
+      "step": 160
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.626366866585528e-06,
+      "logits/chosen": 0.15613974630832672,
+      "logits/rejected": 0.27570822834968567,
+      "logps/chosen": -551.5475463867188,
+      "logps/rejected": -641.4393310546875,
+      "loss": 0.2342,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.18619480729103088,
+      "rewards/margins": 0.17629162967205048,
+      "rewards/rejected": -0.36248645186424255,
+      "step": 170
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 4.553379376404085e-06,
+      "logits/chosen": 0.15913400053977966,
+      "logits/rejected": 0.28868401050567627,
+      "logps/chosen": -575.120361328125,
+      "logps/rejected": -672.7054443359375,
+      "loss": 0.2586,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.23076090216636658,
+      "rewards/margins": 0.1531594842672348,
+      "rewards/rejected": -0.3839203715324402,
+      "step": 180
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.474571359287791e-06,
+      "logits/chosen": 0.2370852530002594,
+      "logits/rejected": 0.313865065574646,
+      "logps/chosen": -578.9676513671875,
+      "logps/rejected": -646.5762329101562,
+      "loss": 0.2759,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.22910158336162567,
+      "rewards/margins": 0.14492908120155334,
+      "rewards/rejected": -0.3740306496620178,
+      "step": 190
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.3901662051233755e-06,
+      "logits/chosen": 0.156154602766037,
+      "logits/rejected": 0.28848981857299805,
+      "logps/chosen": -529.0174560546875,
+      "logps/rejected": -681.0127563476562,
+      "loss": 0.2411,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.21960540115833282,
+      "rewards/margins": 0.1676800698041916,
+      "rewards/rejected": -0.3872854709625244,
+      "step": 200
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.30040316949064e-06,
+      "logits/chosen": 0.13694807887077332,
+      "logits/rejected": 0.3102852702140808,
+      "logps/chosen": -582.1616821289062,
+      "logps/rejected": -681.3240966796875,
+      "loss": 0.2166,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.24012689292430878,
+      "rewards/margins": 0.18257644772529602,
+      "rewards/rejected": -0.422703355550766,
+      "step": 210
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.205536695466524e-06,
+      "logits/chosen": 0.15840545296669006,
+      "logits/rejected": 0.30105945467948914,
+      "logps/chosen": -578.1398315429688,
+      "logps/rejected": -766.7618408203125,
+      "loss": 0.2259,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.2511864900588989,
+      "rewards/margins": 0.22828085720539093,
+      "rewards/rejected": -0.47946733236312866,
+      "step": 220
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.105835692378557e-06,
+      "logits/chosen": 0.14648036658763885,
+      "logits/rejected": 0.21232767403125763,
+      "logps/chosen": -583.7035522460938,
+      "logps/rejected": -690.9400634765625,
+      "loss": 0.2757,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.2628551125526428,
+      "rewards/margins": 0.15015873312950134,
+      "rewards/rejected": -0.41301384568214417,
+      "step": 230
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 4.001582773552153e-06,
+      "logits/chosen": 0.13691949844360352,
+      "logits/rejected": 0.22931316494941711,
+      "logps/chosen": -621.2189331054688,
+      "logps/rejected": -718.5030517578125,
+      "loss": 0.2518,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.24823768436908722,
+      "rewards/margins": 0.16897296905517578,
+      "rewards/rejected": -0.4172106683254242,
+      "step": 240
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.893073455212438e-06,
+      "logits/chosen": 0.15518508851528168,
+      "logits/rejected": 0.27118122577667236,
+      "logps/chosen": -649.8485107421875,
+      "logps/rejected": -743.3021240234375,
+      "loss": 0.2446,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.27570152282714844,
+      "rewards/margins": 0.17269738018512726,
+      "rewards/rejected": -0.4483988881111145,
+      "step": 250
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 3.7806153188114027e-06,
+      "logits/chosen": 0.14696967601776123,
+      "logits/rejected": 0.26466238498687744,
+      "logps/chosen": -585.2598876953125,
+      "logps/rejected": -646.9161376953125,
+      "loss": 0.2236,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.22980618476867676,
+      "rewards/margins": 0.16329681873321533,
+      "rewards/rejected": -0.3931030035018921,
+      "step": 260
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 3.6645271391548542e-06,
+      "logits/chosen": 0.1697523295879364,
+      "logits/rejected": 0.29494693875312805,
+      "logps/chosen": -613.8264770507812,
+      "logps/rejected": -749.4378051757812,
+      "loss": 0.228,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.2746888995170593,
+      "rewards/margins": 0.2020600140094757,
+      "rewards/rejected": -0.47674888372421265,
+      "step": 270
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 3.5451379808006014e-06,
+      "logits/chosen": 0.13133810460567474,
+      "logits/rejected": 0.2865068316459656,
+      "logps/chosen": -590.5033569335938,
+      "logps/rejected": -722.9710083007812,
+      "loss": 0.2252,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.2536476254463196,
+      "rewards/margins": 0.177708238363266,
+      "rewards/rejected": -0.43135586380958557,
+      "step": 280
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 3.4227862652892106e-06,
+      "logits/chosen": 0.16941356658935547,
+      "logits/rejected": 0.30433687567710876,
+      "logps/chosen": -602.0320434570312,
+      "logps/rejected": -731.9866333007812,
+      "loss": 0.2518,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.262613981962204,
+      "rewards/margins": 0.17090369760990143,
+      "rewards/rejected": -0.4335176944732666,
+      "step": 290
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 3.2978188118513814e-06,
+      "logits/chosen": 0.1636120229959488,
+      "logits/rejected": 0.2873205840587616,
+      "logps/chosen": -595.1837768554688,
+      "logps/rejected": -764.756103515625,
+      "loss": 0.218,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.25328361988067627,
+      "rewards/margins": 0.21258826553821564,
+      "rewards/rejected": -0.4658718705177307,
+      "step": 300
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 3.1705898543111576e-06,
+      "logits/chosen": 0.128164142370224,
+      "logits/rejected": 0.29025566577911377,
+      "logps/chosen": -615.720947265625,
+      "logps/rejected": -729.6194458007812,
+      "loss": 0.2587,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.2794512212276459,
+      "rewards/margins": 0.1740822196006775,
+      "rewards/rejected": -0.45353350043296814,
+      "step": 310
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 3.041460036971664e-06,
+      "logits/chosen": 0.15139839053153992,
+      "logits/rejected": 0.3216419517993927,
+      "logps/chosen": -633.3115234375,
+      "logps/rejected": -791.7572631835938,
+      "loss": 0.2391,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.3004799485206604,
+      "rewards/margins": 0.18833482265472412,
+      "rewards/rejected": -0.4888147711753845,
+      "step": 320
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.910795392329649e-06,
+      "logits/chosen": 0.21717897057533264,
+      "logits/rejected": 0.3525051474571228,
+      "logps/chosen": -616.4713134765625,
+      "logps/rejected": -754.4976806640625,
+      "loss": 0.2592,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.2672343850135803,
+      "rewards/margins": 0.2101636379957199,
+      "rewards/rejected": -0.47739800810813904,
+      "step": 330
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 2.7789663035166035e-06,
+      "logits/chosen": 0.2043914794921875,
+      "logits/rejected": 0.34597498178482056,
+      "logps/chosen": -658.1500244140625,
+      "logps/rejected": -802.0507202148438,
+      "loss": 0.2329,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.2817768454551697,
+      "rewards/margins": 0.2174309492111206,
+      "rewards/rejected": -0.4992077946662903,
+      "step": 340
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.6463464544075344e-06,
+      "logits/chosen": 0.16284213960170746,
+      "logits/rejected": 0.28806525468826294,
+      "logps/chosen": -627.6129760742188,
+      "logps/rejected": -686.5743408203125,
+      "loss": 0.2372,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.2634487748146057,
+      "rewards/margins": 0.15015827119350433,
+      "rewards/rejected": -0.41360706090927124,
+      "step": 350
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 2.513311770373421e-06,
+      "logits/chosen": 0.14228633046150208,
+      "logits/rejected": 0.26139333844184875,
+      "logps/chosen": -625.71875,
+      "logps/rejected": -751.2933349609375,
+      "loss": 0.2357,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.26470065116882324,
+      "rewards/margins": 0.1807432472705841,
+      "rewards/rejected": -0.44544392824172974,
+      "step": 360
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 2.380239352679908e-06,
+      "logits/chosen": 0.14897385239601135,
+      "logits/rejected": 0.2588959336280823,
+      "logps/chosen": -641.2374267578125,
+      "logps/rejected": -802.7953491210938,
+      "loss": 0.2166,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.30122682452201843,
+      "rewards/margins": 0.1971724033355713,
+      "rewards/rejected": -0.49839919805526733,
+      "step": 370
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.247506409552795e-06,
+      "logits/chosen": 0.14793309569358826,
+      "logits/rejected": 0.3080625534057617,
+      "logps/chosen": -668.0740966796875,
+      "logps/rejected": -816.8853759765625,
+      "loss": 0.2162,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.3042776584625244,
+      "rewards/margins": 0.20680758357048035,
+      "rewards/rejected": -0.5110852122306824,
+      "step": 380
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 2.1154891869403436e-06,
+      "logits/chosen": 0.1291504055261612,
+      "logits/rejected": 0.3194652497768402,
+      "logps/chosen": -662.1779174804688,
+      "logps/rejected": -797.3854370117188,
+      "loss": 0.2264,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.33526724576950073,
+      "rewards/margins": 0.19740521907806396,
+      "rewards/rejected": -0.5326724648475647,
+      "step": 390
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.9845619020032552e-06,
+      "logits/chosen": 0.16021743416786194,
+      "logits/rejected": 0.3056327700614929,
+      "logps/chosen": -644.52734375,
+      "logps/rejected": -788.876953125,
+      "loss": 0.2151,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.3085401952266693,
+      "rewards/margins": 0.211081862449646,
+      "rewards/rejected": -0.5196221470832825,
+      "step": 400
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.8550956823554708e-06,
+      "logits/chosen": 0.15647678077220917,
+      "logits/rejected": 0.3057996332645416,
+      "logps/chosen": -702.3175048828125,
+      "logps/rejected": -853.0869140625,
+      "loss": 0.2227,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.3388286232948303,
+      "rewards/margins": 0.2211228311061859,
+      "rewards/rejected": -0.5599514842033386,
+      "step": 410
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.7274575140626318e-06,
+      "logits/chosen": 0.14826330542564392,
+      "logits/rejected": 0.32510313391685486,
+      "logps/chosen": -669.1925659179688,
+      "logps/rejected": -814.4791870117188,
+      "loss": 0.2161,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.308666467666626,
+      "rewards/margins": 0.18964755535125732,
+      "rewards/rejected": -0.4983140528202057,
+      "step": 420
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.6020092013802002e-06,
+      "logits/chosen": 0.2039145529270172,
+      "logits/rejected": 0.27107498049736023,
+      "logps/chosen": -734.4779052734375,
+      "logps/rejected": -801.9241333007812,
+      "loss": 0.2567,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.3436730206012726,
+      "rewards/margins": 0.15554025769233704,
+      "rewards/rejected": -0.499213308095932,
+      "step": 430
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.4791063411799938e-06,
+      "logits/chosen": 0.1372929960489273,
+      "logits/rejected": 0.2705134451389313,
+      "logps/chosen": -655.2030029296875,
+      "logps/rejected": -761.6964111328125,
+      "loss": 0.2425,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.2905011475086212,
+      "rewards/margins": 0.1854308694601059,
+      "rewards/rejected": -0.4759320318698883,
+      "step": 440
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.3590973149722103e-06,
+      "logits/chosen": 0.16004619002342224,
+      "logits/rejected": 0.3311876654624939,
+      "logps/chosen": -623.554443359375,
+      "logps/rejected": -741.9662475585938,
+      "loss": 0.2205,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.2771863043308258,
+      "rewards/margins": 0.18584686517715454,
+      "rewards/rejected": -0.46303310990333557,
+      "step": 450
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.2423223013801946e-06,
+      "logits/chosen": 0.15525056421756744,
+      "logits/rejected": 0.226671501994133,
+      "logps/chosen": -620.3182373046875,
+      "logps/rejected": -753.6258544921875,
+      "loss": 0.2323,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.28617820143699646,
+      "rewards/margins": 0.17914626002311707,
+      "rewards/rejected": -0.4653244912624359,
+      "step": 460
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1.1291123118671665e-06,
+      "logits/chosen": 0.1403166949748993,
+      "logits/rejected": 0.21838609874248505,
+      "logps/chosen": -640.9824829101562,
+      "logps/rejected": -792.9696044921875,
+      "loss": 0.23,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.281258225440979,
+      "rewards/margins": 0.21520480513572693,
+      "rewards/rejected": -0.4964630603790283,
+      "step": 470
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.019788252448267e-06,
+      "logits/chosen": 0.12808464467525482,
+      "logits/rejected": 0.2763553857803345,
+      "logps/chosen": -644.160888671875,
+      "logps/rejected": -773.2025146484375,
+      "loss": 0.2376,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.31234392523765564,
+      "rewards/margins": 0.19615283608436584,
+      "rewards/rejected": -0.5084967017173767,
+      "step": 480
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 9.146600140475945e-07,
+      "logits/chosen": 0.1601841151714325,
+      "logits/rejected": 0.22859685122966766,
+      "logps/chosen": -651.9871826171875,
+      "logps/rejected": -752.2882080078125,
+      "loss": 0.2404,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.3149036467075348,
+      "rewards/margins": 0.15418918430805206,
+      "rewards/rejected": -0.46909284591674805,
+      "step": 490
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 8.140255940787059e-07,
+      "logits/chosen": 0.1696256846189499,
+      "logits/rejected": 0.2493252456188202,
+      "logps/chosen": -615.3719482421875,
+      "logps/rejected": -736.1841430664062,
+      "loss": 0.2331,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.2796221375465393,
+      "rewards/margins": 0.1891065537929535,
+      "rewards/rejected": -0.4687287211418152,
+      "step": 500
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 7.181702517385789e-07,
+      "logits/chosen": 0.13488708436489105,
+      "logits/rejected": 0.24344106018543243,
+      "logps/chosen": -632.91064453125,
+      "logps/rejected": -779.7465209960938,
+      "loss": 0.2493,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.30229493975639343,
+      "rewards/margins": 0.19277289509773254,
+      "rewards/rejected": -0.49506789445877075,
+      "step": 510
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.273656994094232e-07,
+      "logits/chosen": 0.078878253698349,
+      "logits/rejected": 0.32078155875205994,
+      "logps/chosen": -629.8251342773438,
+      "logps/rejected": -792.5658569335938,
+      "loss": 0.2593,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.29794004559516907,
+      "rewards/margins": 0.21232935786247253,
+      "rewards/rejected": -0.5102694034576416,
+      "step": 520
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 5.418693324604082e-07,
+      "logits/chosen": 0.17152568697929382,
+      "logits/rejected": 0.2723831534385681,
+      "logps/chosen": -686.8225708007812,
+      "logps/rejected": -765.6764526367188,
+      "loss": 0.2106,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.2921481132507324,
+      "rewards/margins": 0.19477225840091705,
+      "rewards/rejected": -0.48692041635513306,
+      "step": 530
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 4.619234996325314e-07,
+      "logits/chosen": 0.16223089396953583,
+      "logits/rejected": 0.22344419360160828,
+      "logps/chosen": -644.6939086914062,
+      "logps/rejected": -796.0565185546875,
+      "loss": 0.2251,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.29831987619400024,
+      "rewards/margins": 0.2159034013748169,
+      "rewards/rejected": -0.5142232179641724,
+      "step": 540
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 3.877548160747768e-07,
+      "logits/chosen": 0.14092543721199036,
+      "logits/rejected": 0.26907533407211304,
+      "logps/chosen": -665.1543579101562,
+      "logps/rejected": -785.69091796875,
+      "loss": 0.2293,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.3221438229084015,
+      "rewards/margins": 0.16273698210716248,
+      "rewards/rejected": -0.4848807752132416,
+      "step": 550
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.195735209788528e-07,
+      "logits/chosen": 0.12745890021324158,
+      "logits/rejected": 0.16941148042678833,
+      "logps/chosen": -604.4722290039062,
+      "logps/rejected": -726.4368286132812,
+      "loss": 0.228,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.2934458255767822,
+      "rewards/margins": 0.16752712428569794,
+      "rewards/rejected": -0.46097296476364136,
+      "step": 560
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 2.5757288163336806e-07,
+      "logits/chosen": 0.14064130187034607,
+      "logits/rejected": 0.2834423780441284,
+      "logps/chosen": -670.5109252929688,
+      "logps/rejected": -754.9119873046875,
+      "loss": 0.2279,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.29777050018310547,
+      "rewards/margins": 0.1834956705570221,
+      "rewards/rejected": -0.4812661111354828,
+      "step": 570
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 2.019286455866981e-07,
+      "logits/chosen": 0.16343867778778076,
+      "logits/rejected": 0.23200741410255432,
+      "logps/chosen": -653.3126220703125,
+      "logps/rejected": -788.0684204101562,
+      "loss": 0.2129,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.30145275592803955,
+      "rewards/margins": 0.18838538229465485,
+      "rewards/rejected": -0.4898381233215332,
+      "step": 580
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.5279854247146703e-07,
+      "logits/chosen": 0.0768275260925293,
+      "logits/rejected": 0.261466920375824,
+      "logps/chosen": -653.1698608398438,
+      "logps/rejected": -781.791259765625,
+      "loss": 0.2128,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.28429535031318665,
+      "rewards/margins": 0.22277021408081055,
+      "rewards/rejected": -0.5070655941963196,
+      "step": 590
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 1.1032183690276754e-07,
+      "logits/chosen": 0.160492941737175,
+      "logits/rejected": 0.28358930349349976,
+      "logps/chosen": -716.923583984375,
+      "logps/rejected": -817.1744995117188,
+      "loss": 0.2252,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.3216014504432678,
+      "rewards/margins": 0.18884047865867615,
+      "rewards/rejected": -0.5104418992996216,
+      "step": 600
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 7.46189337174788e-08,
+      "logits/chosen": 0.138215571641922,
+      "logits/rejected": 0.28554660081863403,
+      "logps/chosen": -634.0874633789062,
+      "logps/rejected": -762.0772094726562,
+      "loss": 0.204,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.2693154215812683,
+      "rewards/margins": 0.21418070793151855,
+      "rewards/rejected": -0.48349618911743164,
+      "step": 610
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 4.579103667367385e-08,
+      "logits/chosen": 0.13104286789894104,
+      "logits/rejected": 0.280353844165802,
+      "logps/chosen": -666.0810546875,
+      "logps/rejected": -752.5096435546875,
+      "loss": 0.229,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.3018819987773895,
+      "rewards/margins": 0.1678927093744278,
+      "rewards/rejected": -0.4697747230529785,
+      "step": 620
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.3919861577572924e-08,
+      "logits/chosen": 0.15655803680419922,
+      "logits/rejected": 0.32044172286987305,
+      "logps/chosen": -707.17138671875,
+      "logps/rejected": -806.7648315429688,
+      "loss": 0.229,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.30425772070884705,
+      "rewards/margins": 0.21442052721977234,
+      "rewards/rejected": -0.5186783075332642,
+      "step": 630
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 9.067404651211808e-09,
+      "logits/chosen": 0.146881565451622,
+      "logits/rejected": 0.22085854411125183,
+      "logps/chosen": -632.6345825195312,
+      "logps/rejected": -776.0171508789062,
+      "loss": 0.2122,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.2965379059314728,
+      "rewards/margins": 0.19161197543144226,
+      "rewards/rejected": -0.48814982175827026,
+      "step": 640
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1.2757667974155896e-09,
+      "logits/chosen": 0.18307064473628998,
+      "logits/rejected": 0.2208767831325531,
+      "logps/chosen": -612.895751953125,
+      "logps/rejected": -768.5109252929688,
+      "loss": 0.2581,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.2931486666202545,
+      "rewards/margins": 0.18815748393535614,
+      "rewards/rejected": -0.4813062250614166,
+      "step": 650
+    },
+    {
+      "epoch": 1.0,
+      "step": 656,
+      "total_flos": 0.0,
+      "train_loss": 0.20043009792159244,
+      "train_runtime": 6753.4712,
+      "train_samples_per_second": 3.11,
+      "train_steps_per_second": 0.097
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 656,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}