Model save

Browse files

Files changed (5) hide show

README.md +62 -0
adapter_model.safetensors +1 -1
all_results.json +8 -0
train_results.json +8 -0
trainer_state.json +688 -0

README.md ADDED Viewed

	@@ -0,0 +1,62 @@

+---
+license: mit
+library_name: peft
+tags:
+- trl
+- dpo
+- generated_from_trainer
+base_model: DUAL-GPO/phi-2-gpo-new-i0
+model-index:
+- name: phi-2-gpo-newSFT-b0.001-v10-lightai-i1
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# phi-2-gpo-newSFT-b0.001-v10-lightai-i1
+This model is a fine-tuned version of [DUAL-GPO/phi-2-gpo-new-i0](https://huggingface.co/DUAL-GPO/phi-2-gpo-new-i0) on the None dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 64
+- total_eval_batch_size: 16
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+### Framework versions
+- PEFT 0.7.1
+- Transformers 4.36.2
+- Pytorch 2.2.1+cu121
+- Datasets 2.14.6
+- Tokenizers 0.15.2

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:935d9a11bdc5a49c1679ce4ba3e521ac0a97b337a95b8f4a8737e5fbb12190a6
 size 167807296

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1019ce9c0826e73fd1b82ceeb02551b4c8dc967b11880df0c2af62bf3fb3140
 size 167807296

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 1.8394590188295414,
+    "train_runtime": 15861.5475,
+    "train_samples": 61135,
+    "train_samples_per_second": 1.891,
+    "train_steps_per_second": 0.03
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 1.8394590188295414,
+    "train_runtime": 15861.5475,
+    "train_samples": 61135,
+    "train_samples_per_second": 1.891,
+    "train_steps_per_second": 0.03
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,688 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9984,
+  "eval_steps": 500,
+  "global_step": 468,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 1.0638297872340426e-07,
+      "logits/chosen": 0.1359557956457138,
+      "logits/rejected": 0.030706744641065598,
+      "logps/chosen": -736.0869140625,
+      "logps/rejected": -613.6344604492188,
+      "loss": 2.0331,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.0638297872340427e-06,
+      "logits/chosen": 0.11667777597904205,
+      "logits/rejected": 0.26604601740837097,
+      "logps/chosen": -546.5281982421875,
+      "logps/rejected": -597.5736083984375,
+      "loss": 2.1592,
+      "rewards/accuracies": 0.4583333432674408,
+      "rewards/chosen": 0.0007250224007293582,
+      "rewards/margins": 0.00040180076030083,
+      "rewards/rejected": 0.0003232216986361891,
+      "step": 10
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.1276595744680853e-06,
+      "logits/chosen": 0.16373148560523987,
+      "logits/rejected": 0.2677033543586731,
+      "logps/chosen": -604.6590576171875,
+      "logps/rejected": -649.482177734375,
+      "loss": 2.0972,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": -0.0005862273974344134,
+      "rewards/margins": -0.0003054165281355381,
+      "rewards/rejected": -0.0002808108984027058,
+      "step": 20
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 3.191489361702128e-06,
+      "logits/chosen": 0.14978544414043427,
+      "logits/rejected": 0.1915779411792755,
+      "logps/chosen": -594.8548583984375,
+      "logps/rejected": -588.2429809570312,
+      "loss": 2.122,
+      "rewards/accuracies": 0.512499988079071,
+      "rewards/chosen": -0.004188057966530323,
+      "rewards/margins": 0.0009490737575106323,
+      "rewards/rejected": -0.0051371315494179726,
+      "step": 30
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.255319148936171e-06,
+      "logits/chosen": 0.16862796247005463,
+      "logits/rejected": 0.23586151003837585,
+      "logps/chosen": -574.7235107421875,
+      "logps/rejected": -631.8544921875,
+      "loss": 2.1863,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -0.01229151152074337,
+      "rewards/margins": 0.005582691170275211,
+      "rewards/rejected": -0.017874203622341156,
+      "step": 40
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.999373573764188e-06,
+      "logits/chosen": 0.1411871314048767,
+      "logits/rejected": 0.2258455753326416,
+      "logps/chosen": -612.8582763671875,
+      "logps/rejected": -636.5026245117188,
+      "loss": 2.1508,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": -0.04941480979323387,
+      "rewards/margins": 0.019247086718678474,
+      "rewards/rejected": -0.0686618983745575,
+      "step": 50
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.988245838331339e-06,
+      "logits/chosen": 0.17244111001491547,
+      "logits/rejected": 0.17342150211334229,
+      "logps/chosen": -634.6348266601562,
+      "logps/rejected": -667.5384521484375,
+      "loss": 2.0758,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": -0.13025899231433868,
+      "rewards/margins": 0.05111612752079964,
+      "rewards/rejected": -0.18137511610984802,
+      "step": 60
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.963268819535228e-06,
+      "logits/chosen": 0.12650486826896667,
+      "logits/rejected": 0.14093999564647675,
+      "logps/chosen": -608.5107421875,
+      "logps/rejected": -702.1578369140625,
+      "loss": 2.0556,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.21341009438037872,
+      "rewards/margins": 0.09893321990966797,
+      "rewards/rejected": -0.3123432993888855,
+      "step": 70
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.9245815365216115e-06,
+      "logits/chosen": 0.19184628129005432,
+      "logits/rejected": 0.2408786565065384,
+      "logps/chosen": -679.4183349609375,
+      "logps/rejected": -609.7093505859375,
+      "loss": 2.1137,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -0.21463651955127716,
+      "rewards/margins": 0.05772104859352112,
+      "rewards/rejected": -0.2723575234413147,
+      "step": 80
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.872399318152594e-06,
+      "logits/chosen": 0.1250939965248108,
+      "logits/rejected": 0.18045032024383545,
+      "logps/chosen": -622.2333374023438,
+      "logps/rejected": -655.4575805664062,
+      "loss": 2.0044,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.1839352548122406,
+      "rewards/margins": 0.10977420955896378,
+      "rewards/rejected": -0.2937094569206238,
+      "step": 90
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.807012604511542e-06,
+      "logits/chosen": 0.18265239894390106,
+      "logits/rejected": 0.2614283859729767,
+      "logps/chosen": -649.8997802734375,
+      "logps/rejected": -658.8975830078125,
+      "loss": 1.9995,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.16064395010471344,
+      "rewards/margins": 0.08805385231971741,
+      "rewards/rejected": -0.24869783222675323,
+      "step": 100
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.728785330347771e-06,
+      "logits/chosen": 0.2479465901851654,
+      "logits/rejected": 0.2932817339897156,
+      "logps/chosen": -674.0836181640625,
+      "logps/rejected": -645.6417236328125,
+      "loss": 1.895,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.12688389420509338,
+      "rewards/margins": 0.08782283961772919,
+      "rewards/rejected": -0.21470670402050018,
+      "step": 110
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.63815289945858e-06,
+      "logits/chosen": 0.19643843173980713,
+      "logits/rejected": 0.2974274456501007,
+      "logps/chosen": -573.49658203125,
+      "logps/rejected": -666.606689453125,
+      "loss": 1.89,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.09824337065219879,
+      "rewards/margins": 0.13982543349266052,
+      "rewards/rejected": -0.2380688190460205,
+      "step": 120
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 4.535619761282989e-06,
+      "logits/chosen": 0.23821644484996796,
+      "logits/rejected": 0.288485586643219,
+      "logps/chosen": -590.9158935546875,
+      "logps/rejected": -623.23974609375,
+      "loss": 1.9389,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.14589470624923706,
+      "rewards/margins": 0.12624357640743256,
+      "rewards/rejected": -0.2721382975578308,
+      "step": 130
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.42175660319555e-06,
+      "logits/chosen": 0.2631734013557434,
+      "logits/rejected": 0.2810806632041931,
+      "logps/chosen": -645.8680419921875,
+      "logps/rejected": -654.8004760742188,
+      "loss": 1.8203,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.20492109656333923,
+      "rewards/margins": 0.20386295020580292,
+      "rewards/rejected": -0.40878406167030334,
+      "step": 140
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.297197174127619e-06,
+      "logits/chosen": 0.2586398422718048,
+      "logits/rejected": 0.3086986839771271,
+      "logps/chosen": -619.4220581054688,
+      "logps/rejected": -697.2005615234375,
+      "loss": 1.7553,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.24971242249011993,
+      "rewards/margins": 0.2221045196056366,
+      "rewards/rejected": -0.4718169569969177,
+      "step": 150
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.162634757195418e-06,
+      "logits/chosen": 0.2681664526462555,
+      "logits/rejected": 0.2807798683643341,
+      "logps/chosen": -630.39306640625,
+      "logps/rejected": -645.6117553710938,
+      "loss": 1.8404,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.19384464621543884,
+      "rewards/margins": 0.1983100175857544,
+      "rewards/rejected": -0.39215466380119324,
+      "step": 160
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 4.018818310967843e-06,
+      "logits/chosen": 0.27496370673179626,
+      "logits/rejected": 0.30781346559524536,
+      "logps/chosen": -559.2887573242188,
+      "logps/rejected": -601.3917846679688,
+      "loss": 1.8382,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.0747746005654335,
+      "rewards/margins": 0.19791939854621887,
+      "rewards/rejected": -0.2726939916610718,
+      "step": 170
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.866548300851254e-06,
+      "logits/chosen": 0.2482290267944336,
+      "logits/rejected": 0.2852781414985657,
+      "logps/chosen": -620.8068237304688,
+      "logps/rejected": -665.9005737304688,
+      "loss": 1.8229,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.10497160255908966,
+      "rewards/margins": 0.20543234050273895,
+      "rewards/rejected": -0.3104039430618286,
+      "step": 180
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 3.706672243793271e-06,
+      "logits/chosen": 0.2958913743495941,
+      "logits/rejected": 0.3795389235019684,
+      "logps/chosen": -611.8587646484375,
+      "logps/rejected": -658.9635009765625,
+      "loss": 1.7752,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.0870656967163086,
+      "rewards/margins": 0.23995642364025116,
+      "rewards/rejected": -0.32702213525772095,
+      "step": 190
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 3.5400799911032357e-06,
+      "logits/chosen": 0.2935205101966858,
+      "logits/rejected": 0.3416239321231842,
+      "logps/chosen": -660.2877197265625,
+      "logps/rejected": -730.04541015625,
+      "loss": 1.7351,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.1828436255455017,
+      "rewards/margins": 0.3010478913784027,
+      "rewards/rejected": -0.4838915765285492,
+      "step": 200
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 3.3676987756445894e-06,
+      "logits/chosen": 0.24807122349739075,
+      "logits/rejected": 0.32862648367881775,
+      "logps/chosen": -605.8773193359375,
+      "logps/rejected": -641.6677856445312,
+      "loss": 1.8245,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.13868902623653412,
+      "rewards/margins": 0.2735101878643036,
+      "rewards/rejected": -0.4121991991996765,
+      "step": 210
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 3.1904880509659397e-06,
+      "logits/chosen": 0.270724892616272,
+      "logits/rejected": 0.3151053786277771,
+      "logps/chosen": -650.7314453125,
+      "logps/rejected": -708.2312622070312,
+      "loss": 1.735,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.16527561843395233,
+      "rewards/margins": 0.2484448254108429,
+      "rewards/rejected": -0.4137204587459564,
+      "step": 220
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 3.0094341510955697e-06,
+      "logits/chosen": 0.19233042001724243,
+      "logits/rejected": 0.29483872652053833,
+      "logps/chosen": -663.5474243164062,
+      "logps/rejected": -743.0173950195312,
+      "loss": 1.7378,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.14797742664813995,
+      "rewards/margins": 0.3706679344177246,
+      "rewards/rejected": -0.5186454057693481,
+      "step": 230
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 2.825544800722376e-06,
+      "logits/chosen": 0.2124979943037033,
+      "logits/rejected": 0.3365432620048523,
+      "logps/chosen": -619.9740600585938,
+      "logps/rejected": -700.7166748046875,
+      "loss": 1.8168,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -0.1956629902124405,
+      "rewards/margins": 0.2987174093723297,
+      "rewards/rejected": -0.494380384683609,
+      "step": 240
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.639843506318899e-06,
+      "logits/chosen": 0.2796134054660797,
+      "logits/rejected": 0.2740449607372284,
+      "logps/chosen": -582.3416748046875,
+      "logps/rejected": -674.327880859375,
+      "loss": 1.8901,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.19822832942008972,
+      "rewards/margins": 0.19228845834732056,
+      "rewards/rejected": -0.3905167877674103,
+      "step": 250
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 2.4533638594248094e-06,
+      "logits/chosen": 0.25897207856178284,
+      "logits/rejected": 0.31485193967819214,
+      "logps/chosen": -604.8118896484375,
+      "logps/rejected": -667.9144897460938,
+      "loss": 1.8606,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.14205999672412872,
+      "rewards/margins": 0.28450149297714233,
+      "rewards/rejected": -0.42656150460243225,
+      "step": 260
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.2671437837980943e-06,
+      "logits/chosen": 0.22259187698364258,
+      "logits/rejected": 0.22855930030345917,
+      "logps/chosen": -593.6612548828125,
+      "logps/rejected": -673.6566162109375,
+      "loss": 1.7486,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.14823240041732788,
+      "rewards/margins": 0.2802043557167053,
+      "rewards/rejected": -0.4284366965293884,
+      "step": 270
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 2.082219758453629e-06,
+      "logits/chosen": 0.2169434130191803,
+      "logits/rejected": 0.2703471779823303,
+      "logps/chosen": -611.6048583984375,
+      "logps/rejected": -682.5806884765625,
+      "loss": 1.6556,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.11671599000692368,
+      "rewards/margins": 0.26952022314071655,
+      "rewards/rejected": -0.3862362205982208,
+      "step": 280
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.899621048743019e-06,
+      "logits/chosen": 0.22146745026111603,
+      "logits/rejected": 0.34733515977859497,
+      "logps/chosen": -603.9933471679688,
+      "logps/rejected": -673.3649291992188,
+      "loss": 1.7238,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.20439250767230988,
+      "rewards/margins": 0.2682177424430847,
+      "rewards/rejected": -0.4726102352142334,
+      "step": 290
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.7203639775848423e-06,
+      "logits/chosen": 0.19099445641040802,
+      "logits/rejected": 0.3011043667793274,
+      "logps/chosen": -606.6263427734375,
+      "logps/rejected": -639.6136474609375,
+      "loss": 1.8381,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.17796705663204193,
+      "rewards/margins": 0.23042461276054382,
+      "rewards/rejected": -0.40839165449142456,
+      "step": 300
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.5454462687309445e-06,
+      "logits/chosen": 0.2036764919757843,
+      "logits/rejected": 0.26239025592803955,
+      "logps/chosen": -602.3845825195312,
+      "logps/rejected": -666.4627075195312,
+      "loss": 1.8042,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.1518932580947876,
+      "rewards/margins": 0.2536298632621765,
+      "rewards/rejected": -0.4055231511592865,
+      "step": 310
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.3758414935535147e-06,
+      "logits/chosen": 0.21739721298217773,
+      "logits/rejected": 0.2840099334716797,
+      "logps/chosen": -636.0455322265625,
+      "logps/rejected": -709.1137084960938,
+      "loss": 1.65,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.16815349459648132,
+      "rewards/margins": 0.29733169078826904,
+      "rewards/rejected": -0.465485155582428,
+      "step": 320
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.2124936522614622e-06,
+      "logits/chosen": 0.20938508212566376,
+      "logits/rejected": 0.22490420937538147,
+      "logps/chosen": -615.7994995117188,
+      "logps/rejected": -669.2200927734375,
+      "loss": 1.7098,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.18394342064857483,
+      "rewards/margins": 0.31033387780189514,
+      "rewards/rejected": -0.49427732825279236,
+      "step": 330
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.0563119197063934e-06,
+      "logits/chosen": 0.23827771842479706,
+      "logits/rejected": 0.2663131356239319,
+      "logps/chosen": -612.7750244140625,
+      "logps/rejected": -685.60107421875,
+      "loss": 1.7109,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.19161880016326904,
+      "rewards/margins": 0.26392242312431335,
+      "rewards/rejected": -0.4555412232875824,
+      "step": 340
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 9.081655850224449e-07,
+      "logits/chosen": 0.19827114045619965,
+      "logits/rejected": 0.2343660295009613,
+      "logps/chosen": -628.5892333984375,
+      "logps/rejected": -699.3311767578125,
+      "loss": 1.6981,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.23514249920845032,
+      "rewards/margins": 0.30311545729637146,
+      "rewards/rejected": -0.5382579565048218,
+      "step": 350
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 7.688792132653111e-07,
+      "logits/chosen": 0.19120459258556366,
+      "logits/rejected": 0.2861759066581726,
+      "logps/chosen": -659.7528076171875,
+      "logps/rejected": -748.490234375,
+      "loss": 1.6967,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.19031907618045807,
+      "rewards/margins": 0.34352895617485046,
+      "rewards/rejected": -0.533847987651825,
+      "step": 360
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.392280559802341e-07,
+      "logits/chosen": 0.2406836450099945,
+      "logits/rejected": 0.23908407986164093,
+      "logps/chosen": -658.35400390625,
+      "logps/rejected": -720.8883666992188,
+      "loss": 1.7368,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.23702308535575867,
+      "rewards/margins": 0.24957367777824402,
+      "rewards/rejected": -0.48659682273864746,
+      "step": 370
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 5.199337362431792e-07,
+      "logits/chosen": 0.26719361543655396,
+      "logits/rejected": 0.1743316501379013,
+      "logps/chosen": -621.3897094726562,
+      "logps/rejected": -680.0,
+      "loss": 1.7425,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.22942551970481873,
+      "rewards/margins": 0.26667481660842896,
+      "rewards/rejected": -0.49610036611557007,
+      "step": 380
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.1166023219176176e-07,
+      "logits/chosen": 0.21561181545257568,
+      "logits/rejected": 0.286629855632782,
+      "logps/chosen": -654.0867919921875,
+      "logps/rejected": -668.467529296875,
+      "loss": 1.6798,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.21663355827331543,
+      "rewards/margins": 0.2600599527359009,
+      "rewards/rejected": -0.4766935408115387,
+      "step": 390
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.150101814011136e-07,
+      "logits/chosen": 0.16323356330394745,
+      "logits/rejected": 0.21500280499458313,
+      "logps/chosen": -600.4713134765625,
+      "logps/rejected": -730.5057983398438,
+      "loss": 1.7084,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.19050315022468567,
+      "rewards/margins": 0.28324562311172485,
+      "rewards/rejected": -0.47374874353408813,
+      "step": 400
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 2.3052152667409289e-07,
+      "logits/chosen": 0.1962326616048813,
+      "logits/rejected": 0.22506949305534363,
+      "logps/chosen": -614.2760009765625,
+      "logps/rejected": -675.3383178710938,
+      "loss": 1.7679,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.1459427773952484,
+      "rewards/margins": 0.3252793252468109,
+      "rewards/rejected": -0.4712221026420593,
+      "step": 410
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.5866452191498488e-07,
+      "logits/chosen": 0.20015636086463928,
+      "logits/rejected": 0.25162121653556824,
+      "logps/chosen": -651.9236450195312,
+      "logps/rejected": -707.2882080078125,
+      "loss": 1.7514,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.23218846321105957,
+      "rewards/margins": 0.2290785312652588,
+      "rewards/rejected": -0.46126699447631836,
+      "step": 420
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 9.983911475163727e-08,
+      "logits/chosen": 0.16698592901229858,
+      "logits/rejected": 0.2591376304626465,
+      "logps/chosen": -590.045166015625,
+      "logps/rejected": -642.6705322265625,
+      "loss": 1.8093,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.17988340556621552,
+      "rewards/margins": 0.23005299270153046,
+      "rewards/rejected": -0.4099363684654236,
+      "step": 430
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 5.437272047405712e-08,
+      "logits/chosen": 0.1858983337879181,
+      "logits/rejected": 0.3158418536186218,
+      "logps/chosen": -559.8682250976562,
+      "logps/rejected": -648.7040405273438,
+      "loss": 1.7686,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.19649046659469604,
+      "rewards/margins": 0.26454511284828186,
+      "rewards/rejected": -0.4610355794429779,
+      "step": 440
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.251839967945535e-08,
+      "logits/chosen": 0.13786078989505768,
+      "logits/rejected": 0.2333669662475586,
+      "logps/chosen": -645.2703857421875,
+      "logps/rejected": -707.0418090820312,
+      "loss": 1.6172,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.17300908267498016,
+      "rewards/margins": 0.3292023241519928,
+      "rewards/rejected": -0.5022113919258118,
+      "step": 450
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 4.453449766758933e-09,
+      "logits/chosen": 0.1742466688156128,
+      "logits/rejected": 0.2268284559249878,
+      "logps/chosen": -576.7985229492188,
+      "logps/rejected": -652.7803344726562,
+      "loss": 1.7297,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.24071533977985382,
+      "rewards/margins": 0.18981412053108215,
+      "rewards/rejected": -0.4305294454097748,
+      "step": 460
+    },
+    {
+      "epoch": 1.0,
+      "step": 468,
+      "total_flos": 0.0,
+      "train_loss": 1.8394590188295414,
+      "train_runtime": 15861.5475,
+      "train_samples_per_second": 1.891,
+      "train_steps_per_second": 0.03
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 468,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}