Model save

Browse files

Files changed (6) hide show

README.md +80 -0
adapter_model.safetensors +1 -1
all_results.json +8 -0
runs/Mar19_21-02-18_uclaml04.cs.ucla.edu/events.out.tfevents.1710907561.uclaml04.cs.ucla.edu.3973422.0 +2 -2
train_results.json +8 -0
trainer_state.json +918 -0

README.md ADDED Viewed

	@@ -0,0 +1,80 @@

+---
+license: apache-2.0
+library_name: peft
+tags:
+- trl
+- dpo
+- generated_from_trainer
+base_model: mistralai/Mistral-7B-v0.1
+model-index:
+- name: zephyr-7b
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# zephyr-7b
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.6182
+- Rewards/chosen: -0.4457
+- Rewards/rejected: -0.8122
+- Rewards/accuracies: 0.3672
+- Rewards/margins: 0.3666
+- Logps/rejected: -158.4149
+- Logps/chosen: -108.4784
+- Logits/rejected: 0.9580
+- Logits/chosen: 0.9035
+- Use Label: 0.0
+- Pred Label: 0.0
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 4
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 128
+- total_eval_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen | Use Label | Pred Label |
+|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|:---------:|:----------:|
+| 0.6553        | 0.21  | 100  | 0.6557          | -0.1267        | -0.2685          | 0.3633             | 0.1419          | -104.0477      | -76.5787     | -2.0726         | -2.0833       | 0.0       | 0.0        |
+| 0.6446        | 0.42  | 200  | 0.6343          | -0.2873        | -0.5376          | 0.3828             | 0.2503          | -130.9503      | -92.6377     | -0.6864         | -0.7124       | 0.0       | 0.0        |
+| 0.6273        | 0.63  | 300  | 0.6204          | -0.4623        | -0.7994          | 0.3672             | 0.3371          | -157.1332      | -110.1469    | 0.6726          | 0.6280        | 0.0       | 0.0        |
+| 0.6165        | 0.84  | 400  | 0.6182          | -0.4457        | -0.8122          | 0.3672             | 0.3666          | -158.4149      | -108.4784    | 0.9580          | 0.9035        | 0.0       | 0.0        |
+### Framework versions
+- PEFT 0.7.1
+- Transformers 4.38.2
+- Pytorch 2.1.1+cu121
+- Datasets 2.14.6
+- Tokenizers 0.15.2

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04c5de933a493d1f1d280a810bf7e139f8e2af8c2196674c46dbf2d33d4538dd
 size 671150064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d13d352181489b0c0d490b1f94e135d6ba5d33aebeb5eb98faf9c68d8f394b98
 size 671150064

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.6389844682481554,
+    "train_runtime": 9615.2592,
+    "train_samples": 61135,
+    "train_samples_per_second": 6.358,
+    "train_steps_per_second": 0.05
+}

runs/Mar19_21-02-18_uclaml04.cs.ucla.edu/events.out.tfevents.1710907561.uclaml04.cs.ucla.edu.3973422.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4b9574ff73261c504912466cce39e49520b240d901176a5015650118a2a9f3b
-size 45084

 version https://git-lfs.github.com/spec/v1
+oid sha256:cabb4ba084135335b7667de3d4fc284f7b992c10f172e6822a8adaca745838c7
+size 47032

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 0.6389844682481554,
+    "train_runtime": 9615.2592,
+    "train_samples": 61135,
+    "train_samples_per_second": 6.358,
+    "train_steps_per_second": 0.05
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,918 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9984301412872841,
+  "eval_steps": 100,
+  "global_step": 477,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "grad_norm": 0.400390625,
+      "learning_rate": 1.0416666666666667e-07,
+      "logits/chosen": -2.2547454833984375,
+      "logits/rejected": -2.401865005493164,
+      "logps/chosen": -53.759212493896484,
+      "logps/rejected": -48.83185958862305,
+      "loss": 0.6931,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 0.4609375,
+      "learning_rate": 1.0416666666666667e-06,
+      "logits/chosen": -2.242556571960449,
+      "logits/rejected": -2.277317762374878,
+      "logps/chosen": -51.96327209472656,
+      "logps/rejected": -64.98894500732422,
+      "loss": 0.6929,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.2361111044883728,
+      "rewards/chosen": 0.002160965697839856,
+      "rewards/margins": 0.0009470728691667318,
+      "rewards/rejected": 0.0012138929450884461,
+      "step": 10,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 0.396484375,
+      "learning_rate": 2.0833333333333334e-06,
+      "logits/chosen": -2.252474784851074,
+      "logits/rejected": -2.256141185760498,
+      "logps/chosen": -62.50165557861328,
+      "logps/rejected": -72.6328125,
+      "loss": 0.6919,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.28125,
+      "rewards/chosen": 0.01592240110039711,
+      "rewards/margins": 0.001004441175609827,
+      "rewards/rejected": 0.014917959459125996,
+      "step": 20,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 0.51171875,
+      "learning_rate": 3.125e-06,
+      "logits/chosen": -2.342515468597412,
+      "logits/rejected": -2.3552591800689697,
+      "logps/chosen": -79.15455627441406,
+      "logps/rejected": -98.8229751586914,
+      "loss": 0.6898,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.2874999940395355,
+      "rewards/chosen": 0.030873581767082214,
+      "rewards/margins": 0.002844910603016615,
+      "rewards/rejected": 0.02802867256104946,
+      "step": 30,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.51953125,
+      "learning_rate": 4.166666666666667e-06,
+      "logits/chosen": -2.323695421218872,
+      "logits/rejected": -2.3019304275512695,
+      "logps/chosen": -82.8508071899414,
+      "logps/rejected": -82.39540100097656,
+      "loss": 0.6866,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.2874999940395355,
+      "rewards/chosen": 0.033413294702768326,
+      "rewards/margins": 0.011912978254258633,
+      "rewards/rejected": 0.021500317379832268,
+      "step": 40,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 0.6640625,
+      "learning_rate": 4.999731868769027e-06,
+      "logits/chosen": -2.2408015727996826,
+      "logits/rejected": -2.2638282775878906,
+      "logps/chosen": -67.89698028564453,
+      "logps/rejected": -81.84117126464844,
+      "loss": 0.6805,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": 0.009338948875665665,
+      "rewards/margins": 0.030354563146829605,
+      "rewards/rejected": -0.02101561427116394,
+      "step": 50,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 1.53125,
+      "learning_rate": 4.9903533134293035e-06,
+      "logits/chosen": -2.2194154262542725,
+      "logits/rejected": -2.1603574752807617,
+      "logps/chosen": -62.444313049316406,
+      "logps/rejected": -72.18606567382812,
+      "loss": 0.6753,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.30000001192092896,
+      "rewards/chosen": -0.027180707082152367,
+      "rewards/margins": 0.044989973306655884,
+      "rewards/rejected": -0.072170689702034,
+      "step": 60,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 1.84375,
+      "learning_rate": 4.967625656594782e-06,
+      "logits/chosen": -2.1111249923706055,
+      "logits/rejected": -2.109537124633789,
+      "logps/chosen": -62.041603088378906,
+      "logps/rejected": -75.64030456542969,
+      "loss": 0.666,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": -0.06330498307943344,
+      "rewards/margins": 0.03508424013853073,
+      "rewards/rejected": -0.09838922321796417,
+      "step": 70,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 1.03125,
+      "learning_rate": 4.93167072587771e-06,
+      "logits/chosen": -2.21980881690979,
+      "logits/rejected": -2.1616053581237793,
+      "logps/chosen": -60.844932556152344,
+      "logps/rejected": -74.95368957519531,
+      "loss": 0.66,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.26249998807907104,
+      "rewards/chosen": -0.12314031273126602,
+      "rewards/margins": 0.0946219339966774,
+      "rewards/rejected": -0.21776223182678223,
+      "step": 80,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 1.5390625,
+      "learning_rate": 4.882681251368549e-06,
+      "logits/chosen": -2.109405279159546,
+      "logits/rejected": -2.1181578636169434,
+      "logps/chosen": -77.24811553955078,
+      "logps/rejected": -95.32093811035156,
+      "loss": 0.6621,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.3062500059604645,
+      "rewards/chosen": -0.1886606067419052,
+      "rewards/margins": 0.07690713554620743,
+      "rewards/rejected": -0.26556771993637085,
+      "step": 90,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.1640625,
+      "learning_rate": 4.8209198325401815e-06,
+      "logits/chosen": -2.1972146034240723,
+      "logits/rejected": -2.169661283493042,
+      "logps/chosen": -92.16123962402344,
+      "logps/rejected": -84.31734466552734,
+      "loss": 0.6553,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.3499999940395355,
+      "rewards/chosen": -0.12131345272064209,
+      "rewards/margins": 0.08319222182035446,
+      "rewards/rejected": -0.20450565218925476,
+      "step": 100,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.21,
+      "eval_logits/chosen": -2.0832693576812744,
+      "eval_logits/rejected": -2.0725808143615723,
+      "eval_logps/chosen": -76.57865905761719,
+      "eval_logps/rejected": -104.04773712158203,
+      "eval_loss": 0.6557236313819885,
+      "eval_pred_label": 0.0,
+      "eval_rewards/accuracies": 0.36328125,
+      "eval_rewards/chosen": -0.12666408717632294,
+      "eval_rewards/margins": 0.14188387989997864,
+      "eval_rewards/rejected": -0.26854798197746277,
+      "eval_runtime": 125.5075,
+      "eval_samples_per_second": 15.935,
+      "eval_steps_per_second": 0.255,
+      "eval_use_label": 0.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 1.1484375,
+      "learning_rate": 4.746717530629565e-06,
+      "logits/chosen": -2.125093460083008,
+      "logits/rejected": -2.108320713043213,
+      "logps/chosen": -86.47650146484375,
+      "logps/rejected": -108.77266693115234,
+      "loss": 0.6536,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.1537572741508484,
+      "rewards/margins": 0.14806225895881653,
+      "rewards/rejected": -0.3018195331096649,
+      "step": 110,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 1.5390625,
+      "learning_rate": 4.660472094042121e-06,
+      "logits/chosen": -1.9497900009155273,
+      "logits/rejected": -1.8884683847427368,
+      "logps/chosen": -95.01170349121094,
+      "logps/rejected": -114.40583801269531,
+      "loss": 0.652,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.36250001192092896,
+      "rewards/chosen": -0.2506612241268158,
+      "rewards/margins": 0.16420678794384003,
+      "rewards/rejected": -0.414868026971817,
+      "step": 120,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 1.9296875,
+      "learning_rate": 4.5626458262912745e-06,
+      "logits/chosen": -1.7961517572402954,
+      "logits/rejected": -1.7706302404403687,
+      "logps/chosen": -90.99502563476562,
+      "logps/rejected": -112.71142578125,
+      "loss": 0.654,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.34375,
+      "rewards/chosen": -0.2521664500236511,
+      "rewards/margins": 0.1464831829071045,
+      "rewards/rejected": -0.3986496329307556,
+      "step": 130,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 1.9921875,
+      "learning_rate": 4.453763107901676e-06,
+      "logits/chosen": -1.7561969757080078,
+      "logits/rejected": -1.796431541442871,
+      "logps/chosen": -96.94844818115234,
+      "logps/rejected": -107.52276611328125,
+      "loss": 0.6488,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.26875001192092896,
+      "rewards/chosen": -0.1620088815689087,
+      "rewards/margins": 0.12216176092624664,
+      "rewards/rejected": -0.28417062759399414,
+      "step": 140,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.7578125,
+      "learning_rate": 4.33440758555951e-06,
+      "logits/chosen": -1.7516326904296875,
+      "logits/rejected": -1.7187411785125732,
+      "logps/chosen": -78.70259857177734,
+      "logps/rejected": -104.34063720703125,
+      "loss": 0.6451,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": -0.13555890321731567,
+      "rewards/margins": 0.22945857048034668,
+      "rewards/rejected": -0.36501747369766235,
+      "step": 150,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 2.640625,
+      "learning_rate": 4.205219043576955e-06,
+      "logits/chosen": -1.481575608253479,
+      "logits/rejected": -1.468014121055603,
+      "logps/chosen": -100.68672180175781,
+      "logps/rejected": -127.04164123535156,
+      "loss": 0.6442,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.29374998807907104,
+      "rewards/chosen": -0.36356669664382935,
+      "rewards/margins": 0.1327240914106369,
+      "rewards/rejected": -0.49629077315330505,
+      "step": 160,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 2.390625,
+      "learning_rate": 4.066889974440757e-06,
+      "logits/chosen": -0.9005377888679504,
+      "logits/rejected": -0.8864371180534363,
+      "logps/chosen": -85.81999206542969,
+      "logps/rejected": -110.4801254272461,
+      "loss": 0.6339,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.30000001192092896,
+      "rewards/chosen": -0.3031192421913147,
+      "rewards/margins": 0.1594724804162979,
+      "rewards/rejected": -0.4625917375087738,
+      "step": 170,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 2.78125,
+      "learning_rate": 3.92016186682789e-06,
+      "logits/chosen": -0.591436505317688,
+      "logits/rejected": -0.5489451885223389,
+      "logps/chosen": -103.7041015625,
+      "logps/rejected": -123.32816314697266,
+      "loss": 0.6554,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.3375000059604645,
+      "rewards/chosen": -0.40916457772254944,
+      "rewards/margins": 0.2612735629081726,
+      "rewards/rejected": -0.6704381108283997,
+      "step": 180,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 2.09375,
+      "learning_rate": 3.7658212309857576e-06,
+      "logits/chosen": -0.801749587059021,
+      "logits/rejected": -0.588916003704071,
+      "logps/chosen": -96.86283874511719,
+      "logps/rejected": -123.17811584472656,
+      "loss": 0.6508,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.3062500059604645,
+      "rewards/chosen": -0.37751203775405884,
+      "rewards/margins": 0.21026258170604706,
+      "rewards/rejected": -0.5877746343612671,
+      "step": 190,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.59375,
+      "learning_rate": 3.604695382782159e-06,
+      "logits/chosen": -1.114527940750122,
+      "logits/rejected": -1.0130901336669922,
+      "logps/chosen": -111.54571533203125,
+      "logps/rejected": -115.97926330566406,
+      "loss": 0.6446,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.3187499940395355,
+      "rewards/chosen": -0.2986941933631897,
+      "rewards/margins": 0.1296522319316864,
+      "rewards/rejected": -0.4283464550971985,
+      "step": 200,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.42,
+      "eval_logits/chosen": -0.7123901844024658,
+      "eval_logits/rejected": -0.6864092350006104,
+      "eval_logps/chosen": -92.6377182006836,
+      "eval_logps/rejected": -130.9503173828125,
+      "eval_loss": 0.6342783570289612,
+      "eval_pred_label": 0.0,
+      "eval_rewards/accuracies": 0.3828125,
+      "eval_rewards/chosen": -0.28725457191467285,
+      "eval_rewards/margins": 0.250319242477417,
+      "eval_rewards/rejected": -0.5375738143920898,
+      "eval_runtime": 125.6586,
+      "eval_samples_per_second": 15.916,
+      "eval_steps_per_second": 0.255,
+      "eval_use_label": 0.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 2.140625,
+      "learning_rate": 3.437648009023905e-06,
+      "logits/chosen": -0.6364002227783203,
+      "logits/rejected": -0.629191517829895,
+      "logps/chosen": -79.12034606933594,
+      "logps/rejected": -109.35395812988281,
+      "loss": 0.6319,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.35624998807907104,
+      "rewards/chosen": -0.23145589232444763,
+      "rewards/margins": 0.2322908192873001,
+      "rewards/rejected": -0.46374672651290894,
+      "step": 210,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 2.453125,
+      "learning_rate": 3.265574537815398e-06,
+      "logits/chosen": -0.24914255738258362,
+      "logits/rejected": -0.12895795702934265,
+      "logps/chosen": -123.09925842285156,
+      "logps/rejected": -127.96968078613281,
+      "loss": 0.633,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.3187499940395355,
+      "rewards/chosen": -0.43470579385757446,
+      "rewards/margins": 0.1813107430934906,
+      "rewards/rejected": -0.6160165071487427,
+      "step": 220,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 2.734375,
+      "learning_rate": 3.089397338773569e-06,
+      "logits/chosen": 0.08423249423503876,
+      "logits/rejected": 0.1725344955921173,
+      "logps/chosen": -98.91605377197266,
+      "logps/rejected": -125.9875259399414,
+      "loss": 0.6278,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.33125001192092896,
+      "rewards/chosen": -0.3448147773742676,
+      "rewards/margins": 0.287472665309906,
+      "rewards/rejected": -0.6322874426841736,
+      "step": 230,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 2.015625,
+      "learning_rate": 2.9100607788275547e-06,
+      "logits/chosen": 0.48232460021972656,
+      "logits/rejected": 0.39376580715179443,
+      "logps/chosen": -108.98759460449219,
+      "logps/rejected": -142.29344177246094,
+      "loss": 0.6294,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.3812499940395355,
+      "rewards/chosen": -0.39955058693885803,
+      "rewards/margins": 0.28114694356918335,
+      "rewards/rejected": -0.680697500705719,
+      "step": 240,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 2.25,
+      "learning_rate": 2.72852616010567e-06,
+      "logits/chosen": 0.35806649923324585,
+      "logits/rejected": 0.41671887040138245,
+      "logps/chosen": -126.65348052978516,
+      "logps/rejected": -151.3179168701172,
+      "loss": 0.6419,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.36250001192092896,
+      "rewards/chosen": -0.5325437784194946,
+      "rewards/margins": 0.28831106424331665,
+      "rewards/rejected": -0.8208548426628113,
+      "step": 250,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 2.46875,
+      "learning_rate": 2.5457665670441937e-06,
+      "logits/chosen": 0.4644729197025299,
+      "logits/rejected": 0.45051756501197815,
+      "logps/chosen": -110.62007904052734,
+      "logps/rejected": -142.76722717285156,
+      "loss": 0.6232,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": -0.4451447129249573,
+      "rewards/margins": 0.2380482256412506,
+      "rewards/rejected": -0.6831929087638855,
+      "step": 260,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 2.4375,
+      "learning_rate": 2.3627616503391813e-06,
+      "logits/chosen": 0.6336380839347839,
+      "logits/rejected": 0.5556719303131104,
+      "logps/chosen": -116.7416000366211,
+      "logps/rejected": -135.33096313476562,
+      "loss": 0.6174,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.3375000059604645,
+      "rewards/chosen": -0.43825817108154297,
+      "rewards/margins": 0.22129836678504944,
+      "rewards/rejected": -0.65955650806427,
+      "step": 270,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 3.0625,
+      "learning_rate": 2.1804923757009885e-06,
+      "logits/chosen": 0.6383472681045532,
+      "logits/rejected": 0.7697634100914001,
+      "logps/chosen": -106.45858001708984,
+      "logps/rejected": -125.5028305053711,
+      "loss": 0.6353,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.30000001192092896,
+      "rewards/chosen": -0.4095306992530823,
+      "rewards/margins": 0.21630148589611053,
+      "rewards/rejected": -0.625832200050354,
+      "step": 280,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 3.328125,
+      "learning_rate": 1.9999357655598894e-06,
+      "logits/chosen": 0.1407470554113388,
+      "logits/rejected": 0.12877413630485535,
+      "logps/chosen": -108.0340805053711,
+      "logps/rejected": -136.49562072753906,
+      "loss": 0.6265,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.30000001192092896,
+      "rewards/chosen": -0.41485634446144104,
+      "rewards/margins": 0.18648667633533478,
+      "rewards/rejected": -0.601343035697937,
+      "step": 290,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 3.03125,
+      "learning_rate": 1.8220596619089576e-06,
+      "logits/chosen": 0.4002162516117096,
+      "logits/rejected": 0.25351682305336,
+      "logps/chosen": -127.95108795166016,
+      "logps/rejected": -172.98793029785156,
+      "loss": 0.6273,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.4124999940395355,
+      "rewards/chosen": -0.5035675168037415,
+      "rewards/margins": 0.2851078510284424,
+      "rewards/rejected": -0.7886753678321838,
+      "step": 300,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.63,
+      "eval_logits/chosen": 0.6280341148376465,
+      "eval_logits/rejected": 0.6725929379463196,
+      "eval_logps/chosen": -110.14692687988281,
+      "eval_logps/rejected": -157.1332244873047,
+      "eval_loss": 0.620426595211029,
+      "eval_pred_label": 0.0,
+      "eval_rewards/accuracies": 0.3671875,
+      "eval_rewards/chosen": -0.46234679222106934,
+      "eval_rewards/margins": 0.33705610036849976,
+      "eval_rewards/rejected": -0.7994028329849243,
+      "eval_runtime": 125.7299,
+      "eval_samples_per_second": 15.907,
+      "eval_steps_per_second": 0.255,
+      "eval_use_label": 0.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 2.390625,
+      "learning_rate": 1.647817538357072e-06,
+      "logits/chosen": 0.33872538805007935,
+      "logits/rejected": 0.3415250778198242,
+      "logps/chosen": -95.08795166015625,
+      "logps/rejected": -142.95713806152344,
+      "loss": 0.6014,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.39491352438926697,
+      "rewards/margins": 0.35215410590171814,
+      "rewards/rejected": -0.7470676302909851,
+      "step": 310,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 2.546875,
+      "learning_rate": 1.4781433892011132e-06,
+      "logits/chosen": 0.2642754018306732,
+      "logits/rejected": 0.4063233435153961,
+      "logps/chosen": -131.07791137695312,
+      "logps/rejected": -164.12667846679688,
+      "loss": 0.6133,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.38749998807907104,
+      "rewards/chosen": -0.580074667930603,
+      "rewards/margins": 0.38923436403274536,
+      "rewards/rejected": -0.9693089723587036,
+      "step": 320,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 3.15625,
+      "learning_rate": 1.3139467229135999e-06,
+      "logits/chosen": 0.5224499106407166,
+      "logits/rejected": 0.5213581919670105,
+      "logps/chosen": -130.00186157226562,
+      "logps/rejected": -156.6516876220703,
+      "loss": 0.6387,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.3375000059604645,
+      "rewards/chosen": -0.5989372134208679,
+      "rewards/margins": 0.2814994752407074,
+      "rewards/rejected": -0.8804367184638977,
+      "step": 330,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 2.28125,
+      "learning_rate": 1.1561076868822756e-06,
+      "logits/chosen": 0.1671726554632187,
+      "logits/rejected": 0.0974355936050415,
+      "logps/chosen": -140.3222198486328,
+      "logps/rejected": -155.46217346191406,
+      "loss": 0.6252,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.3375000059604645,
+      "rewards/chosen": -0.5558302998542786,
+      "rewards/margins": 0.23368898034095764,
+      "rewards/rejected": -0.7895193099975586,
+      "step": 340,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 3.328125,
+      "learning_rate": 1.0054723495346484e-06,
+      "logits/chosen": 0.081739641726017,
+      "logits/rejected": 0.08175826817750931,
+      "logps/chosen": -150.41506958007812,
+      "logps/rejected": -178.51565551757812,
+      "loss": 0.6231,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.6099845170974731,
+      "rewards/margins": 0.322490930557251,
+      "rewards/rejected": -0.9324753880500793,
+      "step": 350,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 1.875,
+      "learning_rate": 8.628481651367876e-07,
+      "logits/chosen": 0.12279005348682404,
+      "logits/rejected": 0.20824797451496124,
+      "logps/chosen": -110.51042175292969,
+      "logps/rejected": -153.92698669433594,
+      "loss": 0.6186,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.3687500059604645,
+      "rewards/chosen": -0.46872806549072266,
+      "rewards/margins": 0.3482593894004822,
+      "rewards/rejected": -0.8169875144958496,
+      "step": 360,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 2.15625,
+      "learning_rate": 7.289996455765749e-07,
+      "logits/chosen": 0.19759848713874817,
+      "logits/rejected": 0.29472407698631287,
+      "logps/chosen": -103.1863021850586,
+      "logps/rejected": -143.578125,
+      "loss": 0.6166,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.3687500059604645,
+      "rewards/chosen": -0.37751519680023193,
+      "rewards/margins": 0.37911203503608704,
+      "rewards/rejected": -0.7566272020339966,
+      "step": 370,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.96875,
+      "learning_rate": 6.046442623320145e-07,
+      "logits/chosen": 0.03893072158098221,
+      "logits/rejected": 0.019468214362859726,
+      "logps/chosen": -108.17799377441406,
+      "logps/rejected": -158.08056640625,
+      "loss": 0.6183,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.3187499940395355,
+      "rewards/chosen": -0.42342591285705566,
+      "rewards/margins": 0.2937392592430115,
+      "rewards/rejected": -0.7171651124954224,
+      "step": 380,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 2.59375,
+      "learning_rate": 4.904486005914027e-07,
+      "logits/chosen": 0.33429718017578125,
+      "logits/rejected": 0.08158789575099945,
+      "logps/chosen": -151.29055786132812,
+      "logps/rejected": -180.48861694335938,
+      "loss": 0.6114,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.39375001192092896,
+      "rewards/chosen": -0.5847219824790955,
+      "rewards/margins": 0.3904651999473572,
+      "rewards/rejected": -0.9751871824264526,
+      "step": 390,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 2.015625,
+      "learning_rate": 3.8702478614051353e-07,
+      "logits/chosen": 0.126608207821846,
+      "logits/rejected": 0.2576550841331482,
+      "logps/chosen": -109.39167785644531,
+      "logps/rejected": -134.27053833007812,
+      "loss": 0.6165,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.38749998807907104,
+      "rewards/chosen": -0.36900678277015686,
+      "rewards/margins": 0.3390708863735199,
+      "rewards/rejected": -0.708077609539032,
+      "step": 400,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.84,
+      "eval_logits/chosen": 0.903490424156189,
+      "eval_logits/rejected": 0.958048939704895,
+      "eval_logps/chosen": -108.47840881347656,
+      "eval_logps/rejected": -158.4149169921875,
+      "eval_loss": 0.6182093620300293,
+      "eval_pred_label": 0.0,
+      "eval_rewards/accuracies": 0.3671875,
+      "eval_rewards/chosen": -0.4456615447998047,
+      "eval_rewards/margins": 0.3665582537651062,
+      "eval_rewards/rejected": -0.8122197389602661,
+      "eval_runtime": 125.7278,
+      "eval_samples_per_second": 15.907,
+      "eval_steps_per_second": 0.255,
+      "eval_use_label": 0.0,
+      "step": 400
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 2.046875,
+      "learning_rate": 2.9492720416985004e-07,
+      "logits/chosen": 0.39335688948631287,
+      "logits/rejected": 0.41703349351882935,
+      "logps/chosen": -106.9058837890625,
+      "logps/rejected": -138.57296752929688,
+      "loss": 0.6272,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.36250001192092896,
+      "rewards/chosen": -0.45482879877090454,
+      "rewards/margins": 0.3337084650993347,
+      "rewards/rejected": -0.788537323474884,
+      "step": 410,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 2.078125,
+      "learning_rate": 2.1464952759020857e-07,
+      "logits/chosen": 0.5264393091201782,
+      "logits/rejected": 0.4952784478664398,
+      "logps/chosen": -104.27522277832031,
+      "logps/rejected": -112.507080078125,
+      "loss": 0.6235,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.2750000059604645,
+      "rewards/chosen": -0.4333609640598297,
+      "rewards/margins": 0.1778794825077057,
+      "rewards/rejected": -0.6112405061721802,
+      "step": 420,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 1.734375,
+      "learning_rate": 1.4662207078575685e-07,
+      "logits/chosen": 0.47332754731178284,
+      "logits/rejected": 0.4613571763038635,
+      "logps/chosen": -144.65744018554688,
+      "logps/rejected": -170.08921813964844,
+      "loss": 0.5988,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.45625001192092896,
+      "rewards/chosen": -0.4539059102535248,
+      "rewards/margins": 0.4534150958061218,
+      "rewards/rejected": -0.9073210954666138,
+      "step": 430,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 1.9609375,
+      "learning_rate": 9.120948298936422e-08,
+      "logits/chosen": 0.48202329874038696,
+      "logits/rejected": 0.6259401440620422,
+      "logps/chosen": -114.15118408203125,
+      "logps/rejected": -161.5361785888672,
+      "loss": 0.6098,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.36250001192092896,
+      "rewards/chosen": -0.4724721908569336,
+      "rewards/margins": 0.39225998520851135,
+      "rewards/rejected": -0.8647321462631226,
+      "step": 440,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 2.265625,
+      "learning_rate": 4.870879364444109e-08,
+      "logits/chosen": 0.8100695610046387,
+      "logits/rejected": 0.5903851389884949,
+      "logps/chosen": -126.81998443603516,
+      "logps/rejected": -174.6106719970703,
+      "loss": 0.6122,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.36250001192092896,
+      "rewards/chosen": -0.5456215739250183,
+      "rewards/margins": 0.3175886273384094,
+      "rewards/rejected": -0.8632103204727173,
+      "step": 450,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 2.140625,
+      "learning_rate": 1.93478202307823e-08,
+      "logits/chosen": 0.7001665830612183,
+      "logits/rejected": 0.7000536322593689,
+      "logps/chosen": -80.71357727050781,
+      "logps/rejected": -126.110595703125,
+      "loss": 0.6182,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.32499998807907104,
+      "rewards/chosen": -0.3459371328353882,
+      "rewards/margins": 0.2817174792289734,
+      "rewards/rejected": -0.6276546716690063,
+      "step": 460,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 2.78125,
+      "learning_rate": 3.283947088983663e-09,
+      "logits/chosen": 0.7130995392799377,
+      "logits/rejected": 0.5145190954208374,
+      "logps/chosen": -110.40830993652344,
+      "logps/rejected": -137.49429321289062,
+      "loss": 0.6251,
+      "pred_label": 0.0,
+      "rewards/accuracies": 0.3125,
+      "rewards/chosen": -0.43079155683517456,
+      "rewards/margins": 0.25358152389526367,
+      "rewards/rejected": -0.6843730211257935,
+      "step": 470,
+      "use_label": 0.0
+    },
+    {
+      "epoch": 1.0,
+      "step": 477,
+      "total_flos": 0.0,
+      "train_loss": 0.6389844682481554,
+      "train_runtime": 9615.2592,
+      "train_samples_per_second": 6.358,
+      "train_steps_per_second": 0.05
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 477,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 50,
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}