End of training

Browse files

Files changed (6) hide show

README.md +64 -0
all_results.json +9 -0
config.json +1 -1
generation_config.json +6 -0
train_results.json +9 -0
trainer_state.json +924 -0

README.md ADDED Viewed

	@@ -0,0 +1,64 @@

+---
+library_name: transformers
+license: other
+base_model: yiran-wang3/ds_coder6.7b_reflct_adamw_iter3
+tags:
+- alignment-handbook
+- generated_from_trainer
+- trl
+- dpo
+datasets:
+- self-generate/ds_coder6.7b_reflct_sppo_hard_new_cn_mining_oj_iter3-binarized-reflection-scored
+model-index:
+- name: ds_coder6.7b_reflct_adamw_iter4
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# ds_coder6.7b_reflct_adamw_iter4
+This model is a fine-tuned version of [yiran-wang3/ds_coder6.7b_reflct_adamw_iter3](https://huggingface.co/yiran-wang3/ds_coder6.7b_reflct_adamw_iter3) on the self-generate/ds_coder6.7b_reflct_sppo_hard_new_cn_mining_oj_iter3-binarized-reflection-scored dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-06
+- train_batch_size: 8
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- total_train_batch_size: 64
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: constant
+- lr_scheduler_warmup_ratio: 0.1
+- lr_scheduler_warmup_steps: 100
+- num_epochs: 1.0
+### Training results
+### Framework versions
+- Transformers 4.45.0
+- Pytorch 2.4.0+cu121
+- Datasets 2.14.6
+- Tokenizers 0.20.3

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.47520279742422555,
+    "train_runtime": 468.7452,
+    "train_samples": 2682,
+    "train_samples_per_second": 5.722,
+    "train_steps_per_second": 0.09
+}

config.json CHANGED Viewed

@@ -29,6 +29,6 @@
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.45.0",
-  "use_cache": false,
   "vocab_size": 32256
 }

   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.45.0",
+  "use_cache": true,
   "vocab_size": 32256
 }

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 32013,
+  "eos_token_id": 32021,
+  "transformers_version": "4.45.0"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.47520279742422555,
+    "train_runtime": 468.7452,
+    "train_samples": 2682,
+    "train_samples_per_second": 5.722,
+    "train_steps_per_second": 0.09
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,924 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 100,
+  "global_step": 42,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "debug/policy_chosen_logits": 1.534427523612976,
+      "debug/policy_chosen_logps": -246.16604614257812,
+      "debug/policy_rejected_logits": 1.8819605112075806,
+      "debug/policy_rejected_logps": -303.5055847167969,
+      "debug/reference_chosen_logps": -246.16604614257812,
+      "debug/reference_rejected_logps": -303.5055847167969,
+      "epoch": 0.023809523809523808,
+      "grad_norm": 4.998254371607607,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.534427523612976,
+      "logits/rejected": 1.8819605112075806,
+      "logps/chosen": -246.16604614257812,
+      "logps/rejected": -303.5055847167969,
+      "loss": 0.5,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "debug/policy_chosen_logits": 1.7019506692886353,
+      "debug/policy_chosen_logps": -239.2976837158203,
+      "debug/policy_rejected_logits": 1.9889742136001587,
+      "debug/policy_rejected_logps": -257.10430908203125,
+      "debug/reference_chosen_logps": -239.32846069335938,
+      "debug/reference_rejected_logps": -257.1052551269531,
+      "epoch": 0.047619047619047616,
+      "grad_norm": 3.709501541706415,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.7019506692886353,
+      "logits/rejected": 1.9889742136001587,
+      "logps/chosen": -239.2976837158203,
+      "logps/rejected": -257.10430908203125,
+      "loss": 0.5007,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.00030775077175348997,
+      "rewards/margins": 0.0002984236925840378,
+      "rewards/rejected": 9.32672992348671e-06,
+      "step": 2
+    },
+    {
+      "debug/policy_chosen_logits": 2.0194900035858154,
+      "debug/policy_chosen_logps": -279.34771728515625,
+      "debug/policy_rejected_logits": 1.7646379470825195,
+      "debug/policy_rejected_logps": -324.56732177734375,
+      "debug/reference_chosen_logps": -278.9559631347656,
+      "debug/reference_rejected_logps": -324.5027160644531,
+      "epoch": 0.07142857142857142,
+      "grad_norm": 4.913166021048808,
+      "learning_rate": 1e-06,
+      "logits/chosen": 2.0194900035858154,
+      "logits/rejected": 1.7646379470825195,
+      "logps/chosen": -279.34771728515625,
+      "logps/rejected": -324.56732177734375,
+      "loss": 0.4996,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": -0.00391746498644352,
+      "rewards/margins": -0.003271312452852726,
+      "rewards/rejected": -0.0006461525335907936,
+      "step": 3
+    },
+    {
+      "debug/policy_chosen_logits": 1.8845134973526,
+      "debug/policy_chosen_logps": -247.70022583007812,
+      "debug/policy_rejected_logits": 1.9669499397277832,
+      "debug/policy_rejected_logps": -284.1238098144531,
+      "debug/reference_chosen_logps": -247.67445373535156,
+      "debug/reference_rejected_logps": -284.0384216308594,
+      "epoch": 0.09523809523809523,
+      "grad_norm": 3.5714670065259737,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.8845134973526,
+      "logits/rejected": 1.9669499397277832,
+      "logps/chosen": -247.70022583007812,
+      "logps/rejected": -284.1238098144531,
+      "loss": 0.4988,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.0002577209670562297,
+      "rewards/margins": 0.0005962752620689571,
+      "rewards/rejected": -0.0008539962582290173,
+      "step": 4
+    },
+    {
+      "debug/policy_chosen_logits": 1.6867436170578003,
+      "debug/policy_chosen_logps": -256.5872802734375,
+      "debug/policy_rejected_logits": 1.5141671895980835,
+      "debug/policy_rejected_logps": -298.8122253417969,
+      "debug/reference_chosen_logps": -255.80136108398438,
+      "debug/reference_rejected_logps": -298.3391418457031,
+      "epoch": 0.11904761904761904,
+      "grad_norm": 4.263705722231279,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.6867436170578003,
+      "logits/rejected": 1.5141671895980835,
+      "logps/chosen": -256.5872802734375,
+      "logps/rejected": -298.8122253417969,
+      "loss": 0.4988,
+      "rewards/accuracies": 0.25,
+      "rewards/chosen": -0.007859057746827602,
+      "rewards/margins": -0.003128451993688941,
+      "rewards/rejected": -0.004730605985969305,
+      "step": 5
+    },
+    {
+      "debug/policy_chosen_logits": 1.7323403358459473,
+      "debug/policy_chosen_logps": -258.45379638671875,
+      "debug/policy_rejected_logits": 1.657837152481079,
+      "debug/policy_rejected_logps": -318.19281005859375,
+      "debug/reference_chosen_logps": -257.7867736816406,
+      "debug/reference_rejected_logps": -316.5732116699219,
+      "epoch": 0.14285714285714285,
+      "grad_norm": 3.7713550317949176,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.7323403358459473,
+      "logits/rejected": 1.657837152481079,
+      "logps/chosen": -258.45379638671875,
+      "logps/rejected": -318.19281005859375,
+      "loss": 0.4946,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.006670188624411821,
+      "rewards/margins": 0.00952566135674715,
+      "rewards/rejected": -0.01619585044682026,
+      "step": 6
+    },
+    {
+      "debug/policy_chosen_logits": 1.8151267766952515,
+      "debug/policy_chosen_logps": -263.91693115234375,
+      "debug/policy_rejected_logits": 1.8386905193328857,
+      "debug/policy_rejected_logps": -302.0845031738281,
+      "debug/reference_chosen_logps": -262.6131286621094,
+      "debug/reference_rejected_logps": -300.3056640625,
+      "epoch": 0.16666666666666666,
+      "grad_norm": 3.598363099027292,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.8151267766952515,
+      "logits/rejected": 1.8386905193328857,
+      "logps/chosen": -263.91693115234375,
+      "logps/rejected": -302.0845031738281,
+      "loss": 0.4949,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.01303796749562025,
+      "rewards/margins": 0.004750480409711599,
+      "rewards/rejected": -0.017788447439670563,
+      "step": 7
+    },
+    {
+      "debug/policy_chosen_logits": 1.9484639167785645,
+      "debug/policy_chosen_logps": -267.802978515625,
+      "debug/policy_rejected_logits": 1.9488154649734497,
+      "debug/policy_rejected_logps": -383.6639404296875,
+      "debug/reference_chosen_logps": -266.5791320800781,
+      "debug/reference_rejected_logps": -381.67608642578125,
+      "epoch": 0.19047619047619047,
+      "grad_norm": 4.285563297670631,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.9484639167785645,
+      "logits/rejected": 1.9488154649734497,
+      "logps/chosen": -267.802978515625,
+      "logps/rejected": -383.6639404296875,
+      "loss": 0.4938,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.012238597497344017,
+      "rewards/margins": 0.007640190422534943,
+      "rewards/rejected": -0.01987878605723381,
+      "step": 8
+    },
+    {
+      "debug/policy_chosen_logits": 2.099731683731079,
+      "debug/policy_chosen_logps": -273.102294921875,
+      "debug/policy_rejected_logits": 1.98048734664917,
+      "debug/policy_rejected_logps": -280.704345703125,
+      "debug/reference_chosen_logps": -272.2438049316406,
+      "debug/reference_rejected_logps": -279.1191101074219,
+      "epoch": 0.21428571428571427,
+      "grad_norm": 3.880226369464224,
+      "learning_rate": 1e-06,
+      "logits/chosen": 2.099731683731079,
+      "logits/rejected": 1.98048734664917,
+      "logps/chosen": -273.102294921875,
+      "logps/rejected": -280.704345703125,
+      "loss": 0.4914,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.008584880270063877,
+      "rewards/margins": 0.007267666049301624,
+      "rewards/rejected": -0.0158525463193655,
+      "step": 9
+    },
+    {
+      "debug/policy_chosen_logits": 1.8367491960525513,
+      "debug/policy_chosen_logps": -256.5045471191406,
+      "debug/policy_rejected_logits": 1.9624578952789307,
+      "debug/policy_rejected_logps": -292.118408203125,
+      "debug/reference_chosen_logps": -255.32217407226562,
+      "debug/reference_rejected_logps": -290.0760498046875,
+      "epoch": 0.23809523809523808,
+      "grad_norm": 3.7444578408713256,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.8367491960525513,
+      "logits/rejected": 1.9624578952789307,
+      "logps/chosen": -256.5045471191406,
+      "logps/rejected": -292.118408203125,
+      "loss": 0.4913,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.011823710985481739,
+      "rewards/margins": 0.008599948137998581,
+      "rewards/rejected": -0.020423660054802895,
+      "step": 10
+    },
+    {
+      "debug/policy_chosen_logits": 1.8572165966033936,
+      "debug/policy_chosen_logps": -271.85711669921875,
+      "debug/policy_rejected_logits": 1.9283175468444824,
+      "debug/policy_rejected_logps": -285.6045227050781,
+      "debug/reference_chosen_logps": -270.435791015625,
+      "debug/reference_rejected_logps": -285.2454528808594,
+      "epoch": 0.2619047619047619,
+      "grad_norm": 4.787673855426764,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.8572165966033936,
+      "logits/rejected": 1.9283175468444824,
+      "logps/chosen": -271.85711669921875,
+      "logps/rejected": -285.6045227050781,
+      "loss": 0.489,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.014213085174560547,
+      "rewards/margins": -0.010622329078614712,
+      "rewards/rejected": -0.0035907551646232605,
+      "step": 11
+    },
+    {
+      "debug/policy_chosen_logits": 1.7663341760635376,
+      "debug/policy_chosen_logps": -238.7307586669922,
+      "debug/policy_rejected_logits": 1.7368437051773071,
+      "debug/policy_rejected_logps": -312.8492431640625,
+      "debug/reference_chosen_logps": -238.7390594482422,
+      "debug/reference_rejected_logps": -310.5390625,
+      "epoch": 0.2857142857142857,
+      "grad_norm": 3.289994710793894,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.7663341760635376,
+      "logits/rejected": 1.7368437051773071,
+      "logps/chosen": -238.7307586669922,
+      "logps/rejected": -312.8492431640625,
+      "loss": 0.4929,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 8.296966552734375e-05,
+      "rewards/margins": 0.02318466082215309,
+      "rewards/rejected": -0.023101691156625748,
+      "step": 12
+    },
+    {
+      "debug/policy_chosen_logits": 1.7572966814041138,
+      "debug/policy_chosen_logps": -243.2532501220703,
+      "debug/policy_rejected_logits": 1.85104501247406,
+      "debug/policy_rejected_logps": -292.90924072265625,
+      "debug/reference_chosen_logps": -244.15411376953125,
+      "debug/reference_rejected_logps": -290.55877685546875,
+      "epoch": 0.30952380952380953,
+      "grad_norm": 3.5856538429745983,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.7572966814041138,
+      "logits/rejected": 1.85104501247406,
+      "logps/chosen": -243.2532501220703,
+      "logps/rejected": -292.90924072265625,
+      "loss": 0.4863,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.00900875125080347,
+      "rewards/margins": 0.03251304477453232,
+      "rewards/rejected": -0.023504294455051422,
+      "step": 13
+    },
+    {
+      "debug/policy_chosen_logits": 1.8065857887268066,
+      "debug/policy_chosen_logps": -271.2432861328125,
+      "debug/policy_rejected_logits": 1.5463082790374756,
+      "debug/policy_rejected_logps": -267.1593017578125,
+      "debug/reference_chosen_logps": -271.75762939453125,
+      "debug/reference_rejected_logps": -266.90338134765625,
+      "epoch": 0.3333333333333333,
+      "grad_norm": 3.693572128354582,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.8065857887268066,
+      "logits/rejected": 1.5463082790374756,
+      "logps/chosen": -271.2432861328125,
+      "logps/rejected": -267.1593017578125,
+      "loss": 0.4826,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.0051437378861010075,
+      "rewards/margins": 0.007702922448515892,
+      "rewards/rejected": -0.0025591840967535973,
+      "step": 14
+    },
+    {
+      "debug/policy_chosen_logits": 2.1449954509735107,
+      "debug/policy_chosen_logps": -281.3528137207031,
+      "debug/policy_rejected_logits": 2.0790512561798096,
+      "debug/policy_rejected_logps": -349.5384826660156,
+      "debug/reference_chosen_logps": -280.9048156738281,
+      "debug/reference_rejected_logps": -344.8339538574219,
+      "epoch": 0.35714285714285715,
+      "grad_norm": 3.73957295205859,
+      "learning_rate": 1e-06,
+      "logits/chosen": 2.1449954509735107,
+      "logits/rejected": 2.0790512561798096,
+      "logps/chosen": -281.3528137207031,
+      "logps/rejected": -349.5384826660156,
+      "loss": 0.4835,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.0044799428433179855,
+      "rewards/margins": 0.04256511479616165,
+      "rewards/rejected": -0.047045059502124786,
+      "step": 15
+    },
+    {
+      "debug/policy_chosen_logits": 1.8549057245254517,
+      "debug/policy_chosen_logps": -253.8255615234375,
+      "debug/policy_rejected_logits": 1.7824431657791138,
+      "debug/policy_rejected_logps": -317.2090759277344,
+      "debug/reference_chosen_logps": -256.2930603027344,
+      "debug/reference_rejected_logps": -317.3314514160156,
+      "epoch": 0.38095238095238093,
+      "grad_norm": 3.6930417824241064,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.8549057245254517,
+      "logits/rejected": 1.7824431657791138,
+      "logps/chosen": -253.8255615234375,
+      "logps/rejected": -317.2090759277344,
+      "loss": 0.4764,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.024674739688634872,
+      "rewards/margins": 0.02345096506178379,
+      "rewards/rejected": 0.0012237741611897945,
+      "step": 16
+    },
+    {
+      "debug/policy_chosen_logits": 1.888502836227417,
+      "debug/policy_chosen_logps": -235.820068359375,
+      "debug/policy_rejected_logits": 1.8494880199432373,
+      "debug/policy_rejected_logps": -259.95220947265625,
+      "debug/reference_chosen_logps": -239.1522216796875,
+      "debug/reference_rejected_logps": -261.6212463378906,
+      "epoch": 0.40476190476190477,
+      "grad_norm": 4.3518243358558815,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.888502836227417,
+      "logits/rejected": 1.8494880199432373,
+      "logps/chosen": -235.820068359375,
+      "logps/rejected": -259.95220947265625,
+      "loss": 0.4664,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.03332166746258736,
+      "rewards/margins": 0.01663154549896717,
+      "rewards/rejected": 0.016690120100975037,
+      "step": 17
+    },
+    {
+      "debug/policy_chosen_logits": 1.8841761350631714,
+      "debug/policy_chosen_logps": -263.9659423828125,
+      "debug/policy_rejected_logits": 1.8606880903244019,
+      "debug/policy_rejected_logps": -283.3532409667969,
+      "debug/reference_chosen_logps": -267.3668212890625,
+      "debug/reference_rejected_logps": -283.70703125,
+      "epoch": 0.42857142857142855,
+      "grad_norm": 3.85077649264808,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.8841761350631714,
+      "logits/rejected": 1.8606880903244019,
+      "logps/chosen": -263.9659423828125,
+      "logps/rejected": -283.3532409667969,
+      "loss": 0.472,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.03400861471891403,
+      "rewards/margins": 0.03047073259949684,
+      "rewards/rejected": 0.0035378839820623398,
+      "step": 18
+    },
+    {
+      "debug/policy_chosen_logits": 1.853868842124939,
+      "debug/policy_chosen_logps": -238.86099243164062,
+      "debug/policy_rejected_logits": 1.9001590013504028,
+      "debug/policy_rejected_logps": -275.0302734375,
+      "debug/reference_chosen_logps": -243.44891357421875,
+      "debug/reference_rejected_logps": -275.3963623046875,
+      "epoch": 0.4523809523809524,
+      "grad_norm": 4.61182292080891,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.853868842124939,
+      "logits/rejected": 1.9001590013504028,
+      "logps/chosen": -238.86099243164062,
+      "logps/rejected": -275.0302734375,
+      "loss": 0.468,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.04587903991341591,
+      "rewards/margins": 0.042218245565891266,
+      "rewards/rejected": 0.0036607934162020683,
+      "step": 19
+    },
+    {
+      "debug/policy_chosen_logits": 1.7765668630599976,
+      "debug/policy_chosen_logps": -273.059326171875,
+      "debug/policy_rejected_logits": 1.9133604764938354,
+      "debug/policy_rejected_logps": -296.22113037109375,
+      "debug/reference_chosen_logps": -270.8135986328125,
+      "debug/reference_rejected_logps": -293.4261474609375,
+      "epoch": 0.47619047619047616,
+      "grad_norm": 4.414812759605763,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.7765668630599976,
+      "logits/rejected": 1.9133604764938354,
+      "logps/chosen": -273.059326171875,
+      "logps/rejected": -296.22113037109375,
+      "loss": 0.4692,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.022456951439380646,
+      "rewards/margins": 0.005493145436048508,
+      "rewards/rejected": -0.027950095012784004,
+      "step": 20
+    },
+    {
+      "debug/policy_chosen_logits": 2.1494266986846924,
+      "debug/policy_chosen_logps": -308.71044921875,
+      "debug/policy_rejected_logits": 1.8783735036849976,
+      "debug/policy_rejected_logps": -316.08123779296875,
+      "debug/reference_chosen_logps": -306.241455078125,
+      "debug/reference_rejected_logps": -313.06842041015625,
+      "epoch": 0.5,
+      "grad_norm": 6.82008931679484,
+      "learning_rate": 1e-06,
+      "logits/chosen": 2.1494266986846924,
+      "logits/rejected": 1.8783735036849976,
+      "logps/chosen": -308.71044921875,
+      "logps/rejected": -316.08123779296875,
+      "loss": 0.4732,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.024689501151442528,
+      "rewards/margins": 0.005438690539449453,
+      "rewards/rejected": -0.03012819215655327,
+      "step": 21
+    },
+    {
+      "debug/policy_chosen_logits": 1.6750694513320923,
+      "debug/policy_chosen_logps": -233.83047485351562,
+      "debug/policy_rejected_logits": 1.8117766380310059,
+      "debug/policy_rejected_logps": -300.7946472167969,
+      "debug/reference_chosen_logps": -237.87527465820312,
+      "debug/reference_rejected_logps": -298.6039733886719,
+      "epoch": 0.5238095238095238,
+      "grad_norm": 3.8318025594425853,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.6750694513320923,
+      "logits/rejected": 1.8117766380310059,
+      "logps/chosen": -233.83047485351562,
+      "logps/rejected": -300.7946472167969,
+      "loss": 0.4695,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.040447898209095,
+      "rewards/margins": 0.062354717403650284,
+      "rewards/rejected": -0.021906813606619835,
+      "step": 22
+    },
+    {
+      "debug/policy_chosen_logits": 1.744894027709961,
+      "debug/policy_chosen_logps": -254.40310668945312,
+      "debug/policy_rejected_logits": 1.7900285720825195,
+      "debug/policy_rejected_logps": -284.26971435546875,
+      "debug/reference_chosen_logps": -257.9718933105469,
+      "debug/reference_rejected_logps": -283.98822021484375,
+      "epoch": 0.5476190476190477,
+      "grad_norm": 3.3732548227061403,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.744894027709961,
+      "logits/rejected": 1.7900285720825195,
+      "logps/chosen": -254.40310668945312,
+      "logps/rejected": -284.26971435546875,
+      "loss": 0.4648,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.0356878861784935,
+      "rewards/margins": 0.03850293904542923,
+      "rewards/rejected": -0.0028150551952421665,
+      "step": 23
+    },
+    {
+      "debug/policy_chosen_logits": 1.7286827564239502,
+      "debug/policy_chosen_logps": -233.19664001464844,
+      "debug/policy_rejected_logits": 1.9754953384399414,
+      "debug/policy_rejected_logps": -311.8176574707031,
+      "debug/reference_chosen_logps": -234.96006774902344,
+      "debug/reference_rejected_logps": -306.427734375,
+      "epoch": 0.5714285714285714,
+      "grad_norm": 3.836706307908044,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.7286827564239502,
+      "logits/rejected": 1.9754953384399414,
+      "logps/chosen": -233.19664001464844,
+      "logps/rejected": -311.8176574707031,
+      "loss": 0.4643,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.017634237185120583,
+      "rewards/margins": 0.07153362035751343,
+      "rewards/rejected": -0.0538993775844574,
+      "step": 24
+    },
+    {
+      "debug/policy_chosen_logits": 2.00459623336792,
+      "debug/policy_chosen_logps": -258.64495849609375,
+      "debug/policy_rejected_logits": 2.0122740268707275,
+      "debug/policy_rejected_logps": -321.5993957519531,
+      "debug/reference_chosen_logps": -261.73284912109375,
+      "debug/reference_rejected_logps": -313.8829650878906,
+      "epoch": 0.5952380952380952,
+      "grad_norm": 3.5765138124804974,
+      "learning_rate": 1e-06,
+      "logits/chosen": 2.00459623336792,
+      "logits/rejected": 2.0122740268707275,
+      "logps/chosen": -258.64495849609375,
+      "logps/rejected": -321.5993957519531,
+      "loss": 0.4708,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.03087867610156536,
+      "rewards/margins": 0.10804271697998047,
+      "rewards/rejected": -0.07716403901576996,
+      "step": 25
+    },
+    {
+      "debug/policy_chosen_logits": 2.0935933589935303,
+      "debug/policy_chosen_logps": -291.4290466308594,
+      "debug/policy_rejected_logits": 2.211636543273926,
+      "debug/policy_rejected_logps": -322.15032958984375,
+      "debug/reference_chosen_logps": -290.2638854980469,
+      "debug/reference_rejected_logps": -320.8800048828125,
+      "epoch": 0.6190476190476191,
+      "grad_norm": 4.470923881317887,
+      "learning_rate": 1e-06,
+      "logits/chosen": 2.0935933589935303,
+      "logits/rejected": 2.211636543273926,
+      "logps/chosen": -291.4290466308594,
+      "logps/rejected": -322.15032958984375,
+      "loss": 0.4664,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.011651594191789627,
+      "rewards/margins": 0.0010515935719013214,
+      "rewards/rejected": -0.012703188695013523,
+      "step": 26
+    },
+    {
+      "debug/policy_chosen_logits": 1.740605354309082,
+      "debug/policy_chosen_logps": -232.287841796875,
+      "debug/policy_rejected_logits": 1.9395997524261475,
+      "debug/policy_rejected_logps": -288.00982666015625,
+      "debug/reference_chosen_logps": -237.18685913085938,
+      "debug/reference_rejected_logps": -290.4499816894531,
+      "epoch": 0.6428571428571429,
+      "grad_norm": 3.5105118829949893,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.740605354309082,
+      "logits/rejected": 1.9395997524261475,
+      "logps/chosen": -232.287841796875,
+      "logps/rejected": -288.00982666015625,
+      "loss": 0.4616,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.04899021238088608,
+      "rewards/margins": 0.024588564410805702,
+      "rewards/rejected": 0.024401644244790077,
+      "step": 27
+    },
+    {
+      "debug/policy_chosen_logits": 1.749884843826294,
+      "debug/policy_chosen_logps": -256.37811279296875,
+      "debug/policy_rejected_logits": 1.836501955986023,
+      "debug/policy_rejected_logps": -292.520751953125,
+      "debug/reference_chosen_logps": -258.786865234375,
+      "debug/reference_rejected_logps": -290.3285827636719,
+      "epoch": 0.6666666666666666,
+      "grad_norm": 3.9108599274749087,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.749884843826294,
+      "logits/rejected": 1.836501955986023,
+      "logps/chosen": -256.37811279296875,
+      "logps/rejected": -292.520751953125,
+      "loss": 0.4599,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.024087373167276382,
+      "rewards/margins": 0.0460088886320591,
+      "rewards/rejected": -0.021921521052718163,
+      "step": 28
+    },
+    {
+      "debug/policy_chosen_logits": 1.9136433601379395,
+      "debug/policy_chosen_logps": -244.74368286132812,
+      "debug/policy_rejected_logits": 1.7372866868972778,
+      "debug/policy_rejected_logps": -231.080322265625,
+      "debug/reference_chosen_logps": -247.04966735839844,
+      "debug/reference_rejected_logps": -237.48455810546875,
+      "epoch": 0.6904761904761905,
+      "grad_norm": 3.4874983509246062,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.9136433601379395,
+      "logits/rejected": 1.7372866868972778,
+      "logps/chosen": -244.74368286132812,
+      "logps/rejected": -231.080322265625,
+      "loss": 0.4688,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.023059826344251633,
+      "rewards/margins": -0.040982604026794434,
+      "rewards/rejected": 0.06404243409633636,
+      "step": 29
+    },
+    {
+      "debug/policy_chosen_logits": 1.843129277229309,
+      "debug/policy_chosen_logps": -253.27679443359375,
+      "debug/policy_rejected_logits": 1.9183768033981323,
+      "debug/policy_rejected_logps": -299.0466613769531,
+      "debug/reference_chosen_logps": -258.10870361328125,
+      "debug/reference_rejected_logps": -294.8966064453125,
+      "epoch": 0.7142857142857143,
+      "grad_norm": 3.6637277625193767,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.843129277229309,
+      "logits/rejected": 1.9183768033981323,
+      "logps/chosen": -253.27679443359375,
+      "logps/rejected": -299.0466613769531,
+      "loss": 0.4543,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.04831913113594055,
+      "rewards/margins": 0.08981965482234955,
+      "rewards/rejected": -0.041500527411699295,
+      "step": 30
+    },
+    {
+      "debug/policy_chosen_logits": 1.9597934484481812,
+      "debug/policy_chosen_logps": -230.39987182617188,
+      "debug/policy_rejected_logits": 1.8873902559280396,
+      "debug/policy_rejected_logps": -306.35150146484375,
+      "debug/reference_chosen_logps": -236.17076110839844,
+      "debug/reference_rejected_logps": -293.26123046875,
+      "epoch": 0.7380952380952381,
+      "grad_norm": 4.055553525568484,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.9597934484481812,
+      "logits/rejected": 1.8873902559280396,
+      "logps/chosen": -230.39987182617188,
+      "logps/rejected": -306.35150146484375,
+      "loss": 0.4559,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.057708967477083206,
+      "rewards/margins": 0.1886114776134491,
+      "rewards/rejected": -0.1309025138616562,
+      "step": 31
+    },
+    {
+      "debug/policy_chosen_logits": 1.5884038209915161,
+      "debug/policy_chosen_logps": -284.81689453125,
+      "debug/policy_rejected_logits": 1.5565730333328247,
+      "debug/policy_rejected_logps": -333.30059814453125,
+      "debug/reference_chosen_logps": -281.670166015625,
+      "debug/reference_rejected_logps": -328.1829528808594,
+      "epoch": 0.7619047619047619,
+      "grad_norm": 6.113113891791621,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.5884038209915161,
+      "logits/rejected": 1.5565730333328247,
+      "logps/chosen": -284.81689453125,
+      "logps/rejected": -333.30059814453125,
+      "loss": 0.4904,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.03146745637059212,
+      "rewards/margins": 0.01970868930220604,
+      "rewards/rejected": -0.051176149398088455,
+      "step": 32
+    },
+    {
+      "debug/policy_chosen_logits": 1.8103567361831665,
+      "debug/policy_chosen_logps": -326.88555908203125,
+      "debug/policy_rejected_logits": 1.857008457183838,
+      "debug/policy_rejected_logps": -313.01300048828125,
+      "debug/reference_chosen_logps": -312.245849609375,
+      "debug/reference_rejected_logps": -309.3544921875,
+      "epoch": 0.7857142857142857,
+      "grad_norm": 5.345219796137713,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.8103567361831665,
+      "logits/rejected": 1.857008457183838,
+      "logps/chosen": -326.88555908203125,
+      "logps/rejected": -313.01300048828125,
+      "loss": 0.4793,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.14639724791049957,
+      "rewards/margins": -0.10981196165084839,
+      "rewards/rejected": -0.03658527135848999,
+      "step": 33
+    },
+    {
+      "debug/policy_chosen_logits": 2.2111659049987793,
+      "debug/policy_chosen_logps": -270.5108642578125,
+      "debug/policy_rejected_logits": 2.1455953121185303,
+      "debug/policy_rejected_logps": -306.1610107421875,
+      "debug/reference_chosen_logps": -272.406982421875,
+      "debug/reference_rejected_logps": -304.00537109375,
+      "epoch": 0.8095238095238095,
+      "grad_norm": 4.096315029962809,
+      "learning_rate": 1e-06,
+      "logits/chosen": 2.2111659049987793,
+      "logits/rejected": 2.1455953121185303,
+      "logps/chosen": -270.5108642578125,
+      "logps/rejected": -306.1610107421875,
+      "loss": 0.4473,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.018961027264595032,
+      "rewards/margins": 0.04051744192838669,
+      "rewards/rejected": -0.021556414663791656,
+      "step": 34
+    },
+    {
+      "debug/policy_chosen_logits": 1.6460078954696655,
+      "debug/policy_chosen_logps": -233.59458923339844,
+      "debug/policy_rejected_logits": 1.5349398851394653,
+      "debug/policy_rejected_logps": -266.34307861328125,
+      "debug/reference_chosen_logps": -242.21400451660156,
+      "debug/reference_rejected_logps": -272.995849609375,
+      "epoch": 0.8333333333333334,
+      "grad_norm": 3.974452548040394,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.6460078954696655,
+      "logits/rejected": 1.5349398851394653,
+      "logps/chosen": -233.59458923339844,
+      "logps/rejected": -266.34307861328125,
+      "loss": 0.4712,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.08619418740272522,
+      "rewards/margins": 0.019666405394673347,
+      "rewards/rejected": 0.06652778387069702,
+      "step": 35
+    },
+    {
+      "debug/policy_chosen_logits": 1.9347574710845947,
+      "debug/policy_chosen_logps": -262.56744384765625,
+      "debug/policy_rejected_logits": 1.9021203517913818,
+      "debug/policy_rejected_logps": -330.6053466796875,
+      "debug/reference_chosen_logps": -268.55999755859375,
+      "debug/reference_rejected_logps": -324.86761474609375,
+      "epoch": 0.8571428571428571,
+      "grad_norm": 4.265267674670063,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.9347574710845947,
+      "logits/rejected": 1.9021203517913818,
+      "logps/chosen": -262.56744384765625,
+      "logps/rejected": -330.6053466796875,
+      "loss": 0.48,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.05992528796195984,
+      "rewards/margins": 0.1173023134469986,
+      "rewards/rejected": -0.057377032935619354,
+      "step": 36
+    },
+    {
+      "debug/policy_chosen_logits": 1.627541422843933,
+      "debug/policy_chosen_logps": -271.72589111328125,
+      "debug/policy_rejected_logits": 1.6616926193237305,
+      "debug/policy_rejected_logps": -293.35400390625,
+      "debug/reference_chosen_logps": -279.6279296875,
+      "debug/reference_rejected_logps": -297.64208984375,
+      "epoch": 0.8809523809523809,
+      "grad_norm": 4.332181044842491,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.627541422843933,
+      "logits/rejected": 1.6616926193237305,
+      "logps/chosen": -271.72589111328125,
+      "logps/rejected": -293.35400390625,
+      "loss": 0.4686,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.07902045547962189,
+      "rewards/margins": 0.03613943234086037,
+      "rewards/rejected": 0.04288103058934212,
+      "step": 37
+    },
+    {
+      "debug/policy_chosen_logits": 1.6821520328521729,
+      "debug/policy_chosen_logps": -265.2967834472656,
+      "debug/policy_rejected_logits": 2.1404964923858643,
+      "debug/policy_rejected_logps": -281.3368225097656,
+      "debug/reference_chosen_logps": -268.13934326171875,
+      "debug/reference_rejected_logps": -283.97998046875,
+      "epoch": 0.9047619047619048,
+      "grad_norm": 5.381447680651191,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.6821520328521729,
+      "logits/rejected": 2.1404964923858643,
+      "logps/chosen": -265.2967834472656,
+      "logps/rejected": -281.3368225097656,
+      "loss": 0.479,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.02842530980706215,
+      "rewards/margins": 0.0019937902688980103,
+      "rewards/rejected": 0.026431521400809288,
+      "step": 38
+    },
+    {
+      "debug/policy_chosen_logits": 1.7588127851486206,
+      "debug/policy_chosen_logps": -255.28640747070312,
+      "debug/policy_rejected_logits": 1.9087820053100586,
+      "debug/policy_rejected_logps": -321.52362060546875,
+      "debug/reference_chosen_logps": -257.3486022949219,
+      "debug/reference_rejected_logps": -308.3670959472656,
+      "epoch": 0.9285714285714286,
+      "grad_norm": 3.886541281859103,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.7588127851486206,
+      "logits/rejected": 1.9087820053100586,
+      "logps/chosen": -255.28640747070312,
+      "logps/rejected": -321.52362060546875,
+      "loss": 0.4353,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.0206218920648098,
+      "rewards/margins": 0.15218740701675415,
+      "rewards/rejected": -0.13156552612781525,
+      "step": 39
+    },
+    {
+      "debug/policy_chosen_logits": 1.9523510932922363,
+      "debug/policy_chosen_logps": -269.86749267578125,
+      "debug/policy_rejected_logits": 1.881919264793396,
+      "debug/policy_rejected_logps": -322.18280029296875,
+      "debug/reference_chosen_logps": -268.71282958984375,
+      "debug/reference_rejected_logps": -310.1279296875,
+      "epoch": 0.9523809523809523,
+      "grad_norm": 3.7307936710208236,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.9523510932922363,
+      "logits/rejected": 1.881919264793396,
+      "logps/chosen": -269.86749267578125,
+      "logps/rejected": -322.18280029296875,
+      "loss": 0.4498,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.011546440422534943,
+      "rewards/margins": 0.10900209844112396,
+      "rewards/rejected": -0.12054853141307831,
+      "step": 40
+    },
+    {
+      "debug/policy_chosen_logits": 1.8507214784622192,
+      "debug/policy_chosen_logps": -251.6080322265625,
+      "debug/policy_rejected_logits": 1.9003260135650635,
+      "debug/policy_rejected_logps": -305.5479736328125,
+      "debug/reference_chosen_logps": -253.77499389648438,
+      "debug/reference_rejected_logps": -301.3538818359375,
+      "epoch": 0.9761904761904762,
+      "grad_norm": 4.724014063098657,
+      "learning_rate": 1e-06,
+      "logits/chosen": 1.8507214784622192,
+      "logits/rejected": 1.9003260135650635,
+      "logps/chosen": -251.6080322265625,
+      "logps/rejected": -305.5479736328125,
+      "loss": 0.4489,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 0.021669579669833183,
+      "rewards/margins": 0.0636105090379715,
+      "rewards/rejected": -0.04194093495607376,
+      "step": 41
+    },
+    {
+      "debug/policy_chosen_logits": 2.058990955352783,
+      "debug/policy_chosen_logps": -246.43154907226562,
+      "debug/policy_rejected_logits": 2.1252870559692383,
+      "debug/policy_rejected_logps": -260.11871337890625,
+      "debug/reference_chosen_logps": -251.91116333007812,
+      "debug/reference_rejected_logps": -259.431884765625,
+      "epoch": 1.0,
+      "grad_norm": 4.008863560347053,
+      "learning_rate": 1e-06,
+      "logits/chosen": 2.058990955352783,
+      "logits/rejected": 2.1252870559692383,
+      "logps/chosen": -246.43154907226562,
+      "logps/rejected": -260.11871337890625,
+      "loss": 0.449,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.05479610711336136,
+      "rewards/margins": 0.061664048582315445,
+      "rewards/rejected": -0.006867942400276661,
+      "step": 42
+    },
+    {
+      "epoch": 1.0,
+      "step": 42,
+      "total_flos": 0.0,
+      "train_loss": 0.47520279742422555,
+      "train_runtime": 468.7452,
+      "train_samples_per_second": 5.722,
+      "train_steps_per_second": 0.09
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 42,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}