Model save

Browse files

Files changed (5) hide show

README.md +61 -0
all_results.json +9 -0
generation_config.json +6 -0
train_results.json +9 -0
trainer_state.json +732 -0

README.md ADDED Viewed

	@@ -0,0 +1,61 @@

+---
+library_name: transformers
+license: apache-2.0
+base_model: mistralai/Mistral-7B-Instruct-v0.2
+tags:
+- trl
+- simpo
+- generated_from_trainer
+model-index:
+- name: mistral-7b-instruct-v0.2-simpo-full
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# mistral-7b-instruct-v0.2-simpo-full
+This model is a fine-tuned version of [mistralai/Mistral-7B-Instruct-v0.2](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2) on an unknown dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-06
+- train_batch_size: 2
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 16
+- total_train_batch_size: 256
+- total_eval_batch_size: 32
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+### Framework versions
+- Transformers 4.46.3
+- Pytorch 2.7.1+cu126
+- Datasets 4.0.0
+- Tokenizers 0.20.3

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 0.998660594695955,
+    "total_flos": 0.0,
+    "train_loss": 0.7728924853607309,
+    "train_runtime": 5369.4124,
+    "train_samples": 59720,
+    "train_samples_per_second": 11.122,
+    "train_steps_per_second": 0.043
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.46.3"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 0.998660594695955,
+    "total_flos": 0.0,
+    "train_loss": 0.7728924853607309,
+    "train_runtime": 5369.4124,
+    "train_samples": 59720,
+    "train_samples_per_second": 11.122,
+    "train_steps_per_second": 0.043
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,732 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.998660594695955,
+  "eval_steps": 400,
+  "global_step": 233,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.021430484864720063,
+      "grad_norm": 20.883335931995553,
+      "learning_rate": 2.0833333333333333e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.28125,
+      "logps/chosen": -0.59765625,
+      "logps/rejected": -0.58984375,
+      "loss": 0.8615,
+      "rewards/accuracies": 0.4937500059604645,
+      "rewards/chosen": -1.4921875,
+      "rewards/margins": -0.0164794921875,
+      "rewards/rejected": -1.4765625,
+      "step": 5
+    },
+    {
+      "epoch": 0.042860969729440125,
+      "grad_norm": 19.90222092204048,
+      "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": -2.3125,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -0.59765625,
+      "logps/rejected": -0.609375,
+      "loss": 0.8473,
+      "rewards/accuracies": 0.518750011920929,
+      "rewards/chosen": -1.4921875,
+      "rewards/margins": 0.034423828125,
+      "rewards/rejected": -1.5234375,
+      "step": 10
+    },
+    {
+      "epoch": 0.06429145459416019,
+      "grad_norm": 14.62873307673371,
+      "learning_rate": 6.249999999999999e-07,
+      "logits/chosen": -2.359375,
+      "logits/rejected": -2.34375,
+      "logps/chosen": -0.5078125,
+      "logps/rejected": -0.5390625,
+      "loss": 0.8339,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": -1.265625,
+      "rewards/margins": 0.07568359375,
+      "rewards/rejected": -1.34375,
+      "step": 15
+    },
+    {
+      "epoch": 0.08572193945888025,
+      "grad_norm": 19.932354741180678,
+      "learning_rate": 8.333333333333333e-07,
+      "logits/chosen": -2.3125,
+      "logits/rejected": -2.328125,
+      "logps/chosen": -0.50390625,
+      "logps/rejected": -0.52734375,
+      "loss": 0.839,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -1.2578125,
+      "rewards/margins": 0.053955078125,
+      "rewards/rejected": -1.3125,
+      "step": 20
+    },
+    {
+      "epoch": 0.10715242432360032,
+      "grad_norm": 14.148190772420111,
+      "learning_rate": 9.999435142363483e-07,
+      "logits/chosen": -2.28125,
+      "logits/rejected": -2.28125,
+      "logps/chosen": -0.494140625,
+      "logps/rejected": -0.498046875,
+      "loss": 0.8281,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": -1.234375,
+      "rewards/margins": 0.01104736328125,
+      "rewards/rejected": -1.2421875,
+      "step": 25
+    },
+    {
+      "epoch": 0.12858290918832038,
+      "grad_norm": 13.826503591038982,
+      "learning_rate": 9.97967852255038e-07,
+      "logits/chosen": -2.296875,
+      "logits/rejected": -2.3125,
+      "logps/chosen": -0.47265625,
+      "logps/rejected": -0.48046875,
+      "loss": 0.8253,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -1.1796875,
+      "rewards/margins": 0.018798828125,
+      "rewards/rejected": -1.203125,
+      "step": 30
+    },
+    {
+      "epoch": 0.15001339405304046,
+      "grad_norm": 14.367978791172906,
+      "learning_rate": 9.931806517013612e-07,
+      "logits/chosen": -2.359375,
+      "logits/rejected": -2.390625,
+      "logps/chosen": -0.462890625,
+      "logps/rejected": -0.462890625,
+      "loss": 0.8095,
+      "rewards/accuracies": 0.4749999940395355,
+      "rewards/chosen": -1.15625,
+      "rewards/margins": 0.002044677734375,
+      "rewards/rejected": -1.15625,
+      "step": 35
+    },
+    {
+      "epoch": 0.1714438789177605,
+      "grad_norm": 23.918114882300664,
+      "learning_rate": 9.856089412257604e-07,
+      "logits/chosen": -2.421875,
+      "logits/rejected": -2.40625,
+      "logps/chosen": -0.486328125,
+      "logps/rejected": -0.5234375,
+      "loss": 0.8151,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -1.21875,
+      "rewards/margins": 0.095703125,
+      "rewards/rejected": -1.3125,
+      "step": 40
+    },
+    {
+      "epoch": 0.19287436378248057,
+      "grad_norm": 21.40358486661956,
+      "learning_rate": 9.752954708892377e-07,
+      "logits/chosen": -2.34375,
+      "logits/rejected": -2.359375,
+      "logps/chosen": -0.5,
+      "logps/rejected": -0.5234375,
+      "loss": 0.8191,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -1.25,
+      "rewards/margins": 0.054443359375,
+      "rewards/rejected": -1.3046875,
+      "step": 45
+    },
+    {
+      "epoch": 0.21430484864720065,
+      "grad_norm": 13.919989253092268,
+      "learning_rate": 9.62298470795473e-07,
+      "logits/chosen": -2.34375,
+      "logits/rejected": -2.328125,
+      "logps/chosen": -0.490234375,
+      "logps/rejected": -0.53515625,
+      "loss": 0.801,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -1.2265625,
+      "rewards/margins": 0.11083984375,
+      "rewards/rejected": -1.3359375,
+      "step": 50
+    },
+    {
+      "epoch": 0.23573533351192072,
+      "grad_norm": 15.390687236299986,
+      "learning_rate": 9.466913223222465e-07,
+      "logits/chosen": -2.28125,
+      "logits/rejected": -2.25,
+      "logps/chosen": -0.51171875,
+      "logps/rejected": -0.51953125,
+      "loss": 0.8121,
+      "rewards/accuracies": 0.4625000059604645,
+      "rewards/chosen": -1.28125,
+      "rewards/margins": 0.0235595703125,
+      "rewards/rejected": -1.3046875,
+      "step": 55
+    },
+    {
+      "epoch": 0.25716581837664076,
+      "grad_norm": 15.533470825408608,
+      "learning_rate": 9.285621438083997e-07,
+      "logits/chosen": -2.34375,
+      "logits/rejected": -2.34375,
+      "logps/chosen": -0.5234375,
+      "logps/rejected": -0.5703125,
+      "loss": 0.8084,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -1.3125,
+      "rewards/margins": 0.12060546875,
+      "rewards/rejected": -1.4296875,
+      "step": 60
+    },
+    {
+      "epoch": 0.2785963032413608,
+      "grad_norm": 20.15952117472032,
+      "learning_rate": 9.080132930355566e-07,
+      "logits/chosen": -2.328125,
+      "logits/rejected": -2.34375,
+      "logps/chosen": -0.53515625,
+      "logps/rejected": -0.6015625,
+      "loss": 0.7938,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -1.34375,
+      "rewards/margins": 0.1640625,
+      "rewards/rejected": -1.5078125,
+      "step": 65
+    },
+    {
+      "epoch": 0.3000267881060809,
+      "grad_norm": 20.257235368327233,
+      "learning_rate": 8.851607893136064e-07,
+      "logits/chosen": -2.390625,
+      "logits/rejected": -2.40625,
+      "logps/chosen": -0.55078125,
+      "logps/rejected": -0.625,
+      "loss": 0.7934,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -1.3828125,
+      "rewards/margins": 0.18359375,
+      "rewards/rejected": -1.5625,
+      "step": 70
+    },
+    {
+      "epoch": 0.32145727297080096,
+      "grad_norm": 20.838334942567865,
+      "learning_rate": 8.601336584328658e-07,
+      "logits/chosen": -2.5625,
+      "logits/rejected": -2.53125,
+      "logps/chosen": -0.578125,
+      "logps/rejected": -0.6328125,
+      "loss": 0.7834,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -1.453125,
+      "rewards/margins": 0.1337890625,
+      "rewards/rejected": -1.5859375,
+      "step": 75
+    },
+    {
+      "epoch": 0.342887757835521,
+      "grad_norm": 20.73361765612086,
+      "learning_rate": 8.330732041813366e-07,
+      "logits/chosen": -2.515625,
+      "logits/rejected": -2.515625,
+      "logps/chosen": -0.5859375,
+      "logps/rejected": -0.63671875,
+      "loss": 0.7917,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -1.4609375,
+      "rewards/margins": 0.130859375,
+      "rewards/rejected": -1.59375,
+      "step": 80
+    },
+    {
+      "epoch": 0.3643182427002411,
+      "grad_norm": 19.794702155542176,
+      "learning_rate": 8.041322105400921e-07,
+      "logits/chosen": -2.53125,
+      "logits/rejected": -2.546875,
+      "logps/chosen": -0.6171875,
+      "logps/rejected": -0.625,
+      "loss": 0.793,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": -1.546875,
+      "rewards/margins": 0.01544189453125,
+      "rewards/rejected": -1.5625,
+      "step": 85
+    },
+    {
+      "epoch": 0.38574872756496115,
+      "grad_norm": 19.137565727745777,
+      "learning_rate": 7.734740790612136e-07,
+      "logits/chosen": -2.5,
+      "logits/rejected": -2.5,
+      "logps/chosen": -0.58203125,
+      "logps/rejected": -0.6328125,
+      "loss": 0.7773,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -1.453125,
+      "rewards/margins": 0.1240234375,
+      "rewards/rejected": -1.578125,
+      "step": 90
+    },
+    {
+      "epoch": 0.40717921242968125,
+      "grad_norm": 18.51359957650475,
+      "learning_rate": 7.412719062986631e-07,
+      "logits/chosen": -2.53125,
+      "logits/rejected": -2.5,
+      "logps/chosen": -0.6171875,
+      "logps/rejected": -0.6640625,
+      "loss": 0.7898,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": -1.5390625,
+      "rewards/margins": 0.12109375,
+      "rewards/rejected": -1.6640625,
+      "step": 95
+    },
+    {
+      "epoch": 0.4286096972944013,
+      "grad_norm": 20.516762220606736,
+      "learning_rate": 7.077075065009433e-07,
+      "logits/chosen": -2.640625,
+      "logits/rejected": -2.625,
+      "logps/chosen": -0.65625,
+      "logps/rejected": -0.7265625,
+      "loss": 0.7906,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": -1.6484375,
+      "rewards/margins": 0.1708984375,
+      "rewards/rejected": -1.8125,
+      "step": 100
+    },
+    {
+      "epoch": 0.45004018215912134,
+      "grad_norm": 23.39610952973476,
+      "learning_rate": 6.72970385083438e-07,
+      "logits/chosen": -2.65625,
+      "logits/rejected": -2.625,
+      "logps/chosen": -0.671875,
+      "logps/rejected": -0.734375,
+      "loss": 0.7652,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -1.6796875,
+      "rewards/margins": 0.1611328125,
+      "rewards/rejected": -1.8359375,
+      "step": 105
+    },
+    {
+      "epoch": 0.47147066702384144,
+      "grad_norm": 21.60030365380359,
+      "learning_rate": 6.372566686762426e-07,
+      "logits/chosen": -2.671875,
+      "logits/rejected": -2.703125,
+      "logps/chosen": -0.68359375,
+      "logps/rejected": -0.75,
+      "loss": 0.7744,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -1.7109375,
+      "rewards/margins": 0.1708984375,
+      "rewards/rejected": -1.875,
+      "step": 110
+    },
+    {
+      "epoch": 0.4929011518885615,
+      "grad_norm": 27.735737738499445,
+      "learning_rate": 6.00767997788451e-07,
+      "logits/chosen": -2.609375,
+      "logits/rejected": -2.625,
+      "logps/chosen": -0.76171875,
+      "logps/rejected": -0.80859375,
+      "loss": 0.7672,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -1.90625,
+      "rewards/margins": 0.11083984375,
+      "rewards/rejected": -2.015625,
+      "step": 115
+    },
+    {
+      "epoch": 0.5143316367532815,
+      "grad_norm": 24.358513667557904,
+      "learning_rate": 5.637103883409525e-07,
+      "logits/chosen": -2.59375,
+      "logits/rejected": -2.59375,
+      "logps/chosen": -0.81640625,
+      "logps/rejected": -0.87890625,
+      "loss": 0.7625,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -2.03125,
+      "rewards/margins": 0.1640625,
+      "rewards/rejected": -2.203125,
+      "step": 120
+    },
+    {
+      "epoch": 0.5357621216180016,
+      "grad_norm": 25.06386819321774,
+      "learning_rate": 5.262930684955438e-07,
+      "logits/chosen": -2.46875,
+      "logits/rejected": -2.453125,
+      "logps/chosen": -0.90234375,
+      "logps/rejected": -1.0390625,
+      "loss": 0.7596,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -2.25,
+      "rewards/margins": 0.333984375,
+      "rewards/rejected": -2.59375,
+      "step": 125
+    },
+    {
+      "epoch": 0.5571926064827216,
+      "grad_norm": 30.74239972927362,
+      "learning_rate": 4.88727297347654e-07,
+      "logits/chosen": -2.5625,
+      "logits/rejected": -2.546875,
+      "logps/chosen": -0.859375,
+      "logps/rejected": -0.9375,
+      "loss": 0.7626,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -2.140625,
+      "rewards/margins": 0.1953125,
+      "rewards/rejected": -2.34375,
+      "step": 130
+    },
+    {
+      "epoch": 0.5786230913474417,
+      "grad_norm": 28.54486073469317,
+      "learning_rate": 4.512251721523659e-07,
+      "logits/chosen": -2.53125,
+      "logits/rejected": -2.546875,
+      "logps/chosen": -0.984375,
+      "logps/rejected": -1.078125,
+      "loss": 0.7557,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -2.46875,
+      "rewards/margins": 0.2333984375,
+      "rewards/rejected": -2.6875,
+      "step": 135
+    },
+    {
+      "epoch": 0.6000535762121618,
+      "grad_norm": 34.81427967339666,
+      "learning_rate": 4.139984308181708e-07,
+      "logits/chosen": -2.5,
+      "logits/rejected": -2.5,
+      "logps/chosen": -1.0078125,
+      "logps/rejected": -1.1640625,
+      "loss": 0.7408,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -2.515625,
+      "rewards/margins": 0.3984375,
+      "rewards/rejected": -2.90625,
+      "step": 140
+    },
+    {
+      "epoch": 0.6214840610768818,
+      "grad_norm": 36.00644023249742,
+      "learning_rate": 3.772572564296004e-07,
+      "logits/chosen": -2.5,
+      "logits/rejected": -2.484375,
+      "logps/chosen": -1.0859375,
+      "logps/rejected": -1.2109375,
+      "loss": 0.7467,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -2.703125,
+      "rewards/margins": 0.31640625,
+      "rewards/rejected": -3.015625,
+      "step": 145
+    },
+    {
+      "epoch": 0.6429145459416019,
+      "grad_norm": 32.41309299717272,
+      "learning_rate": 3.412090905484337e-07,
+      "logits/chosen": -2.453125,
+      "logits/rejected": -2.453125,
+      "logps/chosen": -1.109375,
+      "logps/rejected": -1.3046875,
+      "loss": 0.7513,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.78125,
+      "rewards/margins": 0.4765625,
+      "rewards/rejected": -3.25,
+      "step": 150
+    },
+    {
+      "epoch": 0.664345030806322,
+      "grad_norm": 36.106876811155786,
+      "learning_rate": 3.060574619936075e-07,
+      "logits/chosen": -2.5,
+      "logits/rejected": -2.484375,
+      "logps/chosen": -1.1171875,
+      "logps/rejected": -1.2421875,
+      "loss": 0.7541,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -2.796875,
+      "rewards/margins": 0.31640625,
+      "rewards/rejected": -3.109375,
+      "step": 155
+    },
+    {
+      "epoch": 0.685775515671042,
+      "grad_norm": 29.82009232975657,
+      "learning_rate": 2.720008377125682e-07,
+      "logits/chosen": -2.515625,
+      "logits/rejected": -2.53125,
+      "logps/chosen": -1.0859375,
+      "logps/rejected": -1.1796875,
+      "loss": 0.7298,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -2.71875,
+      "rewards/margins": 0.2412109375,
+      "rewards/rejected": -2.953125,
+      "step": 160
+    },
+    {
+      "epoch": 0.7072060005357621,
+      "grad_norm": 33.878683796382994,
+      "learning_rate": 2.3923150223207173e-07,
+      "logits/chosen": -2.5625,
+      "logits/rejected": -2.578125,
+      "logps/chosen": -1.0625,
+      "logps/rejected": -1.1875,
+      "loss": 0.7428,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -2.640625,
+      "rewards/margins": 0.318359375,
+      "rewards/rejected": -2.96875,
+      "step": 165
+    },
+    {
+      "epoch": 0.7286364854004822,
+      "grad_norm": 28.349316658677726,
+      "learning_rate": 2.0793447201508286e-07,
+      "logits/chosen": -2.53125,
+      "logits/rejected": -2.546875,
+      "logps/chosen": -1.140625,
+      "logps/rejected": -1.2734375,
+      "loss": 0.7299,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -2.859375,
+      "rewards/margins": 0.333984375,
+      "rewards/rejected": -3.1875,
+      "step": 170
+    },
+    {
+      "epoch": 0.7500669702652023,
+      "grad_norm": 29.876505430358502,
+      "learning_rate": 1.7828645085333644e-07,
+      "logits/chosen": -2.609375,
+      "logits/rejected": -2.59375,
+      "logps/chosen": -1.1015625,
+      "logps/rejected": -1.25,
+      "loss": 0.7457,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -2.75,
+      "rewards/margins": 0.3671875,
+      "rewards/rejected": -3.125,
+      "step": 175
+    },
+    {
+      "epoch": 0.7714974551299223,
+      "grad_norm": 27.71938507760261,
+      "learning_rate": 1.5045483219344385e-07,
+      "logits/chosen": -2.546875,
+      "logits/rejected": -2.546875,
+      "logps/chosen": -1.125,
+      "logps/rejected": -1.28125,
+      "loss": 0.7361,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -2.8125,
+      "rewards/margins": 0.388671875,
+      "rewards/rejected": -3.203125,
+      "step": 180
+    },
+    {
+      "epoch": 0.7929279399946424,
+      "grad_norm": 27.85983890657696,
+      "learning_rate": 1.2459675402943288e-07,
+      "logits/chosen": -2.578125,
+      "logits/rejected": -2.5625,
+      "logps/chosen": -1.1328125,
+      "logps/rejected": -1.21875,
+      "loss": 0.7261,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -2.828125,
+      "rewards/margins": 0.21484375,
+      "rewards/rejected": -3.046875,
+      "step": 185
+    },
+    {
+      "epoch": 0.8143584248593625,
+      "grad_norm": 37.85316797275618,
+      "learning_rate": 1.0085821169782199e-07,
+      "logits/chosen": -2.578125,
+      "logits/rejected": -2.59375,
+      "logps/chosen": -1.1796875,
+      "logps/rejected": -1.265625,
+      "loss": 0.7512,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -2.953125,
+      "rewards/margins": 0.2255859375,
+      "rewards/rejected": -3.171875,
+      "step": 190
+    },
+    {
+      "epoch": 0.8357889097240825,
+      "grad_norm": 36.34792913013898,
+      "learning_rate": 7.937323358440934e-08,
+      "logits/chosen": -2.5625,
+      "logits/rejected": -2.5625,
+      "logps/chosen": -1.15625,
+      "logps/rejected": -1.265625,
+      "loss": 0.7437,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -2.890625,
+      "rewards/margins": 0.27734375,
+      "rewards/rejected": -3.171875,
+      "step": 195
+    },
+    {
+      "epoch": 0.8572193945888026,
+      "grad_norm": 38.47006137486786,
+      "learning_rate": 6.026312439675551e-08,
+      "logits/chosen": -2.609375,
+      "logits/rejected": -2.609375,
+      "logps/chosen": -1.1328125,
+      "logps/rejected": -1.3359375,
+      "loss": 0.7203,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -2.828125,
+      "rewards/margins": 0.5078125,
+      "rewards/rejected": -3.34375,
+      "step": 200
+    },
+    {
+      "epoch": 0.8786498794535227,
+      "grad_norm": 32.23204631755238,
+      "learning_rate": 4.3635780274861864e-08,
+      "logits/chosen": -2.59375,
+      "logits/rejected": -2.59375,
+      "logps/chosen": -1.1328125,
+      "logps/rejected": -1.2890625,
+      "loss": 0.7247,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.828125,
+      "rewards/margins": 0.40625,
+      "rewards/rejected": -3.234375,
+      "step": 205
+    },
+    {
+      "epoch": 0.9000803643182427,
+      "grad_norm": 34.213864254754874,
+      "learning_rate": 2.958507960694784e-08,
+      "logits/chosen": -2.546875,
+      "logits/rejected": -2.5625,
+      "logps/chosen": -1.2265625,
+      "logps/rejected": -1.453125,
+      "loss": 0.7235,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -3.078125,
+      "rewards/margins": 0.55078125,
+      "rewards/rejected": -3.625,
+      "step": 210
+    },
+    {
+      "epoch": 0.9215108491829628,
+      "grad_norm": 31.906095133000242,
+      "learning_rate": 1.8190352989793322e-08,
+      "logits/chosen": -2.578125,
+      "logits/rejected": -2.578125,
+      "logps/chosen": -1.1640625,
+      "logps/rejected": -1.296875,
+      "loss": 0.7316,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -2.90625,
+      "rewards/margins": 0.333984375,
+      "rewards/rejected": -3.25,
+      "step": 215
+    },
+    {
+      "epoch": 0.9429413340476829,
+      "grad_norm": 35.354867146517954,
+      "learning_rate": 9.515935326265378e-09,
+      "logits/chosen": -2.5,
+      "logits/rejected": -2.5,
+      "logps/chosen": -1.25,
+      "logps/rejected": -1.421875,
+      "loss": 0.729,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -3.125,
+      "rewards/margins": 0.42578125,
+      "rewards/rejected": -3.546875,
+      "step": 220
+    },
+    {
+      "epoch": 0.9643718189124029,
+      "grad_norm": 32.177844585654924,
+      "learning_rate": 3.6108025888958447e-09,
+      "logits/chosen": -2.578125,
+      "logits/rejected": -2.59375,
+      "logps/chosen": -1.140625,
+      "logps/rejected": -1.3203125,
+      "loss": 0.7181,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -2.859375,
+      "rewards/margins": 0.443359375,
+      "rewards/rejected": -3.3125,
+      "step": 225
+    },
+    {
+      "epoch": 0.985802303777123,
+      "grad_norm": 36.438384324409185,
+      "learning_rate": 5.082953003528456e-10,
+      "logits/chosen": -2.546875,
+      "logits/rejected": -2.546875,
+      "logps/chosen": -1.2109375,
+      "logps/rejected": -1.3828125,
+      "loss": 0.7353,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -3.015625,
+      "rewards/margins": 0.435546875,
+      "rewards/rejected": -3.453125,
+      "step": 230
+    },
+    {
+      "epoch": 0.998660594695955,
+      "step": 233,
+      "total_flos": 0.0,
+      "train_loss": 0.7728924853607309,
+      "train_runtime": 5369.4124,
+      "train_samples_per_second": 11.122,
+      "train_steps_per_second": 0.043
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 233,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1000000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}