Model save

Browse files

Files changed (12) hide show

README.md +7 -7
all_results.json +7 -6
config.json +2 -1
generation_config.json +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
tokenizer.json +1 -0
tokenizer_config.json +2 -0
train_results.json +7 -6
trainer_state.json +1788 -458
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -35,14 +35,14 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-07
-- train_batch_size: 8
-- eval_batch_size: 8
-- seed: 5
 - distributed_type: multi-GPU
 - num_devices: 8
-- gradient_accumulation_steps: 2
 - total_train_batch_size: 128
-- total_eval_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
@@ -54,7 +54,7 @@ The following hyperparameters were used during training:
 ### Framework versions
-- Transformers 4.35.2
 - Pytorch 2.1.2+cu121
 - Datasets 2.14.6
-- Tokenizers 0.14.1

 The following hyperparameters were used during training:
 - learning_rate: 5e-07
+- train_batch_size: 1
+- eval_batch_size: 1
+- seed: 42
 - distributed_type: multi-GPU
 - num_devices: 8
+- gradient_accumulation_steps: 16
 - total_train_batch_size: 128
+- total_eval_batch_size: 8
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
 ### Framework versions
+- Transformers 4.41.1
 - Pytorch 2.1.2+cu121
 - Datasets 2.14.6
+- Tokenizers 0.19.1

all_results.json CHANGED Viewed

@@ -1,8 +1,9 @@
 {
-    "epoch": 1.0,
-    "train_loss": 0.0972615369308142,
-    "train_runtime": 3208.985,
-    "train_samples": 51894,
-    "train_samples_per_second": 16.171,
-    "train_steps_per_second": 0.126
 }

 {
+    "epoch": 0.9998009950248756,
+    "total_flos": 0.0,
+    "train_loss": 0.56497666932595,
+    "train_runtime": 62670.8183,
+    "train_samples": 160800,
+    "train_samples_per_second": 2.566,
+    "train_steps_per_second": 0.02
 }

config.json CHANGED Viewed

@@ -3,6 +3,7 @@
   "architectures": [
     "MistralForCausalLM"
   ],
   "bos_token_id": 1,
   "eos_token_id": 2,
   "hidden_act": "silu",
@@ -19,7 +20,7 @@
   "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.35.2",
   "use_cache": false,
   "vocab_size": 32000
 }

   "architectures": [
     "MistralForCausalLM"
   ],
+  "attention_dropout": 0.0,
   "bos_token_id": 1,
   "eos_token_id": 2,
   "hidden_act": "silu",
   "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.41.1",
   "use_cache": false,
   "vocab_size": 32000
 }

generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
-  "transformers_version": "4.35.2"
 }

   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
+  "transformers_version": "4.41.1"
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e0a7d68eaea3c4ea34548f08b3bfd85cbc9c97f6f470fa5af241332e1cd329c
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e11dcd61cc10207ffa429232e22f4cd1209b869b363230b1b23c8229fec53ac
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c22cbc782090250ae06de6e3181fa820c3c731fc028cf167d49f33ecfb1be66c
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:182675acf06d7733583a038c80e4ca834644ab7b1ee0b07cac182d9ff6d6bfce
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f4ac57d104c68b576a9438ec037c2727070a309956439d4dd7f1e28baf706ff
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:b33509881c7f28a3653c4f33545c0462135ed2ffe7316c0e4ac0f29f06a94027
 size 4540516344

tokenizer.json CHANGED Viewed

@@ -134,6 +134,7 @@
     "end_of_word_suffix": null,
     "fuse_unk": true,
     "byte_fallback": true,
     "vocab": {
       "<unk>": 0,
       "<s>": 1,

     "end_of_word_suffix": null,
     "fuse_unk": true,
     "byte_fallback": true,
+    "ignore_merges": false,
     "vocab": {
       "<unk>": 0,
       "<s>": 1,

tokenizer_config.json CHANGED Viewed

@@ -1,4 +1,6 @@
 {
   "added_tokens_decoder": {
     "0": {
       "content": "<unk>",

 {
+  "add_bos_token": true,
+  "add_eos_token": false,
   "added_tokens_decoder": {
     "0": {
       "content": "<unk>",

train_results.json CHANGED Viewed

@@ -1,8 +1,9 @@
 {
-    "epoch": 1.0,
-    "train_loss": 0.0972615369308142,
-    "train_runtime": 3208.985,
-    "train_samples": 51894,
-    "train_samples_per_second": 16.171,
-    "train_steps_per_second": 0.126
 }

 {
+    "epoch": 0.9998009950248756,
+    "total_flos": 0.0,
+    "train_loss": 0.56497666932595,
+    "train_runtime": 62670.8183,
+    "train_samples": 160800,
+    "train_samples_per_second": 2.566,
+    "train_steps_per_second": 0.02
 }

trainer_state.json CHANGED Viewed

@@ -1,21 +1,22 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.998766954377312,
-  "eval_steps": 1000,
-  "global_step": 405,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0,
-      "learning_rate": 1.2195121951219512e-08,
-      "logits/chosen": -2.8695335388183594,
-      "logits/rejected": -2.8522377014160156,
-      "logps/chosen": -537.80126953125,
-      "logps/rejected": -108.91968536376953,
-      "loss": 0.4013,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -23,580 +24,1909 @@
       "step": 1
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 1.219512195121951e-07,
-      "logits/chosen": -2.800579786300659,
-      "logits/rejected": -2.7510969638824463,
-      "logps/chosen": -339.13104248046875,
-      "logps/rejected": -113.41000366210938,
-      "loss": 0.4182,
-      "rewards/accuracies": 0.5486111044883728,
-      "rewards/chosen": 0.0010713347001001239,
-      "rewards/margins": 0.0017763269133865833,
-      "rewards/rejected": -0.0007049919222481549,
       "step": 10
     },
     {
-      "epoch": 0.05,
-      "learning_rate": 2.439024390243902e-07,
-      "logits/chosen": -2.816149950027466,
-      "logits/rejected": -2.8076975345611572,
-      "logps/chosen": -435.25836181640625,
-      "logps/rejected": -116.08283996582031,
-      "loss": 0.4089,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": 0.02127786912024021,
-      "rewards/margins": 0.03858271613717079,
-      "rewards/rejected": -0.01730484515428543,
       "step": 20
     },
     {
-      "epoch": 0.07,
-      "learning_rate": 3.6585365853658536e-07,
-      "logits/chosen": -2.7240824699401855,
-      "logits/rejected": -2.686880111694336,
-      "logps/chosen": -437.80010986328125,
-      "logps/rejected": -141.4352264404297,
-      "loss": 0.392,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": 0.08666273951530457,
-      "rewards/margins": 0.2057490050792694,
-      "rewards/rejected": -0.11908626556396484,
       "step": 30
     },
     {
-      "epoch": 0.1,
-      "learning_rate": 4.878048780487804e-07,
-      "logits/chosen": -2.5924689769744873,
-      "logits/rejected": -2.5725345611572266,
-      "logps/chosen": -414.5943908691406,
-      "logps/rejected": -170.07090759277344,
-      "loss": 0.3413,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": 0.019387617707252502,
-      "rewards/margins": 0.47896456718444824,
-      "rewards/rejected": -0.45957690477371216,
       "step": 40
     },
     {
-      "epoch": 0.12,
-      "learning_rate": 4.992461696250783e-07,
-      "logits/chosen": -2.465122938156128,
-      "logits/rejected": -2.4514966011047363,
-      "logps/chosen": -422.89739990234375,
-      "logps/rejected": -215.4567108154297,
-      "loss": 0.2558,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.1378343403339386,
-      "rewards/margins": 0.8191972970962524,
-      "rewards/rejected": -0.9570316076278687,
       "step": 50
     },
     {
-      "epoch": 0.15,
-      "learning_rate": 4.966461721767899e-07,
-      "logits/chosen": -2.404264450073242,
-      "logits/rejected": -2.3718972206115723,
-      "logps/chosen": -380.6066589355469,
-      "logps/rejected": -213.6814727783203,
-      "loss": 0.1652,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -0.3525749742984772,
-      "rewards/margins": 0.8845361471176147,
-      "rewards/rejected": -1.2371110916137695,
       "step": 60
     },
     {
-      "epoch": 0.17,
-      "learning_rate": 4.922100518015975e-07,
-      "logits/chosen": -2.402127742767334,
-      "logits/rejected": -2.364607572555542,
-      "logps/chosen": -452.73553466796875,
-      "logps/rejected": -278.8863220214844,
-      "loss": 0.1213,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -0.5289198160171509,
-      "rewards/margins": 1.2455707788467407,
-      "rewards/rejected": -1.7744905948638916,
       "step": 70
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 4.859708325770919e-07,
-      "logits/chosen": -2.3720970153808594,
-      "logits/rejected": -2.31769061088562,
-      "logps/chosen": -442.95330810546875,
-      "logps/rejected": -290.1528625488281,
-      "loss": 0.1225,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -0.32007747888565063,
-      "rewards/margins": 1.4891936779022217,
-      "rewards/rejected": -1.809271216392517,
       "step": 80
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 4.779749614980225e-07,
-      "logits/chosen": -2.404604434967041,
-      "logits/rejected": -2.3565943241119385,
-      "logps/chosen": -460.10040283203125,
-      "logps/rejected": -335.51055908203125,
-      "loss": 0.0885,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -0.7478345632553101,
-      "rewards/margins": 1.5196093320846558,
-      "rewards/rejected": -2.2674436569213867,
       "step": 90
     },
     {
-      "epoch": 0.25,
-      "learning_rate": 4.682819627081427e-07,
-      "logits/chosen": -2.369783878326416,
-      "logits/rejected": -2.2862191200256348,
-      "logps/chosen": -513.9479370117188,
-      "logps/rejected": -387.48724365234375,
-      "loss": 0.0749,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.9055101275444031,
-      "rewards/margins": 1.8521873950958252,
-      "rewards/rejected": -2.757697582244873,
       "step": 100
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 4.569639943810477e-07,
-      "logits/chosen": -2.3708443641662598,
-      "logits/rejected": -2.2844862937927246,
-      "logps/chosen": -536.1383056640625,
-      "logps/rejected": -396.71923828125,
-      "loss": 0.0627,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -0.9352647066116333,
-      "rewards/margins": 1.9346840381622314,
-      "rewards/rejected": -2.869948625564575,
       "step": 110
     },
     {
-      "epoch": 0.3,
-      "learning_rate": 4.4410531154874543e-07,
-      "logits/chosen": -2.360198497772217,
-      "logits/rejected": -2.2735414505004883,
-      "logps/chosen": -555.21142578125,
-      "logps/rejected": -448.2564392089844,
-      "loss": 0.0447,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -1.2120835781097412,
-      "rewards/margins": 2.0949184894561768,
-      "rewards/rejected": -3.307002305984497,
       "step": 120
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 4.298016388768561e-07,
-      "logits/chosen": -2.346752643585205,
-      "logits/rejected": -2.2457778453826904,
-      "logps/chosen": -547.1868286132812,
-      "logps/rejected": -450.1656188964844,
-      "loss": 0.0567,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -1.2032897472381592,
-      "rewards/margins": 2.0359203815460205,
-      "rewards/rejected": -3.2392101287841797,
       "step": 130
     },
     {
-      "epoch": 0.35,
-      "learning_rate": 4.1415945805573005e-07,
-      "logits/chosen": -2.378035306930542,
-      "logits/rejected": -2.312330484390259,
-      "logps/chosen": -524.4827880859375,
-      "logps/rejected": -409.43292236328125,
-      "loss": 0.0564,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -0.7949830889701843,
-      "rewards/margins": 2.1438651084899902,
-      "rewards/rejected": -2.9388484954833984,
       "step": 140
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 3.972952151123984e-07,
-      "logits/chosen": -2.367128849029541,
-      "logits/rejected": -2.2979280948638916,
-      "logps/chosen": -505.3435974121094,
-      "logps/rejected": -405.11370849609375,
-      "loss": 0.0673,
-      "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": -0.8093282580375671,
-      "rewards/margins": 1.9671752452850342,
-      "rewards/rejected": -2.776503324508667,
       "step": 150
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 3.793344535444142e-07,
-      "logits/chosen": -2.397578239440918,
-      "logits/rejected": -2.326962947845459,
-      "logps/chosen": -546.9036865234375,
-      "logps/rejected": -425.72119140625,
-      "loss": 0.0522,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -0.8053304553031921,
-      "rewards/margins": 2.2930407524108887,
-      "rewards/rejected": -3.098371744155884,
       "step": 160
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 3.604108797288461e-07,
-      "logits/chosen": -2.3404340744018555,
-      "logits/rejected": -2.2825286388397217,
-      "logps/chosen": -510.0309143066406,
-      "logps/rejected": -448.40496826171875,
-      "loss": 0.0549,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -1.0596367120742798,
-      "rewards/margins": 2.231541633605957,
-      "rewards/rejected": -3.2911782264709473,
       "step": 170
     },
     {
-      "epoch": 0.44,
-      "learning_rate": 3.40665367563858e-07,
-      "logits/chosen": -2.36769437789917,
-      "logits/rejected": -2.2915241718292236,
-      "logps/chosen": -449.4844665527344,
-      "logps/rejected": -359.50042724609375,
-      "loss": 0.0779,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.7590703964233398,
-      "rewards/margins": 1.8968210220336914,
-      "rewards/rejected": -2.655891180038452,
       "step": 180
     },
     {
-      "epoch": 0.47,
-      "learning_rate": 3.202449097526798e-07,
-      "logits/chosen": -2.353964328765869,
-      "logits/rejected": -2.2665138244628906,
-      "logps/chosen": -505.6192932128906,
-      "logps/rejected": -436.03594970703125,
-      "loss": 0.0627,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -1.1873983144760132,
-      "rewards/margins": 2.045551300048828,
-      "rewards/rejected": -3.2329494953155518,
       "step": 190
     },
     {
-      "epoch": 0.49,
-      "learning_rate": 2.993015235369905e-07,
-      "logits/chosen": -2.31779146194458,
-      "logits/rejected": -2.2251808643341064,
-      "logps/chosen": -563.7548217773438,
-      "logps/rejected": -458.24029541015625,
-      "loss": 0.047,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -1.2938554286956787,
-      "rewards/margins": 2.102210283279419,
-      "rewards/rejected": -3.3960654735565186,
       "step": 200
     },
     {
-      "epoch": 0.52,
-      "learning_rate": 2.7799111902582693e-07,
-      "logits/chosen": -2.2480106353759766,
-      "logits/rejected": -2.1538870334625244,
-      "logps/chosen": -541.3148193359375,
-      "logps/rejected": -456.4246520996094,
-      "loss": 0.0443,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.5714356899261475,
-      "rewards/margins": 1.8790645599365234,
-      "rewards/rejected": -3.45050048828125,
       "step": 210
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 2.564723385445869e-07,
-      "logits/chosen": -2.252617597579956,
-      "logits/rejected": -2.1605441570281982,
-      "logps/chosen": -563.362060546875,
-      "logps/rejected": -470.49188232421875,
-      "loss": 0.0489,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -1.2414028644561768,
-      "rewards/margins": 2.133410930633545,
-      "rewards/rejected": -3.3748135566711426,
       "step": 220
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 2.3490537564442845e-07,
-      "logits/chosen": -2.3041675090789795,
-      "logits/rejected": -2.227656602859497,
-      "logps/chosen": -516.6383056640625,
-      "logps/rejected": -429.8155212402344,
-      "loss": 0.0476,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.1023118495941162,
-      "rewards/margins": 2.013040542602539,
-      "rewards/rejected": -3.1153526306152344,
       "step": 230
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 2.1345078256378801e-07,
-      "logits/chosen": -2.3148865699768066,
-      "logits/rejected": -2.2272677421569824,
-      "logps/chosen": -514.4750366210938,
-      "logps/rejected": -460.95562744140625,
-      "loss": 0.0404,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -1.0974665880203247,
-      "rewards/margins": 2.3115158081054688,
-      "rewards/rejected": -3.408982753753662,
       "step": 240
     },
     {
-      "epoch": 0.62,
-      "learning_rate": 1.9226827501969865e-07,
-      "logits/chosen": -2.286684513092041,
-      "logits/rejected": -2.1823794841766357,
-      "logps/chosen": -561.267333984375,
-      "logps/rejected": -515.2468872070312,
-      "loss": 0.0491,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -1.3303524255752563,
-      "rewards/margins": 2.644932985305786,
-      "rewards/rejected": -3.975285291671753,
       "step": 250
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 1.715155432264775e-07,
-      "logits/chosen": -2.276379108428955,
-      "logits/rejected": -2.1837644577026367,
-      "logps/chosen": -511.8189392089844,
-      "logps/rejected": -438.93511962890625,
-      "loss": 0.0623,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -1.2629977464675903,
-      "rewards/margins": 2.0327014923095703,
-      "rewards/rejected": -3.2956995964050293,
       "step": 260
     },
     {
-      "epoch": 0.67,
-      "learning_rate": 1.51347077992983e-07,
-      "logits/chosen": -2.321298360824585,
-      "logits/rejected": -2.2319440841674805,
-      "logps/chosen": -495.376708984375,
-      "logps/rejected": -422.41448974609375,
-      "loss": 0.0556,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -0.9975100755691528,
-      "rewards/margins": 2.0017402172088623,
-      "rewards/rejected": -2.9992504119873047,
       "step": 270
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 1.3191302063739906e-07,
-      "logits/chosen": -2.3268749713897705,
-      "logits/rejected": -2.2400355339050293,
-      "logps/chosen": -513.5865478515625,
-      "logps/rejected": -432.70721435546875,
-      "loss": 0.0528,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -1.1590217351913452,
-      "rewards/margins": 2.0167365074157715,
-      "rewards/rejected": -3.175758123397827,
       "step": 280
     },
     {
-      "epoch": 0.72,
-      "learning_rate": 1.1335804528119475e-07,
-      "logits/chosen": -2.3036351203918457,
-      "logits/rejected": -2.1903886795043945,
-      "logps/chosen": -558.5098876953125,
-      "logps/rejected": -453.27960205078125,
-      "loss": 0.0408,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -1.1243644952774048,
-      "rewards/margins": 2.320279598236084,
-      "rewards/rejected": -3.4446442127227783,
       "step": 290
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 9.582028184286423e-08,
-      "logits/chosen": -2.2981297969818115,
-      "logits/rejected": -2.222533702850342,
-      "logps/chosen": -494.6380310058594,
-      "logps/rejected": -438.770263671875,
-      "loss": 0.0439,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -1.3560435771942139,
-      "rewards/margins": 1.9616880416870117,
-      "rewards/rejected": -3.3177313804626465,
       "step": 300
     },
     {
-      "epoch": 0.76,
-      "learning_rate": 7.943028774907065e-08,
-      "logits/chosen": -2.288895845413208,
-      "logits/rejected": -2.2124645709991455,
-      "logps/chosen": -521.3748168945312,
-      "logps/rejected": -440.52191162109375,
-      "loss": 0.0439,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -1.1570526361465454,
-      "rewards/margins": 2.175691604614258,
-      "rewards/rejected": -3.3327438831329346,
       "step": 310
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 6.431007601814637e-08,
-      "logits/chosen": -2.3875412940979004,
-      "logits/rejected": -2.293565511703491,
-      "logps/chosen": -557.4725341796875,
-      "logps/rejected": -475.80682373046875,
-      "loss": 0.0443,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": -1.295273780822754,
-      "rewards/margins": 2.2585067749023438,
-      "rewards/rejected": -3.5537807941436768,
       "step": 320
     },
     {
-      "epoch": 0.81,
-      "learning_rate": 5.0572206951246e-08,
-      "logits/chosen": -2.3252406120300293,
-      "logits/rejected": -2.215536594390869,
-      "logps/chosen": -561.9892578125,
-      "logps/rejected": -471.8111267089844,
-      "loss": 0.0462,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -1.0945953130722046,
-      "rewards/margins": 2.469850540161133,
-      "rewards/rejected": -3.564445972442627,
       "step": 330
     },
     {
-      "epoch": 0.84,
-      "learning_rate": 3.831895019292897e-08,
-      "logits/chosen": -2.359334707260132,
-      "logits/rejected": -2.2646141052246094,
-      "logps/chosen": -575.1267700195312,
-      "logps/rejected": -495.489990234375,
-      "loss": 0.0449,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -1.101499080657959,
-      "rewards/margins": 2.532172679901123,
-      "rewards/rejected": -3.633671283721924,
       "step": 340
     },
     {
-      "epoch": 0.86,
-      "learning_rate": 2.764152339909756e-08,
-      "logits/chosen": -2.3170971870422363,
-      "logits/rejected": -2.2212605476379395,
-      "logps/chosen": -514.919677734375,
-      "logps/rejected": -437.05328369140625,
-      "loss": 0.0519,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -1.214154601097107,
-      "rewards/margins": 2.114192008972168,
-      "rewards/rejected": -3.3283467292785645,
       "step": 350
     },
     {
-      "epoch": 0.89,
-      "learning_rate": 1.861941317991664e-08,
-      "logits/chosen": -2.298218011856079,
-      "logits/rejected": -2.2111034393310547,
-      "logps/chosen": -522.8499755859375,
-      "logps/rejected": -448.1224060058594,
-      "loss": 0.0456,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -1.3821567296981812,
-      "rewards/margins": 1.8705806732177734,
-      "rewards/rejected": -3.252737522125244,
       "step": 360
     },
     {
-      "epoch": 0.91,
-      "learning_rate": 1.13197833728636e-08,
-      "logits/chosen": -2.302549362182617,
-      "logits/rejected": -2.2120444774627686,
-      "logps/chosen": -537.9904174804688,
-      "logps/rejected": -457.0699768066406,
-      "loss": 0.0438,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -1.2071287631988525,
-      "rewards/margins": 2.221251964569092,
-      "rewards/rejected": -3.4283804893493652,
       "step": 370
     },
     {
-      "epoch": 0.94,
-      "learning_rate": 5.79697505093521e-09,
-      "logits/chosen": -2.279075860977173,
-      "logits/rejected": -2.203881025314331,
-      "logps/chosen": -499.07574462890625,
-      "logps/rejected": -420.45391845703125,
-      "loss": 0.0403,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -1.144665241241455,
-      "rewards/margins": 2.001462459564209,
-      "rewards/rejected": -3.146127939224243,
       "step": 380
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 2.092101988131256e-09,
-      "logits/chosen": -2.362111806869507,
-      "logits/rejected": -2.266643524169922,
-      "logps/chosen": -548.8084716796875,
-      "logps/rejected": -460.02392578125,
-      "loss": 0.0407,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -1.122992753982544,
-      "rewards/margins": 2.259247064590454,
-      "rewards/rejected": -3.382239818572998,
       "step": 390
     },
     {
-      "epoch": 0.99,
-      "learning_rate": 2.327445937151673e-10,
-      "logits/chosen": -2.2871899604797363,
-      "logits/rejected": -2.2090656757354736,
-      "logps/chosen": -536.6136474609375,
-      "logps/rejected": -451.55950927734375,
-      "loss": 0.0506,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -1.1807712316513062,
-      "rewards/margins": 2.100186824798584,
-      "rewards/rejected": -3.2809581756591797,
       "step": 400
     },
     {
-      "epoch": 1.0,
-      "step": 405,
       "total_flos": 0.0,
-      "train_loss": 0.0972615369308142,
-      "train_runtime": 3208.985,
-      "train_samples_per_second": 16.171,
-      "train_steps_per_second": 0.126
     }
   ],
   "logging_steps": 10,
-  "max_steps": 405,
   "num_train_epochs": 1,
-  "save_steps": 1000,
   "total_flos": 0.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9998009950248756,
+  "eval_steps": 100,
+  "global_step": 1256,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0007960199004975124,
+      "grad_norm": 4.987965979355318,
+      "learning_rate": 3.968253968253968e-09,
+      "logits/chosen": -2.866555690765381,
+      "logits/rejected": -2.8678386211395264,
+      "logps/chosen": -150.79409790039062,
+      "logps/rejected": -167.60751342773438,
+      "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
       "step": 1
     },
     {
+      "epoch": 0.007960199004975124,
+      "grad_norm": 5.158661804258714,
+      "learning_rate": 3.968253968253968e-08,
+      "logits/chosen": -2.905927896499634,
+      "logits/rejected": -2.877537250518799,
+      "logps/chosen": -169.23851013183594,
+      "logps/rejected": -156.21502685546875,
+      "loss": 0.6932,
+      "rewards/accuracies": 0.4444444477558136,
+      "rewards/chosen": 0.00022146817354951054,
+      "rewards/margins": 7.194941281341016e-05,
+      "rewards/rejected": 0.00014951876073610038,
       "step": 10
     },
     {
+      "epoch": 0.015920398009950248,
+      "grad_norm": 4.941389073277953,
+      "learning_rate": 7.936507936507936e-08,
+      "logits/chosen": -2.8461222648620605,
+      "logits/rejected": -2.8314127922058105,
+      "logps/chosen": -143.2448272705078,
+      "logps/rejected": -139.14114379882812,
+      "loss": 0.6932,
+      "rewards/accuracies": 0.48750001192092896,
+      "rewards/chosen": -3.118843596894294e-05,
+      "rewards/margins": -0.00014748479588888586,
+      "rewards/rejected": 0.00011629634536802769,
       "step": 20
     },
     {
+      "epoch": 0.023880597014925373,
+      "grad_norm": 4.789407789219409,
+      "learning_rate": 1.1904761904761903e-07,
+      "logits/chosen": -2.8516290187835693,
+      "logits/rejected": -2.8340375423431396,
+      "logps/chosen": -133.89068603515625,
+      "logps/rejected": -137.05783081054688,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.5375000238418579,
+      "rewards/chosen": 0.00035750039387494326,
+      "rewards/margins": 0.00034277202212251723,
+      "rewards/rejected": 1.4728342648595572e-05,
       "step": 30
     },
     {
+      "epoch": 0.031840796019900496,
+      "grad_norm": 5.0684575947852935,
+      "learning_rate": 1.5873015873015872e-07,
+      "logits/chosen": -2.8869121074676514,
+      "logits/rejected": -2.8650405406951904,
+      "logps/chosen": -149.87741088867188,
+      "logps/rejected": -154.5808563232422,
+      "loss": 0.6928,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": 0.0008229534141719341,
+      "rewards/margins": 0.0007549519650638103,
+      "rewards/rejected": 6.800144910812378e-05,
       "step": 40
     },
     {
+      "epoch": 0.03980099502487562,
+      "grad_norm": 4.886701576208831,
+      "learning_rate": 1.984126984126984e-07,
+      "logits/chosen": -2.8915724754333496,
+      "logits/rejected": -2.8401710987091064,
+      "logps/chosen": -153.5601348876953,
+      "logps/rejected": -127.82198333740234,
+      "loss": 0.6923,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": -0.00028051590197719634,
+      "rewards/margins": 0.0019810814410448074,
+      "rewards/rejected": -0.002261597430333495,
       "step": 50
     },
     {
+      "epoch": 0.04776119402985075,
+      "grad_norm": 4.80539942483475,
+      "learning_rate": 2.3809523809523806e-07,
+      "logits/chosen": -2.8685171604156494,
+      "logits/rejected": -2.885859966278076,
+      "logps/chosen": -138.50997924804688,
+      "logps/rejected": -153.02711486816406,
+      "loss": 0.6913,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.0011361455544829369,
+      "rewards/margins": 0.003960339818149805,
+      "rewards/rejected": -0.002824194496497512,
       "step": 60
     },
     {
+      "epoch": 0.05572139303482587,
+      "grad_norm": 4.993634749933866,
+      "learning_rate": 2.7777777777777776e-07,
+      "logits/chosen": -2.8937714099884033,
+      "logits/rejected": -2.8720123767852783,
+      "logps/chosen": -140.58717346191406,
+      "logps/rejected": -159.0962677001953,
+      "loss": 0.6893,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.006692352704703808,
+      "rewards/margins": 0.008710912428796291,
+      "rewards/rejected": -0.015403266064822674,
       "step": 70
     },
     {
+      "epoch": 0.06368159203980099,
+      "grad_norm": 5.018829367878226,
+      "learning_rate": 3.1746031746031743e-07,
+      "logits/chosen": -2.8606536388397217,
+      "logits/rejected": -2.8511064052581787,
+      "logps/chosen": -143.28701782226562,
+      "logps/rejected": -143.73817443847656,
+      "loss": 0.6878,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.019417399540543556,
+      "rewards/margins": 0.015563729219138622,
+      "rewards/rejected": -0.034981124103069305,
       "step": 80
     },
     {
+      "epoch": 0.07164179104477612,
+      "grad_norm": 5.3232578633563445,
+      "learning_rate": 3.5714285714285716e-07,
+      "logits/chosen": -2.8441901206970215,
+      "logits/rejected": -2.841014862060547,
+      "logps/chosen": -154.00717163085938,
+      "logps/rejected": -169.87318420410156,
+      "loss": 0.683,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.03319092467427254,
+      "rewards/margins": 0.028958678245544434,
+      "rewards/rejected": -0.06214960291981697,
       "step": 90
     },
     {
+      "epoch": 0.07960199004975124,
+      "grad_norm": 5.9751016265015515,
+      "learning_rate": 3.968253968253968e-07,
+      "logits/chosen": -2.8674731254577637,
+      "logits/rejected": -2.819610834121704,
+      "logps/chosen": -168.8125,
+      "logps/rejected": -154.88980102539062,
+      "loss": 0.6789,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": -0.09129344671964645,
+      "rewards/margins": 0.039778389036655426,
+      "rewards/rejected": -0.13107183575630188,
       "step": 100
     },
     {
+      "epoch": 0.08756218905472637,
+      "grad_norm": 7.043583746287595,
+      "learning_rate": 4.365079365079365e-07,
+      "logits/chosen": -2.8453006744384766,
+      "logits/rejected": -2.8008811473846436,
+      "logps/chosen": -166.57568359375,
+      "logps/rejected": -160.43548583984375,
+      "loss": 0.6753,
+      "rewards/accuracies": 0.6000000238418579,
+      "rewards/chosen": -0.1897437423467636,
+      "rewards/margins": 0.05553770065307617,
+      "rewards/rejected": -0.2452814280986786,
       "step": 110
     },
     {
+      "epoch": 0.0955223880597015,
+      "grad_norm": 8.93236047182562,
+      "learning_rate": 4.761904761904761e-07,
+      "logits/chosen": -2.861156940460205,
+      "logits/rejected": -2.8308346271514893,
+      "logps/chosen": -169.21116638183594,
+      "logps/rejected": -174.7342071533203,
+      "loss": 0.6668,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.2347549945116043,
+      "rewards/margins": 0.07360492646694183,
+      "rewards/rejected": -0.30835992097854614,
       "step": 120
     },
     {
+      "epoch": 0.10348258706467661,
+      "grad_norm": 12.11276981143796,
+      "learning_rate": 4.999845414634076e-07,
+      "logits/chosen": -2.8432881832122803,
+      "logits/rejected": -2.8032021522521973,
+      "logps/chosen": -176.11865234375,
+      "logps/rejected": -188.36691284179688,
+      "loss": 0.644,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.360163152217865,
+      "rewards/margins": 0.17286832630634308,
+      "rewards/rejected": -0.5330314636230469,
       "step": 130
     },
     {
+      "epoch": 0.11144278606965174,
+      "grad_norm": 14.823561517874804,
+      "learning_rate": 4.998106548810311e-07,
+      "logits/chosen": -2.8333194255828857,
+      "logits/rejected": -2.786397695541382,
+      "logps/chosen": -193.32913208007812,
+      "logps/rejected": -193.43296813964844,
+      "loss": 0.639,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.42469319701194763,
+      "rewards/margins": 0.16398563981056213,
+      "rewards/rejected": -0.5886788964271545,
       "step": 140
     },
     {
+      "epoch": 0.11940298507462686,
+      "grad_norm": 18.490476889353154,
+      "learning_rate": 4.994436933879359e-07,
+      "logits/chosen": -2.742354393005371,
+      "logits/rejected": -2.6894731521606445,
+      "logps/chosen": -206.05099487304688,
+      "logps/rejected": -226.1792449951172,
+      "loss": 0.6134,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.5303625464439392,
+      "rewards/margins": 0.2593725323677063,
+      "rewards/rejected": -0.7897351384162903,
       "step": 150
     },
     {
+      "epoch": 0.12736318407960198,
+      "grad_norm": 16.59996040063754,
+      "learning_rate": 4.988839406031596e-07,
+      "logits/chosen": -2.64296555519104,
+      "logits/rejected": -2.6306753158569336,
+      "logps/chosen": -180.86181640625,
+      "logps/rejected": -229.1710968017578,
+      "loss": 0.6168,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.510300874710083,
+      "rewards/margins": 0.35416826605796814,
+      "rewards/rejected": -0.8644691705703735,
       "step": 160
     },
     {
+      "epoch": 0.13532338308457711,
+      "grad_norm": 12.427120919609093,
+      "learning_rate": 4.981318291512395e-07,
+      "logits/chosen": -2.585261821746826,
+      "logits/rejected": -2.602097988128662,
+      "logps/chosen": -192.22706604003906,
+      "logps/rejected": -224.95028686523438,
+      "loss": 0.6289,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -0.5405030250549316,
+      "rewards/margins": 0.21325179934501648,
+      "rewards/rejected": -0.7537548542022705,
       "step": 170
     },
     {
+      "epoch": 0.14328358208955225,
+      "grad_norm": 15.900669280547154,
+      "learning_rate": 4.971879403278432e-07,
+      "logits/chosen": -2.5604166984558105,
+      "logits/rejected": -2.5091071128845215,
+      "logps/chosen": -214.48095703125,
+      "logps/rejected": -222.5020751953125,
+      "loss": 0.6208,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.6959569454193115,
+      "rewards/margins": 0.1984298974275589,
+      "rewards/rejected": -0.894386887550354,
       "step": 180
     },
     {
+      "epoch": 0.15124378109452735,
+      "grad_norm": 21.336526790653657,
+      "learning_rate": 4.960530036504941e-07,
+      "logits/chosen": -2.511948823928833,
+      "logits/rejected": -2.4782981872558594,
+      "logps/chosen": -247.1105499267578,
+      "logps/rejected": -259.957763671875,
+      "loss": 0.6225,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.9646499752998352,
+      "rewards/margins": 0.24105295538902283,
+      "rewards/rejected": -1.2057029008865356,
       "step": 190
     },
     {
+      "epoch": 0.15920398009950248,
+      "grad_norm": 14.558771925056739,
+      "learning_rate": 4.947278962947386e-07,
+      "logits/chosen": -2.4865562915802,
+      "logits/rejected": -2.4496474266052246,
+      "logps/chosen": -247.4215850830078,
+      "logps/rejected": -294.28839111328125,
+      "loss": 0.5863,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.000279188156128,
+      "rewards/margins": 0.5100765228271484,
+      "rewards/rejected": -1.5103557109832764,
       "step": 200
     },
     {
+      "epoch": 0.16716417910447762,
+      "grad_norm": 18.09768702444502,
+      "learning_rate": 4.932136424161899e-07,
+      "logits/chosen": -2.524082899093628,
+      "logits/rejected": -2.460231304168701,
+      "logps/chosen": -236.9945526123047,
+      "logps/rejected": -280.2134704589844,
+      "loss": 0.5892,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.9642118215560913,
+      "rewards/margins": 0.4870384633541107,
+      "rewards/rejected": -1.4512503147125244,
       "step": 210
     },
     {
+      "epoch": 0.17512437810945275,
+      "grad_norm": 15.582712307283431,
+      "learning_rate": 4.915114123589732e-07,
+      "logits/chosen": -2.4720115661621094,
+      "logits/rejected": -2.4532742500305176,
+      "logps/chosen": -277.3113708496094,
+      "logps/rejected": -346.95941162109375,
+      "loss": 0.6028,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.3337619304656982,
+      "rewards/margins": 0.5726526379585266,
+      "rewards/rejected": -1.9064146280288696,
       "step": 220
     },
     {
+      "epoch": 0.18308457711442785,
+      "grad_norm": 23.55648961804369,
+      "learning_rate": 4.896225217511849e-07,
+      "logits/chosen": -2.4816207885742188,
+      "logits/rejected": -2.427955389022827,
+      "logps/chosen": -294.205810546875,
+      "logps/rejected": -344.0794372558594,
+      "loss": 0.5888,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -1.3327975273132324,
+      "rewards/margins": 0.5613763332366943,
+      "rewards/rejected": -1.8941738605499268,
       "step": 230
     },
     {
+      "epoch": 0.191044776119403,
+      "grad_norm": 13.953969214382605,
+      "learning_rate": 4.875484304880629e-07,
+      "logits/chosen": -2.4548521041870117,
+      "logits/rejected": -2.370633602142334,
+      "logps/chosen": -271.3977355957031,
+      "logps/rejected": -332.35137939453125,
+      "loss": 0.5803,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.2848864793777466,
+      "rewards/margins": 0.5692149996757507,
+      "rewards/rejected": -1.854101538658142,
       "step": 240
     },
     {
+      "epoch": 0.19900497512437812,
+      "grad_norm": 18.518974677225064,
+      "learning_rate": 4.852907416036558e-07,
+      "logits/chosen": -2.3934974670410156,
+      "logits/rejected": -2.312051296234131,
+      "logps/chosen": -282.7490234375,
+      "logps/rejected": -325.5188293457031,
+      "loss": 0.5885,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -1.3080084323883057,
+      "rewards/margins": 0.444119393825531,
+      "rewards/rejected": -1.7521278858184814,
       "step": 250
     },
     {
+      "epoch": 0.20696517412935322,
+      "grad_norm": 16.421871283301197,
+      "learning_rate": 4.828512000318616e-07,
+      "logits/chosen": -1.9985812902450562,
+      "logits/rejected": -1.7946439981460571,
+      "logps/chosen": -351.16864013671875,
+      "logps/rejected": -392.8179931640625,
+      "loss": 0.5685,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -2.019517660140991,
+      "rewards/margins": 0.4194945693016052,
+      "rewards/rejected": -2.439012050628662,
       "step": 260
     },
     {
+      "epoch": 0.21492537313432836,
+      "grad_norm": 14.628264234076205,
+      "learning_rate": 4.802316912577946e-07,
+      "logits/chosen": -2.0842502117156982,
+      "logits/rejected": -1.9886341094970703,
+      "logps/chosen": -346.19921875,
+      "logps/rejected": -366.7377624511719,
+      "loss": 0.5884,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -2.0177090167999268,
+      "rewards/margins": 0.32493501901626587,
+      "rewards/rejected": -2.342643976211548,
       "step": 270
     },
     {
+      "epoch": 0.2228855721393035,
+      "grad_norm": 18.526048621847632,
+      "learning_rate": 4.774342398605221e-07,
+      "logits/chosen": -2.015749216079712,
+      "logits/rejected": -1.818052053451538,
+      "logps/chosen": -360.9788513183594,
+      "logps/rejected": -402.9951171875,
+      "loss": 0.5688,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -2.1356658935546875,
+      "rewards/margins": 0.5189321637153625,
+      "rewards/rejected": -2.654597759246826,
       "step": 280
     },
     {
+      "epoch": 0.2308457711442786,
+      "grad_norm": 18.9693122793002,
+      "learning_rate": 4.744610079482978e-07,
+      "logits/chosen": -2.1531434059143066,
+      "logits/rejected": -1.9195207357406616,
+      "logps/chosen": -355.23626708984375,
+      "logps/rejected": -396.5318603515625,
+      "loss": 0.596,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -2.032478094100952,
+      "rewards/margins": 0.41044849157333374,
+      "rewards/rejected": -2.4429266452789307,
       "step": 290
     },
     {
+      "epoch": 0.23880597014925373,
+      "grad_norm": 14.860387982197683,
+      "learning_rate": 4.713142934875005e-07,
+      "logits/chosen": -2.4048914909362793,
+      "logits/rejected": -2.098559856414795,
+      "logps/chosen": -306.0177917480469,
+      "logps/rejected": -335.77099609375,
+      "loss": 0.582,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.319157361984253,
+      "rewards/margins": 0.5222987532615662,
+      "rewards/rejected": -1.841456413269043,
       "step": 300
     },
     {
+      "epoch": 0.24676616915422886,
+      "grad_norm": 17.94094060671055,
+      "learning_rate": 4.679965285265706e-07,
+      "logits/chosen": -2.0477898120880127,
+      "logits/rejected": -1.9392799139022827,
+      "logps/chosen": -276.44622802734375,
+      "logps/rejected": -320.6493835449219,
+      "loss": 0.5616,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -1.4027130603790283,
+      "rewards/margins": 0.39033347368240356,
+      "rewards/rejected": -1.7930463552474976,
       "step": 310
     },
     {
+      "epoch": 0.25472636815920396,
+      "grad_norm": 20.377060113211176,
+      "learning_rate": 4.64510277316316e-07,
+      "logits/chosen": -1.7731729745864868,
+      "logits/rejected": -1.263430118560791,
+      "logps/chosen": -373.1016845703125,
+      "logps/rejected": -431.9881896972656,
+      "loss": 0.5443,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -2.0920746326446533,
+      "rewards/margins": 0.7201870083808899,
+      "rewards/rejected": -2.8122615814208984,
       "step": 320
     },
     {
+      "epoch": 0.2626865671641791,
+      "grad_norm": 19.309940699402812,
+      "learning_rate": 4.6085823432804137e-07,
+      "logits/chosen": -1.9024795293807983,
+      "logits/rejected": -1.569469928741455,
+      "logps/chosen": -355.3124084472656,
+      "logps/rejected": -419.6775817871094,
+      "loss": 0.5793,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.87880539894104,
+      "rewards/margins": 0.6133967638015747,
+      "rewards/rejected": -2.4922022819519043,
       "step": 330
     },
     {
+      "epoch": 0.27064676616915423,
+      "grad_norm": 17.446855339300225,
+      "learning_rate": 4.570432221710314e-07,
+      "logits/chosen": -2.1071066856384277,
+      "logits/rejected": -2.065721273422241,
+      "logps/chosen": -280.3807373046875,
+      "logps/rejected": -328.475830078125,
+      "loss": 0.5779,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -1.4469754695892334,
+      "rewards/margins": 0.44690531492233276,
+      "rewards/rejected": -1.893880844116211,
       "step": 340
     },
     {
+      "epoch": 0.27860696517412936,
+      "grad_norm": 15.474382457829194,
+      "learning_rate": 4.5306818941099866e-07,
+      "logits/chosen": -2.2009084224700928,
+      "logits/rejected": -2.050603151321411,
+      "logps/chosen": -296.90423583984375,
+      "logps/rejected": -336.07818603515625,
+      "loss": 0.597,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -1.5415115356445312,
+      "rewards/margins": 0.42944687604904175,
+      "rewards/rejected": -1.9709584712982178,
       "step": 350
     },
     {
+      "epoch": 0.2865671641791045,
+      "grad_norm": 16.92609001492546,
+      "learning_rate": 4.4893620829118124e-07,
+      "logits/chosen": -2.1950016021728516,
+      "logits/rejected": -2.0361106395721436,
+      "logps/chosen": -296.43865966796875,
+      "logps/rejected": -364.69696044921875,
+      "loss": 0.5517,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.6347688436508179,
+      "rewards/margins": 0.5980359315872192,
+      "rewards/rejected": -2.232804775238037,
       "step": 360
     },
     {
+      "epoch": 0.2945273631840796,
+      "grad_norm": 19.211553848388508,
+      "learning_rate": 4.4465047235785185e-07,
+      "logits/chosen": -1.9282668828964233,
+      "logits/rejected": -1.6367496252059937,
+      "logps/chosen": -351.134033203125,
+      "logps/rejected": -394.2359313964844,
+      "loss": 0.5659,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -1.9457461833953857,
+      "rewards/margins": 0.6128097772598267,
+      "rewards/rejected": -2.558556079864502,
       "step": 370
     },
     {
+      "epoch": 0.3024875621890547,
+      "grad_norm": 16.77173991467865,
+      "learning_rate": 4.40214293992074e-07,
+      "logits/chosen": -1.747044563293457,
+      "logits/rejected": -1.6618773937225342,
+      "logps/chosen": -350.59466552734375,
+      "logps/rejected": -409.42901611328125,
+      "loss": 0.5571,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -2.0240893363952637,
+      "rewards/margins": 0.44821667671203613,
+      "rewards/rejected": -2.4723057746887207,
       "step": 380
     },
     {
+      "epoch": 0.31044776119402984,
+      "grad_norm": 18.040794768493605,
+      "learning_rate": 4.3563110184961234e-07,
+      "logits/chosen": -1.9076989889144897,
+      "logits/rejected": -1.5887449979782104,
+      "logps/chosen": -332.4600524902344,
+      "logps/rejected": -381.29803466796875,
+      "loss": 0.5534,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -1.8599789142608643,
+      "rewards/margins": 0.4636203348636627,
+      "rewards/rejected": -2.323599338531494,
       "step": 390
     },
     {
+      "epoch": 0.31840796019900497,
+      "grad_norm": 18.863620586743814,
+      "learning_rate": 4.3090443821097566e-07,
+      "logits/chosen": -1.803070306777954,
+      "logits/rejected": -1.5535482168197632,
+      "logps/chosen": -308.82965087890625,
+      "logps/rejected": -382.87445068359375,
+      "loss": 0.5601,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -1.603441596031189,
+      "rewards/margins": 0.7121911644935608,
+      "rewards/rejected": -2.3156330585479736,
       "step": 400
     },
     {
+      "epoch": 0.3263681592039801,
+      "grad_norm": 13.883572516302484,
+      "learning_rate": 4.2603795624364195e-07,
+      "logits/chosen": -1.9973773956298828,
+      "logits/rejected": -1.4498814344406128,
+      "logps/chosen": -357.13763427734375,
+      "logps/rejected": -393.8042907714844,
+      "loss": 0.5601,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -2.0093302726745605,
+      "rewards/margins": 0.6177257299423218,
+      "rewards/rejected": -2.6270556449890137,
+      "step": 410
+    },
+    {
+      "epoch": 0.33432835820895523,
+      "grad_norm": 16.354917835389568,
+      "learning_rate": 4.210354171785795e-07,
+      "logits/chosen": -1.7048423290252686,
+      "logits/rejected": -1.520613670349121,
+      "logps/chosen": -350.70355224609375,
+      "logps/rejected": -406.6918029785156,
+      "loss": 0.5501,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -2.1793723106384277,
+      "rewards/margins": 0.4814273416996002,
+      "rewards/rejected": -2.660799741744995,
+      "step": 420
+    },
+    {
+      "epoch": 0.34228855721393037,
+      "grad_norm": 15.11823770980584,
+      "learning_rate": 4.15900687403248e-07,
+      "logits/chosen": -1.8165044784545898,
+      "logits/rejected": -1.512001872062683,
+      "logps/chosen": -351.67706298828125,
+      "logps/rejected": -398.6982116699219,
+      "loss": 0.5579,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -1.9194176197052002,
+      "rewards/margins": 0.5377460718154907,
+      "rewards/rejected": -2.4571633338928223,
+      "step": 430
+    },
+    {
+      "epoch": 0.3502487562189055,
+      "grad_norm": 14.824412259935942,
+      "learning_rate": 4.1063773547332584e-07,
+      "logits/chosen": -2.048107862472534,
+      "logits/rejected": -1.8060747385025024,
+      "logps/chosen": -311.2574462890625,
+      "logps/rejected": -372.2284240722656,
+      "loss": 0.5602,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -1.580950379371643,
+      "rewards/margins": 0.6271029114723206,
+      "rewards/rejected": -2.2080533504486084,
+      "step": 440
+    },
+    {
+      "epoch": 0.3582089552238806,
+      "grad_norm": 17.525653455798285,
+      "learning_rate": 4.0525062904547276e-07,
+      "logits/chosen": -1.958742380142212,
+      "logits/rejected": -1.3642756938934326,
+      "logps/chosen": -334.4582824707031,
+      "logps/rejected": -390.8046875,
+      "loss": 0.5462,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.877528429031372,
+      "rewards/margins": 0.6928645372390747,
+      "rewards/rejected": -2.5703933238983154,
+      "step": 450
+    },
+    {
+      "epoch": 0.3661691542288557,
+      "grad_norm": 16.688451846975745,
+      "learning_rate": 3.997435317334988e-07,
+      "logits/chosen": -1.9058139324188232,
+      "logits/rejected": -1.5897517204284668,
+      "logps/chosen": -351.8033752441406,
+      "logps/rejected": -405.9495544433594,
+      "loss": 0.5562,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.860612154006958,
+      "rewards/margins": 0.639590859413147,
+      "rewards/rejected": -2.5002028942108154,
+      "step": 460
+    },
+    {
+      "epoch": 0.37412935323383084,
+      "grad_norm": 16.36630647240935,
+      "learning_rate": 3.941206998903701e-07,
+      "logits/chosen": -1.9422454833984375,
+      "logits/rejected": -1.6349403858184814,
+      "logps/chosen": -327.41119384765625,
+      "logps/rejected": -375.36102294921875,
+      "loss": 0.5597,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.7558162212371826,
+      "rewards/margins": 0.5030372738838196,
+      "rewards/rejected": -2.2588534355163574,
+      "step": 470
+    },
+    {
+      "epoch": 0.382089552238806,
+      "grad_norm": 18.336351088486346,
+      "learning_rate": 3.8838647931853684e-07,
+      "logits/chosen": -1.7614314556121826,
+      "logits/rejected": -1.5050185918807983,
+      "logps/chosen": -329.1768798828125,
+      "logps/rejected": -407.611328125,
+      "loss": 0.546,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -1.9475609064102173,
+      "rewards/margins": 0.7653089761734009,
+      "rewards/rejected": -2.712869882583618,
+      "step": 480
+    },
+    {
+      "epoch": 0.3900497512437811,
+      "grad_norm": 14.526089578492307,
+      "learning_rate": 3.825453019111281e-07,
+      "logits/chosen": -1.854347825050354,
+      "logits/rejected": -1.477128028869629,
+      "logps/chosen": -344.77587890625,
+      "logps/rejected": -422.0589294433594,
+      "loss": 0.5412,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.9149529933929443,
+      "rewards/margins": 0.7679746747016907,
+      "rewards/rejected": -2.6829276084899902,
+      "step": 490
+    },
+    {
+      "epoch": 0.39800995024875624,
+      "grad_norm": 21.279411516585405,
+      "learning_rate": 3.7660168222660824e-07,
+      "logits/chosen": -1.9854710102081299,
+      "logits/rejected": -1.706412672996521,
+      "logps/chosen": -314.8876953125,
+      "logps/rejected": -394.66925048828125,
+      "loss": 0.5304,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.6202218532562256,
+      "rewards/margins": 0.7936272621154785,
+      "rewards/rejected": -2.413848876953125,
+      "step": 500
+    },
+    {
+      "epoch": 0.4059701492537313,
+      "grad_norm": 18.371143169851667,
+      "learning_rate": 3.705602139995416e-07,
+      "logits/chosen": -2.0707178115844727,
+      "logits/rejected": -1.6669524908065796,
+      "logps/chosen": -296.0068359375,
+      "logps/rejected": -350.65704345703125,
+      "loss": 0.5757,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.597426414489746,
+      "rewards/margins": 0.5844928026199341,
+      "rewards/rejected": -2.1819193363189697,
+      "step": 510
+    },
+    {
+      "epoch": 0.41393034825870645,
+      "grad_norm": 13.765263633877712,
+      "learning_rate": 3.6442556659016475e-07,
+      "logits/chosen": -2.2126479148864746,
+      "logits/rejected": -1.9664087295532227,
+      "logps/chosen": -298.197509765625,
+      "logps/rejected": -359.9577331542969,
+      "loss": 0.5426,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.5804378986358643,
+      "rewards/margins": 0.6014927625656128,
+      "rewards/rejected": -2.1819307804107666,
+      "step": 520
+    },
+    {
+      "epoch": 0.4218905472636816,
+      "grad_norm": 18.995220185419754,
+      "learning_rate": 3.582024813755076e-07,
+      "logits/chosen": -1.9249904155731201,
+      "logits/rejected": -1.5814507007598877,
+      "logps/chosen": -343.10919189453125,
+      "logps/rejected": -379.06683349609375,
+      "loss": 0.5501,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -1.8100788593292236,
+      "rewards/margins": 0.5825816988945007,
+      "rewards/rejected": -2.392660617828369,
+      "step": 530
+    },
+    {
+      "epoch": 0.4298507462686567,
+      "grad_norm": 17.75911940444921,
+      "learning_rate": 3.5189576808485404e-07,
+      "logits/chosen": -1.8188612461090088,
+      "logits/rejected": -1.5995066165924072,
+      "logps/chosen": -329.63861083984375,
+      "logps/rejected": -399.28631591796875,
+      "loss": 0.5567,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.9467417001724243,
+      "rewards/margins": 0.6499906778335571,
+      "rewards/rejected": -2.5967321395874023,
+      "step": 540
+    },
+    {
+      "epoch": 0.43781094527363185,
+      "grad_norm": 20.774910187785334,
+      "learning_rate": 3.4551030108237433e-07,
+      "logits/chosen": -2.104665994644165,
+      "logits/rejected": -1.6698726415634155,
+      "logps/chosen": -325.890869140625,
+      "logps/rejected": -385.27838134765625,
+      "loss": 0.5517,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.6647937297821045,
+      "rewards/margins": 0.7040282487869263,
+      "rewards/rejected": -2.3688220977783203,
+      "step": 550
+    },
+    {
+      "epoch": 0.445771144278607,
+      "grad_norm": 20.43210579616367,
+      "learning_rate": 3.390510155998023e-07,
+      "logits/chosen": -2.038442611694336,
+      "logits/rejected": -1.6438343524932861,
+      "logps/chosen": -325.3457946777344,
+      "logps/rejected": -397.16790771484375,
+      "loss": 0.5347,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.7963489294052124,
+      "rewards/margins": 0.6992012858390808,
+      "rewards/rejected": -2.4955506324768066,
+      "step": 560
+    },
+    {
+      "epoch": 0.4537313432835821,
+      "grad_norm": 18.83338554622648,
+      "learning_rate": 3.325229039220684e-07,
+      "logits/chosen": -2.120060682296753,
+      "logits/rejected": -1.6965103149414062,
+      "logps/chosen": -326.96197509765625,
+      "logps/rejected": -418.3592834472656,
+      "loss": 0.5631,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.686519980430603,
+      "rewards/margins": 0.8552719354629517,
+      "rewards/rejected": -2.541792154312134,
+      "step": 570
+    },
+    {
+      "epoch": 0.4616915422885572,
+      "grad_norm": 15.616564617549583,
+      "learning_rate": 3.2593101152883795e-07,
+      "logits/chosen": -2.0598907470703125,
+      "logits/rejected": -2.0200095176696777,
+      "logps/chosen": -321.26348876953125,
+      "logps/rejected": -392.21337890625,
+      "loss": 0.5639,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -1.8532001972198486,
+      "rewards/margins": 0.5705356001853943,
+      "rewards/rejected": -2.4237358570098877,
+      "step": 580
+    },
+    {
+      "epoch": 0.4696517412935323,
+      "grad_norm": 15.28956399678925,
+      "learning_rate": 3.192804331949349e-07,
+      "logits/chosen": -2.078157901763916,
+      "logits/rejected": -1.7344363927841187,
+      "logps/chosen": -332.84100341796875,
+      "logps/rejected": -405.9479064941406,
+      "loss": 0.5267,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.8422882556915283,
+      "rewards/margins": 0.780554473400116,
+      "rewards/rejected": -2.622842788696289,
+      "step": 590
+    },
+    {
+      "epoch": 0.47761194029850745,
+      "grad_norm": 20.287126580243257,
+      "learning_rate": 3.125763090526674e-07,
+      "logits/chosen": -1.8083003759384155,
+      "logits/rejected": -1.4841382503509521,
+      "logps/chosen": -308.1997985839844,
+      "logps/rejected": -384.129150390625,
+      "loss": 0.5666,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -1.7298943996429443,
+      "rewards/margins": 0.6618615388870239,
+      "rewards/rejected": -2.3917558193206787,
+      "step": 600
+    },
+    {
+      "epoch": 0.4855721393034826,
+      "grad_norm": 15.063154404223198,
+      "learning_rate": 3.0582382061909623e-07,
+      "logits/chosen": -1.9274730682373047,
+      "logits/rejected": -1.7204185724258423,
+      "logps/chosen": -333.6025390625,
+      "logps/rejected": -400.88446044921875,
+      "loss": 0.5437,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.8027238845825195,
+      "rewards/margins": 0.5840314626693726,
+      "rewards/rejected": -2.3867554664611816,
+      "step": 610
+    },
+    {
+      "epoch": 0.4935323383084577,
+      "grad_norm": 15.13264360466539,
+      "learning_rate": 2.9902818679131775e-07,
+      "logits/chosen": -1.9839204549789429,
+      "logits/rejected": -1.7049957513809204,
+      "logps/chosen": -320.3578796386719,
+      "logps/rejected": -402.8902587890625,
+      "loss": 0.5565,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.8458640575408936,
+      "rewards/margins": 0.7623557448387146,
+      "rewards/rejected": -2.608219623565674,
+      "step": 620
+    },
+    {
+      "epoch": 0.5014925373134328,
+      "grad_norm": 18.241658852083088,
+      "learning_rate": 2.921946598128571e-07,
+      "logits/chosen": -1.8552188873291016,
+      "logits/rejected": -1.6487993001937866,
+      "logps/chosen": -320.94561767578125,
+      "logps/rejected": -407.82769775390625,
+      "loss": 0.5333,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -1.7461166381835938,
+      "rewards/margins": 0.7682201266288757,
+      "rewards/rejected": -2.514336585998535,
+      "step": 630
+    },
+    {
+      "epoch": 0.5094527363184079,
+      "grad_norm": 18.48691570398085,
+      "learning_rate": 2.8532852121428733e-07,
+      "logits/chosen": -1.7485021352767944,
+      "logits/rejected": -1.165112018585205,
+      "logps/chosen": -350.9917907714844,
+      "logps/rejected": -418.5997619628906,
+      "loss": 0.5373,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -2.05993914604187,
+      "rewards/margins": 0.7539520263671875,
+      "rewards/rejected": -2.8138911724090576,
+      "step": 640
+    },
+    {
+      "epoch": 0.5174129353233831,
+      "grad_norm": 16.255617080563933,
+      "learning_rate": 2.7843507773121414e-07,
+      "logits/chosen": -1.929992437362671,
+      "logits/rejected": -1.2393519878387451,
+      "logps/chosen": -344.0683898925781,
+      "logps/rejected": -392.7326354980469,
+      "loss": 0.5132,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.9438108205795288,
+      "rewards/margins": 0.6626324653625488,
+      "rewards/rejected": -2.6064436435699463,
+      "step": 650
+    },
+    {
+      "epoch": 0.5253731343283582,
+      "grad_norm": 19.277456544122902,
+      "learning_rate": 2.715196572027789e-07,
+      "logits/chosen": -1.7599384784698486,
+      "logits/rejected": -1.478522777557373,
+      "logps/chosen": -312.7566833496094,
+      "logps/rejected": -391.0369873046875,
+      "loss": 0.5536,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.6669034957885742,
+      "rewards/margins": 0.7611022591590881,
+      "rewards/rejected": -2.4280056953430176,
+      "step": 660
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 17.410375794414502,
+      "learning_rate": 2.645876044538521e-07,
+      "logits/chosen": -1.991127371788025,
+      "logits/rejected": -1.690598726272583,
+      "logps/chosen": -306.1337890625,
+      "logps/rejected": -391.0872802734375,
+      "loss": 0.5555,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -1.585716962814331,
+      "rewards/margins": 0.7589733600616455,
+      "rewards/rejected": -2.3446903228759766,
+      "step": 670
+    },
+    {
+      "epoch": 0.5412935323383085,
+      "grad_norm": 15.825036910316848,
+      "learning_rate": 2.5764427716409815e-07,
+      "logits/chosen": -1.9365549087524414,
+      "logits/rejected": -1.4879454374313354,
+      "logps/chosen": -305.0138854980469,
+      "logps/rejected": -357.05596923828125,
+      "loss": 0.5446,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -1.7255747318267822,
+      "rewards/margins": 0.5652529001235962,
+      "rewards/rejected": -2.2908272743225098,
+      "step": 680
+    },
+    {
+      "epoch": 0.5492537313432836,
+      "grad_norm": 19.97205918760906,
+      "learning_rate": 2.5069504172710494e-07,
+      "logits/chosen": -1.8567272424697876,
+      "logits/rejected": -1.7196296453475952,
+      "logps/chosen": -317.20428466796875,
+      "logps/rejected": -414.39404296875,
+      "loss": 0.5509,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.7734630107879639,
+      "rewards/margins": 0.7310962080955505,
+      "rewards/rejected": -2.50455904006958,
+      "step": 690
+    },
+    {
+      "epoch": 0.5572139303482587,
+      "grad_norm": 23.24991074411631,
+      "learning_rate": 2.4374526910277886e-07,
+      "logits/chosen": -1.976335883140564,
+      "logits/rejected": -1.6772323846817017,
+      "logps/chosen": -334.4820251464844,
+      "logps/rejected": -401.43585205078125,
+      "loss": 0.5486,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.7821439504623413,
+      "rewards/margins": 0.7127203345298767,
+      "rewards/rejected": -2.4948642253875732,
+      "step": 700
+    },
+    {
+      "epoch": 0.5651741293532339,
+      "grad_norm": 18.01899564630511,
+      "learning_rate": 2.368003306662104e-07,
+      "logits/chosen": -1.8737258911132812,
+      "logits/rejected": -1.4357565641403198,
+      "logps/chosen": -350.22772216796875,
+      "logps/rejected": -403.4524841308594,
+      "loss": 0.5471,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -1.8687664270401,
+      "rewards/margins": 0.6295676231384277,
+      "rewards/rejected": -2.4983339309692383,
+      "step": 710
+    },
+    {
+      "epoch": 0.573134328358209,
+      "grad_norm": 24.167230989729408,
+      "learning_rate": 2.2986559405621886e-07,
+      "logits/chosen": -1.8662601709365845,
+      "logits/rejected": -1.612449288368225,
+      "logps/chosen": -298.7684326171875,
+      "logps/rejected": -387.6333312988281,
+      "loss": 0.5546,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -1.6841051578521729,
+      "rewards/margins": 0.712591290473938,
+      "rewards/rejected": -2.3966965675354004,
+      "step": 720
+    },
+    {
+      "epoch": 0.5810945273631841,
+      "grad_norm": 17.64113619581508,
+      "learning_rate": 2.2294641902678443e-07,
+      "logits/chosen": -1.850368857383728,
+      "logits/rejected": -1.5335843563079834,
+      "logps/chosen": -342.439208984375,
+      "logps/rejected": -392.17120361328125,
+      "loss": 0.5178,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -1.8309608697891235,
+      "rewards/margins": 0.5988297462463379,
+      "rewards/rejected": -2.4297900199890137,
+      "step": 730
+    },
+    {
+      "epoch": 0.5890547263681593,
+      "grad_norm": 18.74126586937816,
+      "learning_rate": 2.160481533045751e-07,
+      "logits/chosen": -1.860264778137207,
+      "logits/rejected": -1.3350017070770264,
+      "logps/chosen": -327.9742126464844,
+      "logps/rejected": -388.90789794921875,
+      "loss": 0.5582,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.7639926671981812,
+      "rewards/margins": 0.679111659526825,
+      "rewards/rejected": -2.4431042671203613,
+      "step": 740
+    },
+    {
+      "epoch": 0.5970149253731343,
+      "grad_norm": 17.924098734097832,
+      "learning_rate": 2.0917612845576882e-07,
+      "logits/chosen": -1.8485305309295654,
+      "logits/rejected": -1.4422708749771118,
+      "logps/chosen": -310.1546325683594,
+      "logps/rejected": -376.4947204589844,
+      "loss": 0.5258,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -1.6890716552734375,
+      "rewards/margins": 0.6663106679916382,
+      "rewards/rejected": -2.355382204055786,
+      "step": 750
+    },
+    {
+      "epoch": 0.6049751243781094,
+      "grad_norm": 16.32315826074932,
+      "learning_rate": 2.0233565576536564e-07,
+      "logits/chosen": -1.8351771831512451,
+      "logits/rejected": -1.5401179790496826,
+      "logps/chosen": -319.2179870605469,
+      "logps/rejected": -388.4412536621094,
+      "loss": 0.5637,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.7108579874038696,
+      "rewards/margins": 0.6797488927841187,
+      "rewards/rejected": -2.3906068801879883,
+      "step": 760
+    },
+    {
+      "epoch": 0.6129353233830845,
+      "grad_norm": 15.45028984513974,
+      "learning_rate": 1.9553202213217537e-07,
+      "logits/chosen": -2.024503469467163,
+      "logits/rejected": -1.4444875717163086,
+      "logps/chosen": -284.2763366699219,
+      "logps/rejected": -360.1900939941406,
+      "loss": 0.5266,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.384358286857605,
+      "rewards/margins": 0.8107110857963562,
+      "rewards/rejected": -2.1950695514678955,
+      "step": 770
+    },
+    {
+      "epoch": 0.6208955223880597,
+      "grad_norm": 20.649664170903453,
+      "learning_rate": 1.887704859826528e-07,
+      "logits/chosen": -1.937726616859436,
+      "logits/rejected": -1.501091718673706,
+      "logps/chosen": -324.5860900878906,
+      "logps/rejected": -393.491943359375,
+      "loss": 0.5384,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.7339260578155518,
+      "rewards/margins": 0.6434067487716675,
+      "rewards/rejected": -2.3773326873779297,
+      "step": 780
+    },
+    {
+      "epoch": 0.6288557213930348,
+      "grad_norm": 21.08511180186782,
+      "learning_rate": 1.8205627320673836e-07,
+      "logits/chosen": -1.6596505641937256,
+      "logits/rejected": -1.2972899675369263,
+      "logps/chosen": -337.11920166015625,
+      "logps/rejected": -406.6131286621094,
+      "loss": 0.5298,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.9775470495224,
+      "rewards/margins": 0.7096458673477173,
+      "rewards/rejected": -2.6871931552886963,
+      "step": 790
+    },
+    {
+      "epoch": 0.6368159203980099,
+      "grad_norm": 17.361400963292194,
+      "learning_rate": 1.7539457311884675e-07,
+      "logits/chosen": -1.6588348150253296,
+      "logits/rejected": -1.1941492557525635,
+      "logps/chosen": -328.57879638671875,
+      "logps/rejected": -394.7569274902344,
+      "loss": 0.5249,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.87433660030365,
+      "rewards/margins": 0.719002366065979,
+      "rewards/rejected": -2.593339204788208,
+      "step": 800
+    },
+    {
+      "epoch": 0.6447761194029851,
+      "grad_norm": 16.182542903518556,
+      "learning_rate": 1.687905344471226e-07,
+      "logits/chosen": -1.7270431518554688,
+      "logits/rejected": -1.6882022619247437,
+      "logps/chosen": -318.8824462890625,
+      "logps/rejected": -387.10113525390625,
+      "loss": 0.5637,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -1.8991286754608154,
+      "rewards/margins": 0.5004085302352905,
+      "rewards/rejected": -2.3995373249053955,
+      "step": 810
+    },
+    {
+      "epoch": 0.6527363184079602,
+      "grad_norm": 16.172059932517488,
+      "learning_rate": 1.6224926135406693e-07,
+      "logits/chosen": -1.9119154214859009,
+      "logits/rejected": -1.4078561067581177,
+      "logps/chosen": -336.28851318359375,
+      "logps/rejected": -399.19146728515625,
+      "loss": 0.5432,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -1.8701921701431274,
+      "rewards/margins": 0.729258120059967,
+      "rewards/rejected": -2.5994503498077393,
+      "step": 820
+    },
+    {
+      "epoch": 0.6606965174129353,
+      "grad_norm": 15.778737810564293,
+      "learning_rate": 1.557758094916053e-07,
+      "logits/chosen": -1.7709137201309204,
+      "logits/rejected": -1.497018814086914,
+      "logps/chosen": -352.27264404296875,
+      "logps/rejected": -433.1822204589844,
+      "loss": 0.5354,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.045311450958252,
+      "rewards/margins": 0.6497110724449158,
+      "rewards/rejected": -2.6950223445892334,
+      "step": 830
+    },
+    {
+      "epoch": 0.6686567164179105,
+      "grad_norm": 16.405494774284087,
+      "learning_rate": 1.4937518209365108e-07,
+      "logits/chosen": -1.7025296688079834,
+      "logits/rejected": -1.1163098812103271,
+      "logps/chosen": -354.352294921875,
+      "logps/rejected": -409.0311279296875,
+      "loss": 0.5527,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.9278078079223633,
+      "rewards/margins": 0.6557299494743347,
+      "rewards/rejected": -2.5835378170013428,
+      "step": 840
+    },
+    {
+      "epoch": 0.6766169154228856,
+      "grad_norm": 22.75535436647274,
+      "learning_rate": 1.4305232610918045e-07,
+      "logits/chosen": -1.7835566997528076,
+      "logits/rejected": -1.3081390857696533,
+      "logps/chosen": -334.17626953125,
+      "logps/rejected": -396.04974365234375,
+      "loss": 0.5598,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.9084104299545288,
+      "rewards/margins": 0.6380718350410461,
+      "rewards/rejected": -2.5464820861816406,
+      "step": 850
+    },
+    {
+      "epoch": 0.6845771144278607,
+      "grad_norm": 16.28637474078457,
+      "learning_rate": 1.3681212837880977e-07,
+      "logits/chosen": -1.7336877584457397,
+      "logits/rejected": -1.3859245777130127,
+      "logps/chosen": -351.1092834472656,
+      "logps/rejected": -402.8192138671875,
+      "loss": 0.5382,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -1.9633920192718506,
+      "rewards/margins": 0.6326353549957275,
+      "rewards/rejected": -2.5960276126861572,
+      "step": 860
+    },
+    {
+      "epoch": 0.6925373134328359,
+      "grad_norm": 14.992190553347786,
+      "learning_rate": 1.3065941185782977e-07,
+      "logits/chosen": -1.6035921573638916,
+      "logits/rejected": -1.390312910079956,
+      "logps/chosen": -338.3635559082031,
+      "logps/rejected": -407.48101806640625,
+      "loss": 0.5465,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -2.1271004676818848,
+      "rewards/margins": 0.5808795690536499,
+      "rewards/rejected": -2.707979679107666,
+      "step": 870
+    },
+    {
+      "epoch": 0.700497512437811,
+      "grad_norm": 18.882701792962603,
+      "learning_rate": 1.2459893188861613e-07,
+      "logits/chosen": -1.7753925323486328,
+      "logits/rejected": -1.313396692276001,
+      "logps/chosen": -328.06280517578125,
+      "logps/rejected": -409.3533020019531,
+      "loss": 0.5378,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.7554057836532593,
+      "rewards/margins": 0.8705118894577026,
+      "rewards/rejected": -2.625917434692383,
+      "step": 880
+    },
+    {
+      "epoch": 0.708457711442786,
+      "grad_norm": 15.585282528531224,
+      "learning_rate": 1.1863537252529548e-07,
+      "logits/chosen": -1.6346286535263062,
+      "logits/rejected": -1.0885813236236572,
+      "logps/chosen": -314.69415283203125,
+      "logps/rejected": -406.14593505859375,
+      "loss": 0.5274,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.7842576503753662,
+      "rewards/margins": 0.8567419052124023,
+      "rewards/rejected": -2.6409995555877686,
+      "step": 890
+    },
+    {
+      "epoch": 0.7164179104477612,
+      "grad_norm": 17.240684758370243,
+      "learning_rate": 1.1277334291351145e-07,
+      "logits/chosen": -1.559463381767273,
+      "logits/rejected": -0.979491114616394,
+      "logps/chosen": -314.4317321777344,
+      "logps/rejected": -395.7962341308594,
+      "loss": 0.5356,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -1.7382938861846924,
+      "rewards/margins": 0.8430318832397461,
+      "rewards/rejected": -2.5813255310058594,
+      "step": 900
+    },
+    {
+      "epoch": 0.7243781094527363,
+      "grad_norm": 17.81287348840895,
+      "learning_rate": 1.0701737372808431e-07,
+      "logits/chosen": -1.356980562210083,
+      "logits/rejected": -1.0851752758026123,
+      "logps/chosen": -321.2406005859375,
+      "logps/rejected": -439.5826110839844,
+      "loss": 0.5266,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -1.7592580318450928,
+      "rewards/margins": 1.1267178058624268,
+      "rewards/rejected": -2.8859758377075195,
+      "step": 910
+    },
+    {
+      "epoch": 0.7323383084577114,
+      "grad_norm": 16.146564583575124,
+      "learning_rate": 1.0137191367132078e-07,
+      "logits/chosen": -1.5627696514129639,
+      "logits/rejected": -0.8526192903518677,
+      "logps/chosen": -343.89093017578125,
+      "logps/rejected": -410.4419860839844,
+      "loss": 0.5202,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -2.032959461212158,
+      "rewards/margins": 0.7283061146736145,
+      "rewards/rejected": -2.761265754699707,
+      "step": 920
+    },
+    {
+      "epoch": 0.7402985074626866,
+      "grad_norm": 16.30781388479682,
+      "learning_rate": 9.584132603467827e-08,
+      "logits/chosen": -1.472614049911499,
+      "logits/rejected": -1.0152631998062134,
+      "logps/chosen": -369.9658203125,
+      "logps/rejected": -457.43280029296875,
+      "loss": 0.5391,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -2.0644240379333496,
+      "rewards/margins": 0.929151177406311,
+      "rewards/rejected": -2.99357533454895,
+      "step": 930
+    },
+    {
+      "epoch": 0.7482587064676617,
+      "grad_norm": 16.90834018386895,
+      "learning_rate": 9.042988532644249e-08,
+      "logits/chosen": -1.397674798965454,
+      "logits/rejected": -1.057903528213501,
+      "logps/chosen": -375.06805419921875,
+      "logps/rejected": -459.8721618652344,
+      "loss": 0.5326,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -2.2227516174316406,
+      "rewards/margins": 0.7576023936271667,
+      "rewards/rejected": -2.980353832244873,
+      "step": 940
+    },
+    {
+      "epoch": 0.7562189054726368,
+      "grad_norm": 19.44454583035634,
+      "learning_rate": 8.514177396802428e-08,
+      "logits/chosen": -1.3311452865600586,
+      "logits/rejected": -0.988301157951355,
+      "logps/chosen": -356.1918640136719,
+      "logps/rejected": -429.5113220214844,
+      "loss": 0.5311,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.1742124557495117,
+      "rewards/margins": 0.7231701612472534,
+      "rewards/rejected": -2.8973822593688965,
+      "step": 950
+    },
+    {
+      "epoch": 0.764179104477612,
+      "grad_norm": 18.789667512348625,
+      "learning_rate": 7.998107906142839e-08,
+      "logits/chosen": -1.2201939821243286,
+      "logits/rejected": -0.8874862790107727,
+      "logps/chosen": -364.1236267089844,
+      "logps/rejected": -449.46466064453125,
+      "loss": 0.5436,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -2.1308789253234863,
+      "rewards/margins": 0.786114513874054,
+      "rewards/rejected": -2.9169933795928955,
+      "step": 960
+    },
+    {
+      "epoch": 0.7721393034825871,
+      "grad_norm": 18.028047538401793,
+      "learning_rate": 7.495178923039396e-08,
+      "logits/chosen": -1.3335978984832764,
+      "logits/rejected": -0.8373553156852722,
+      "logps/chosen": -352.852294921875,
+      "logps/rejected": -425.99853515625,
+      "loss": 0.5323,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -2.04585862159729,
+      "rewards/margins": 0.8074928522109985,
+      "rewards/rejected": -2.853351354598999,
+      "step": 970
+    },
+    {
+      "epoch": 0.7800995024875622,
+      "grad_norm": 19.107873765643053,
+      "learning_rate": 7.005779153764682e-08,
+      "logits/chosen": -1.2632755041122437,
+      "logits/rejected": -1.1477338075637817,
+      "logps/chosen": -362.19293212890625,
+      "logps/rejected": -445.4449157714844,
+      "loss": 0.5212,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -2.2130560874938965,
+      "rewards/margins": 0.6761744618415833,
+      "rewards/rejected": -2.889230728149414,
+      "step": 980
+    },
+    {
+      "epoch": 0.7880597014925373,
+      "grad_norm": 20.371049931041078,
+      "learning_rate": 6.530286848064698e-08,
+      "logits/chosen": -1.2885363101959229,
+      "logits/rejected": -0.6255804896354675,
+      "logps/chosen": -338.9552001953125,
+      "logps/rejected": -428.79931640625,
+      "loss": 0.5195,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -2.0429329872131348,
+      "rewards/margins": 0.9163187146186829,
+      "rewards/rejected": -2.959251880645752,
+      "step": 990
+    },
+    {
+      "epoch": 0.7960199004975125,
+      "grad_norm": 19.72789599453256,
+      "learning_rate": 6.069069506815325e-08,
+      "logits/chosen": -1.360527515411377,
+      "logits/rejected": -0.8227861523628235,
+      "logps/chosen": -373.851318359375,
+      "logps/rejected": -440.9930114746094,
+      "loss": 0.5563,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -2.2749392986297607,
+      "rewards/margins": 0.752488911151886,
+      "rewards/rejected": -3.027428388595581,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8039800995024876,
+      "grad_norm": 17.338627129120006,
+      "learning_rate": 5.6224835979863714e-08,
+      "logits/chosen": -1.377640724182129,
+      "logits/rejected": -0.8697378039360046,
+      "logps/chosen": -388.3387756347656,
+      "logps/rejected": -466.47174072265625,
+      "loss": 0.5397,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -2.309962034225464,
+      "rewards/margins": 0.7413021922111511,
+      "rewards/rejected": -3.0512640476226807,
+      "step": 1010
+    },
+    {
+      "epoch": 0.8119402985074626,
+      "grad_norm": 18.9063759035064,
+      "learning_rate": 5.190874281132851e-08,
+      "logits/chosen": -1.4672131538391113,
+      "logits/rejected": -0.6555231809616089,
+      "logps/chosen": -377.4454650878906,
+      "logps/rejected": -419.4335021972656,
+      "loss": 0.5269,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -2.285759449005127,
+      "rewards/margins": 0.5871948003768921,
+      "rewards/rejected": -2.8729541301727295,
+      "step": 1020
+    },
+    {
+      "epoch": 0.8199004975124378,
+      "grad_norm": 17.93974901514964,
+      "learning_rate": 4.774575140626316e-08,
+      "logits/chosen": -1.227505087852478,
+      "logits/rejected": -0.7521185278892517,
+      "logps/chosen": -379.4794616699219,
+      "logps/rejected": -443.300537109375,
+      "loss": 0.5371,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -2.316551685333252,
+      "rewards/margins": 0.7855070233345032,
+      "rewards/rejected": -3.1020588874816895,
+      "step": 1030
+    },
+    {
+      "epoch": 0.8278606965174129,
+      "grad_norm": 19.765840382966818,
+      "learning_rate": 4.373907927832513e-08,
+      "logits/chosen": -1.2585428953170776,
+      "logits/rejected": -0.6001216173171997,
+      "logps/chosen": -360.7466125488281,
+      "logps/rejected": -432.0596618652344,
+      "loss": 0.5324,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -2.2043449878692627,
+      "rewards/margins": 0.739472508430481,
+      "rewards/rejected": -2.943817615509033,
+      "step": 1040
+    },
+    {
+      "epoch": 0.835820895522388,
+      "grad_norm": 16.791397180911105,
+      "learning_rate": 3.9891823124345665e-08,
+      "logits/chosen": -1.595428466796875,
+      "logits/rejected": -0.7433096170425415,
+      "logps/chosen": -372.77667236328125,
+      "logps/rejected": -427.80633544921875,
+      "loss": 0.5419,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -2.052586078643799,
+      "rewards/margins": 0.7817685008049011,
+      "rewards/rejected": -2.834354877471924,
+      "step": 1050
+    },
+    {
+      "epoch": 0.8437810945273632,
+      "grad_norm": 17.099354050242567,
+      "learning_rate": 3.620695643093924e-08,
+      "logits/chosen": -1.0566952228546143,
+      "logits/rejected": -1.0658143758773804,
+      "logps/chosen": -353.5264587402344,
+      "logps/rejected": -453.6097717285156,
+      "loss": 0.5355,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -2.2306525707244873,
+      "rewards/margins": 0.7557250261306763,
+      "rewards/rejected": -2.986377716064453,
+      "step": 1060
+    },
+    {
+      "epoch": 0.8517412935323383,
+      "grad_norm": 17.626047522616386,
+      "learning_rate": 3.268732717634032e-08,
+      "logits/chosen": -1.082467794418335,
+      "logits/rejected": -0.6993826031684875,
+      "logps/chosen": -356.1838073730469,
+      "logps/rejected": -432.0118713378906,
+      "loss": 0.5382,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -2.2437031269073486,
+      "rewards/margins": 0.703085720539093,
+      "rewards/rejected": -2.946788787841797,
+      "step": 1070
+    },
+    {
+      "epoch": 0.8597014925373134,
+      "grad_norm": 18.59186735479471,
+      "learning_rate": 2.9335655629243645e-08,
+      "logits/chosen": -1.294574499130249,
+      "logits/rejected": -0.9409192800521851,
+      "logps/chosen": -375.03857421875,
+      "logps/rejected": -447.16845703125,
+      "loss": 0.5504,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -2.2595221996307373,
+      "rewards/margins": 0.7225955724716187,
+      "rewards/rejected": -2.9821178913116455,
+      "step": 1080
+    },
+    {
+      "epoch": 0.8676616915422886,
+      "grad_norm": 21.397708720247653,
+      "learning_rate": 2.6154532246349476e-08,
+      "logits/chosen": -1.1999056339263916,
+      "logits/rejected": -1.0267088413238525,
+      "logps/chosen": -363.5381164550781,
+      "logps/rejected": -422.05511474609375,
+      "loss": 0.5754,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -2.3281185626983643,
+      "rewards/margins": 0.50066077709198,
+      "rewards/rejected": -2.8287787437438965,
+      "step": 1090
+    },
+    {
+      "epoch": 0.8756218905472637,
+      "grad_norm": 20.052028882501826,
+      "learning_rate": 2.31464156702382e-08,
+      "logits/chosen": -1.3676979541778564,
+      "logits/rejected": -0.5716175436973572,
+      "logps/chosen": -375.810302734375,
+      "logps/rejected": -450.2315979003906,
+      "loss": 0.5262,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -2.2596614360809326,
+      "rewards/margins": 0.835864245891571,
+      "rewards/rejected": -3.0955255031585693,
+      "step": 1100
+    },
+    {
+      "epoch": 0.8835820895522388,
+      "grad_norm": 22.37302428318916,
+      "learning_rate": 2.031363082912252e-08,
+      "logits/chosen": -1.2721402645111084,
+      "logits/rejected": -0.6073659658432007,
+      "logps/chosen": -368.27984619140625,
+      "logps/rejected": -448.68157958984375,
+      "loss": 0.5231,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -2.095541477203369,
+      "rewards/margins": 0.8900821805000305,
+      "rewards/rejected": -2.985623598098755,
+      "step": 1110
+    },
+    {
+      "epoch": 0.891542288557214,
+      "grad_norm": 25.266800229701747,
+      "learning_rate": 1.7658367139945228e-08,
+      "logits/chosen": -1.5140697956085205,
+      "logits/rejected": -0.7945183515548706,
+      "logps/chosen": -384.32269287109375,
+      "logps/rejected": -433.766845703125,
+      "loss": 0.5287,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -2.154731273651123,
+      "rewards/margins": 0.6882571578025818,
+      "rewards/rejected": -2.8429884910583496,
+      "step": 1120
+    },
+    {
+      "epoch": 0.8995024875621891,
+      "grad_norm": 20.62304308306268,
+      "learning_rate": 1.5182676816211632e-08,
+      "logits/chosen": -1.3684704303741455,
+      "logits/rejected": -0.8318718075752258,
+      "logps/chosen": -365.13079833984375,
+      "logps/rejected": -472.0492248535156,
+      "loss": 0.5163,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -2.154531478881836,
+      "rewards/margins": 1.0084809064865112,
+      "rewards/rejected": -3.1630122661590576,
+      "step": 1130
+    },
+    {
+      "epoch": 0.9074626865671642,
+      "grad_norm": 16.335373316417314,
+      "learning_rate": 1.2888473281864597e-08,
+      "logits/chosen": -1.4910027980804443,
+      "logits/rejected": -0.7867361903190613,
+      "logps/chosen": -357.47393798828125,
+      "logps/rejected": -418.6597595214844,
+      "loss": 0.5239,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -2.1304430961608887,
+      "rewards/margins": 0.6699010133743286,
+      "rewards/rejected": -2.8003439903259277,
+      "step": 1140
+    },
+    {
+      "epoch": 0.9154228855721394,
+      "grad_norm": 19.127473957890142,
+      "learning_rate": 1.0777529692427679e-08,
+      "logits/chosen": -1.3886005878448486,
+      "logits/rejected": -1.1176588535308838,
+      "logps/chosen": -361.29595947265625,
+      "logps/rejected": -450.3651428222656,
+      "loss": 0.5321,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -2.1988742351531982,
+      "rewards/margins": 0.7343587279319763,
+      "rewards/rejected": -2.9332327842712402,
+      "step": 1150
+    },
+    {
+      "epoch": 0.9233830845771144,
+      "grad_norm": 18.113861239231703,
+      "learning_rate": 8.851477564560061e-09,
+      "logits/chosen": -1.4955084323883057,
+      "logits/rejected": -1.0137813091278076,
+      "logps/chosen": -344.0810852050781,
+      "logps/rejected": -438.7982482910156,
+      "loss": 0.5534,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -2.007995128631592,
+      "rewards/margins": 0.8483503460884094,
+      "rewards/rejected": -2.8563454151153564,
+      "step": 1160
+    },
+    {
+      "epoch": 0.9313432835820895,
+      "grad_norm": 18.419748638148626,
+      "learning_rate": 7.111805515081531e-09,
+      "logits/chosen": -1.1694109439849854,
+      "logits/rejected": -0.9867475628852844,
+      "logps/chosen": -344.5587158203125,
+      "logps/rejected": -453.9609375,
+      "loss": 0.5216,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -2.174985408782959,
+      "rewards/margins": 0.8908305168151855,
+      "rewards/rejected": -3.0658156871795654,
+      "step": 1170
+    },
+    {
+      "epoch": 0.9393034825870646,
+      "grad_norm": 16.31657411408144,
+      "learning_rate": 5.559858110443016e-09,
+      "logits/chosen": -1.391318440437317,
+      "logits/rejected": -0.968989372253418,
+      "logps/chosen": -338.8396301269531,
+      "logps/rejected": -450.4630432128906,
+      "loss": 0.5101,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -2.04402232170105,
+      "rewards/margins": 0.873876690864563,
+      "rewards/rejected": -2.9178991317749023,
+      "step": 1180
+    },
+    {
+      "epoch": 0.9472636815920398,
+      "grad_norm": 16.213421308211853,
+      "learning_rate": 4.196834827531276e-09,
+      "logits/chosen": -1.3122155666351318,
+      "logits/rejected": -0.727799117565155,
+      "logps/chosen": -363.20123291015625,
+      "logps/rejected": -421.6800231933594,
+      "loss": 0.5223,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -2.240814685821533,
+      "rewards/margins": 0.7033532857894897,
+      "rewards/rejected": -2.9441676139831543,
+      "step": 1190
+    },
+    {
+      "epoch": 0.9552238805970149,
+      "grad_norm": 16.61159163977494,
+      "learning_rate": 3.023789126611137e-09,
+      "logits/chosen": -1.3651138544082642,
+      "logits/rejected": -1.0306357145309448,
+      "logps/chosen": -346.49127197265625,
+      "logps/rejected": -433.2818298339844,
+      "loss": 0.5514,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -2.017871856689453,
+      "rewards/margins": 0.7361677289009094,
+      "rewards/rejected": -2.7540395259857178,
+      "step": 1200
+    },
+    {
+      "epoch": 0.96318407960199,
+      "grad_norm": 19.71446411178462,
+      "learning_rate": 2.041627637121929e-09,
+      "logits/chosen": -1.2996383905410767,
+      "logits/rejected": -0.6256915330886841,
+      "logps/chosen": -358.1094665527344,
+      "logps/rejected": -430.37811279296875,
+      "loss": 0.5558,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -2.246715784072876,
+      "rewards/margins": 0.7623183727264404,
+      "rewards/rejected": -3.0090343952178955,
+      "step": 1210
+    },
+    {
+      "epoch": 0.9711442786069652,
+      "grad_norm": 19.712848729427638,
+      "learning_rate": 1.2511094569571668e-09,
+      "logits/chosen": -1.328294277191162,
+      "logits/rejected": -0.7868885397911072,
+      "logps/chosen": -368.758056640625,
+      "logps/rejected": -458.2462463378906,
+      "loss": 0.5449,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -2.1683990955352783,
+      "rewards/margins": 0.9658330082893372,
+      "rewards/rejected": -3.1342320442199707,
+      "step": 1220
+    },
+    {
+      "epoch": 0.9791044776119403,
+      "grad_norm": 16.725128383172244,
+      "learning_rate": 6.528455657691112e-10,
+      "logits/chosen": -1.339804768562317,
+      "logits/rejected": -0.7188054323196411,
+      "logps/chosen": -367.33935546875,
+      "logps/rejected": -451.83984375,
+      "loss": 0.5116,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -2.153168201446533,
+      "rewards/margins": 0.8999155759811401,
+      "rewards/rejected": -3.053083896636963,
+      "step": 1230
+    },
+    {
+      "epoch": 0.9870646766169154,
+      "grad_norm": 19.596666231596082,
+      "learning_rate": 2.4729835275189016e-10,
+      "logits/chosen": -1.3673975467681885,
+      "logits/rejected": -0.6154208183288574,
+      "logps/chosen": -359.135009765625,
+      "logps/rejected": -439.5702209472656,
+      "loss": 0.543,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -2.121037721633911,
+      "rewards/margins": 0.8869087100028992,
+      "rewards/rejected": -3.007946491241455,
+      "step": 1240
+    },
+    {
+      "epoch": 0.9950248756218906,
+      "grad_norm": 19.08758915029115,
+      "learning_rate": 3.478125926756337e-11,
+      "logits/chosen": -1.2848167419433594,
+      "logits/rejected": -0.7639325261116028,
+      "logps/chosen": -373.97735595703125,
+      "logps/rejected": -479.5267639160156,
+      "loss": 0.5345,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -2.261409044265747,
+      "rewards/margins": 0.9971047639846802,
+      "rewards/rejected": -3.2585136890411377,
+      "step": 1250
+    },
+    {
+      "epoch": 0.9998009950248756,
+      "step": 1256,
       "total_flos": 0.0,
+      "train_loss": 0.56497666932595,
+      "train_runtime": 62670.8183,
+      "train_samples_per_second": 2.566,
+      "train_steps_per_second": 0.02
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1256,
+  "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
   "total_flos": 0.0,
+  "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b277b1feb57ed04289fa7a5826a75f7c9798133781b7de28bcc1e3953a6201f
-size 5944

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e19cc2efde9c9407a03928a56d8f9f4a67e235bc530069812edfde062436b88
+size 6456