Model save

Browse files

Files changed (11) hide show

README.md +10 -9
all_results.json +3 -3
config.json +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
runs/May31_01-11-22_n136-129-074/events.out.tfevents.1717089214.n136-129-074.2749411.0 +2 -2
tokenizer.json +0 -1
train_results.json +3 -3
trainer_state.json +412 -412
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -16,14 +16,14 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.6931
-- Rewards/chosen: -1.7904
-- Rewards/rejected: -1.7904
 - Rewards/accuracies: 0.0
 - Rewards/margins: 0.0
-- Logps/rejected: -157.3674
-- Logps/chosen: -157.3674
-- Logits/rejected: -3.2202
-- Logits/chosen: -3.2202
 ## Model description
@@ -53,15 +53,16 @@ The following hyperparameters were used during training:
 - total_eval_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - num_epochs: 1
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.3573        | 0.29  | 100  | 0.6931          | -2.2646        | -2.2646          | 0.0                | 0.0             | -157.8416      | -157.8416    | -3.2259         | -3.2259       |
-| 0.3184        | 0.57  | 200  | 0.6931          | -1.8023        | -1.8023          | 0.0                | 0.0             | -157.3793      | -157.3793    | -3.2195         | -3.2195       |
-| 0.3594        | 0.86  | 300  | 0.6931          | -1.7904        | -1.7904          | 0.0                | 0.0             | -157.3674      | -157.3674    | -3.2202         | -3.2202       |
 ### Framework versions

 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.6931
+- Rewards/chosen: -1.9201
+- Rewards/rejected: -1.9201
 - Rewards/accuracies: 0.0
 - Rewards/margins: 0.0
+- Logps/rejected: -159.4172
+- Logps/chosen: -159.4172
+- Logits/rejected: -3.2283
+- Logits/chosen: -3.2283
 ## Model description
 - total_eval_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
 - num_epochs: 1
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.3536        | 0.29  | 100  | 0.6931          | -1.3869        | -1.3869          | 0.0                | 0.0             | -158.3509      | -158.3509    | -3.2370         | -3.2370       |
+| 0.3091        | 0.57  | 200  | 0.6931          | -1.8814        | -1.8814          | 0.0                | 0.0             | -159.3398      | -159.3398    | -3.2304         | -3.2304       |
+| 0.3363        | 0.86  | 300  | 0.6931          | -1.9201        | -1.9201          | 0.0                | 0.0             | -159.4172      | -159.4172    | -3.2283         | -3.2283       |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.36299856867109026,
-    "train_runtime": 5294.123,
     "train_samples": 44755,
-    "train_samples_per_second": 8.454,
     "train_steps_per_second": 0.066
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.37015721593584333,
+    "train_runtime": 5302.4484,
     "train_samples": 44755,
+    "train_samples_per_second": 8.44,
     "train_steps_per_second": 0.066
 }

config.json CHANGED Viewed

@@ -20,7 +20,7 @@
   "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.41.1",
   "use_cache": false,
   "vocab_size": 32002
 }

   "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.38.2",
   "use_cache": false,
   "vocab_size": 32002
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d36163549571106621ebac26e38ec0b50cd9e0d81a1c0f2736d167eeed2d940
 size 4943178720

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f8493cd3d8633107f37f766933768b972a71580f90b096571fcc9f7f95e4a96
 size 4943178720

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60f039e2e1484a47443bf956b71679bc1af07034027486d7035fb8ea530cd16f
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f5824ec54fb5bda3f68132a93217d0b800db90a78fb0515b4b723ed929035a3
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:552efc8fed558e148b25650586e753393bf9251331d7541a0c3aa3f226b236d6
 size 4540532728

 version https://git-lfs.github.com/spec/v1
+oid sha256:d89f85d62fe83d0e63f9373321633097e7aab9bbb8ae37954505ffd93eb3af47
 size 4540532728

runs/May31_01-11-22_n136-129-074/events.out.tfevents.1717089214.n136-129-074.2749411.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:275796e5bd929ae6c4f759e110bd7ec0875146360faacbd21a3dd6c334629515
-size 28347

 version https://git-lfs.github.com/spec/v1
+oid sha256:083d5da614984a5ada392826e0cad02ab77a8ccea77830bc83c44603b6d47169
+size 32141

tokenizer.json CHANGED Viewed

@@ -152,7 +152,6 @@
     "end_of_word_suffix": null,
     "fuse_unk": true,
     "byte_fallback": true,
-    "ignore_merges": false,
     "vocab": {
       "<unk>": 0,
       "<s>": 1,

     "end_of_word_suffix": null,
     "fuse_unk": true,
     "byte_fallback": true,
     "vocab": {
       "<unk>": 0,
       "<s>": 1,

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.36299856867109026,
-    "train_runtime": 5294.123,
     "train_samples": 44755,
-    "train_samples_per_second": 8.454,
     "train_steps_per_second": 0.066
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.37015721593584333,
+    "train_runtime": 5302.4484,
     "train_samples": 44755,
+    "train_samples_per_second": 8.44,
     "train_steps_per_second": 0.066
 }

trainer_state.json CHANGED Viewed

@@ -10,8 +10,8 @@
   "log_history": [
     {
       "epoch": 0.0,
-      "grad_norm": 3067.8628948133914,
-      "learning_rate": 4.9998992904271775e-08,
       "logits/chosen": -4.185730934143066,
       "logits/rejected": -4.509836196899414,
       "logps/chosen": -274.000732421875,
@@ -25,584 +25,584 @@
     },
     {
       "epoch": 0.03,
-      "grad_norm": 3330.3974170986107,
-      "learning_rate": 4.9899357349880975e-08,
-      "logits/chosen": -4.211880207061768,
-      "logits/rejected": -4.48573637008667,
-      "logps/chosen": -318.31072998046875,
-      "logps/rejected": -257.18267822265625,
-      "loss": 0.7459,
-      "rewards/accuracies": 0.5625,
-      "rewards/chosen": 0.200405091047287,
-      "rewards/margins": 0.10155472159385681,
-      "rewards/rejected": 0.09885036945343018,
       "step": 10
     },
     {
       "epoch": 0.06,
-      "grad_norm": 2932.727170813642,
-      "learning_rate": 4.959823971496574e-08,
-      "logits/chosen": -4.2464704513549805,
-      "logits/rejected": -4.50115966796875,
-      "logps/chosen": -304.53350830078125,
-      "logps/rejected": -244.1282501220703,
-      "loss": 0.6293,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": 0.7030802965164185,
-      "rewards/margins": 0.6052380800247192,
-      "rewards/rejected": 0.09784229844808578,
       "step": 20
     },
     {
       "epoch": 0.09,
-      "grad_norm": 2159.097276891197,
-      "learning_rate": 4.9099071517396326e-08,
-      "logits/chosen": -4.3018364906311035,
-      "logits/rejected": -4.5636820793151855,
-      "logps/chosen": -305.11822509765625,
-      "logps/rejected": -258.89215087890625,
-      "loss": 0.5093,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": 1.3964869976043701,
-      "rewards/margins": 0.9537334442138672,
-      "rewards/rejected": 0.44275355339050293,
       "step": 30
     },
     {
       "epoch": 0.11,
-      "grad_norm": 2233.10446662558,
-      "learning_rate": 4.8405871765993426e-08,
-      "logits/chosen": -4.304145812988281,
-      "logits/rejected": -4.571420192718506,
-      "logps/chosen": -293.4151916503906,
-      "logps/rejected": -234.4054412841797,
-      "loss": 0.4371,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": 2.119215488433838,
-      "rewards/margins": 1.3193193674087524,
-      "rewards/rejected": 0.7998961806297302,
       "step": 40
     },
     {
       "epoch": 0.14,
-      "grad_norm": 1863.9092640792912,
-      "learning_rate": 4.7524221697560474e-08,
-      "logits/chosen": -4.298985481262207,
-      "logits/rejected": -4.545313835144043,
-      "logps/chosen": -299.71026611328125,
-      "logps/rejected": -252.57339477539062,
-      "loss": 0.4054,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": 3.015381336212158,
-      "rewards/margins": 1.8283360004425049,
-      "rewards/rejected": 1.1870452165603638,
       "step": 50
     },
     {
       "epoch": 0.17,
-      "grad_norm": 1861.0742759245438,
-      "learning_rate": 4.646121984004665e-08,
-      "logits/chosen": -4.3018717765808105,
-      "logits/rejected": -4.5299859046936035,
-      "logps/chosen": -308.25457763671875,
-      "logps/rejected": -261.1996154785156,
-      "loss": 0.3815,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": 3.097055673599243,
-      "rewards/margins": 1.6846046447753906,
-      "rewards/rejected": 1.412451148033142,
       "step": 60
     },
     {
       "epoch": 0.2,
-      "grad_norm": 2083.1341477087894,
-      "learning_rate": 4.522542485937369e-08,
-      "logits/chosen": -4.417206764221191,
-      "logits/rejected": -4.548245429992676,
-      "logps/chosen": -285.4747009277344,
-      "logps/rejected": -236.24136352539062,
-      "loss": 0.3773,
-      "rewards/accuracies": 0.8062499761581421,
-      "rewards/chosen": 3.4294419288635254,
-      "rewards/margins": 2.4485509395599365,
-      "rewards/rejected": 0.9808910489082336,
       "step": 70
     },
     {
       "epoch": 0.23,
-      "grad_norm": 1999.1118673285923,
-      "learning_rate": 4.3826786650090273e-08,
-      "logits/chosen": -4.271725177764893,
-      "logits/rejected": -4.525103569030762,
-      "logps/chosen": -292.2157897949219,
-      "logps/rejected": -239.5623321533203,
-      "loss": 0.3663,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": 3.471898317337036,
-      "rewards/margins": 2.5827386379241943,
-      "rewards/rejected": 0.8891592025756836,
       "step": 80
     },
     {
       "epoch": 0.26,
-      "grad_norm": 1543.0151245523064,
-      "learning_rate": 4.2276566224671614e-08,
-      "logits/chosen": -4.196888446807861,
-      "logits/rejected": -4.430451393127441,
-      "logps/chosen": -303.9364929199219,
-      "logps/rejected": -258.19708251953125,
-      "loss": 0.37,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": 3.6267776489257812,
-      "rewards/margins": 2.5005435943603516,
-      "rewards/rejected": 1.1262344121932983,
       "step": 90
     },
     {
       "epoch": 0.29,
-      "grad_norm": 2558.2358091969077,
-      "learning_rate": 4.058724504646834e-08,
-      "logits/chosen": -4.298203468322754,
-      "logits/rejected": -4.51765251159668,
-      "logps/chosen": -291.99151611328125,
-      "logps/rejected": -240.97909545898438,
-      "loss": 0.3573,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": 3.8364264965057373,
-      "rewards/margins": 2.6143250465393066,
-      "rewards/rejected": 1.2221016883850098,
       "step": 100
     },
     {
       "epoch": 0.29,
-      "eval_logits/chosen": -3.2259409427642822,
-      "eval_logits/rejected": -3.2259409427642822,
-      "eval_logps/chosen": -157.8415985107422,
-      "eval_logps/rejected": -157.8415985107422,
       "eval_loss": 0.6931471824645996,
       "eval_rewards/accuracies": 0.0,
-      "eval_rewards/chosen": -2.2645912170410156,
       "eval_rewards/margins": 0.0,
-      "eval_rewards/rejected": -2.2645912170410156,
-      "eval_runtime": 1.5044,
-      "eval_samples_per_second": 0.665,
-      "eval_steps_per_second": 0.665,
       "step": 100
     },
     {
       "epoch": 0.31,
-      "grad_norm": 2075.8470964199623,
-      "learning_rate": 3.8772424536302564e-08,
-      "logits/chosen": -4.3160247802734375,
-      "logits/rejected": -4.557186126708984,
-      "logps/chosen": -299.556640625,
-      "logps/rejected": -250.2120361328125,
-      "loss": 0.3653,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": 3.8744053840637207,
-      "rewards/margins": 2.781764268875122,
-      "rewards/rejected": 1.0926413536071777,
       "step": 110
     },
     {
       "epoch": 0.34,
-      "grad_norm": 2129.2578794603846,
-      "learning_rate": 3.6846716561824964e-08,
-      "logits/chosen": -4.358242988586426,
-      "logits/rejected": -4.6036834716796875,
-      "logps/chosen": -288.9602966308594,
-      "logps/rejected": -237.98257446289062,
-      "loss": 0.346,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": 3.973881959915161,
-      "rewards/margins": 2.8389506340026855,
-      "rewards/rejected": 1.1349313259124756,
       "step": 120
     },
     {
       "epoch": 0.37,
-      "grad_norm": 1374.3088736284383,
-      "learning_rate": 3.482562579134809e-08,
-      "logits/chosen": -4.360684871673584,
-      "logits/rejected": -4.608490467071533,
-      "logps/chosen": -278.861572265625,
-      "logps/rejected": -218.7367706298828,
-      "loss": 0.3426,
       "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": 3.8384926319122314,
-      "rewards/margins": 2.634833812713623,
-      "rewards/rejected": 1.2036586999893188,
       "step": 130
     },
     {
       "epoch": 0.4,
-      "grad_norm": 1741.7465783603645,
-      "learning_rate": 3.272542485937369e-08,
-      "logits/chosen": -4.276978969573975,
-      "logits/rejected": -4.593733787536621,
-      "logps/chosen": -296.0984191894531,
-      "logps/rejected": -240.01248168945312,
-      "loss": 0.3729,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": 3.785256862640381,
-      "rewards/margins": 2.9941701889038086,
-      "rewards/rejected": 0.79108726978302,
       "step": 140
     },
     {
       "epoch": 0.43,
-      "grad_norm": 1837.7137132104272,
-      "learning_rate": 3.056302334890786e-08,
-      "logits/chosen": -4.245262622833252,
-      "logits/rejected": -4.510401725769043,
-      "logps/chosen": -295.3984680175781,
-      "logps/rejected": -250.73580932617188,
-      "loss": 0.3235,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": 4.011710166931152,
-      "rewards/margins": 3.0462794303894043,
-      "rewards/rejected": 0.9654304385185242,
       "step": 150
     },
     {
       "epoch": 0.46,
-      "grad_norm": 1744.335126050233,
-      "learning_rate": 2.8355831645441387e-08,
-      "logits/chosen": -4.277425765991211,
-      "logits/rejected": -4.570274829864502,
-      "logps/chosen": -296.66839599609375,
-      "logps/rejected": -235.6475372314453,
-      "loss": 0.36,
       "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": 4.259499549865723,
-      "rewards/margins": 3.127065658569336,
-      "rewards/rejected": 1.1324341297149658,
       "step": 160
     },
     {
       "epoch": 0.49,
-      "grad_norm": 1875.319827037545,
-      "learning_rate": 2.6121620758762875e-08,
-      "logits/chosen": -4.229983329772949,
-      "logits/rejected": -4.467092990875244,
-      "logps/chosen": -296.31683349609375,
-      "logps/rejected": -241.3401336669922,
-      "loss": 0.3474,
       "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": 4.343829154968262,
-      "rewards/margins": 3.233609437942505,
-      "rewards/rejected": 1.1102204322814941,
       "step": 170
     },
     {
       "epoch": 0.51,
-      "grad_norm": 2082.5003671787076,
-      "learning_rate": 2.3878379241237133e-08,
-      "logits/chosen": -4.364750862121582,
-      "logits/rejected": -4.597868919372559,
-      "logps/chosen": -285.72869873046875,
-      "logps/rejected": -241.40652465820312,
-      "loss": 0.3417,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": 4.1484293937683105,
-      "rewards/margins": 3.0738511085510254,
-      "rewards/rejected": 1.074578046798706,
       "step": 180
     },
     {
       "epoch": 0.54,
-      "grad_norm": 1597.9774938638957,
-      "learning_rate": 2.164416835455862e-08,
-      "logits/chosen": -4.3281121253967285,
-      "logits/rejected": -4.498069763183594,
-      "logps/chosen": -308.14776611328125,
-      "logps/rejected": -257.7415466308594,
-      "loss": 0.2852,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": 4.146700859069824,
-      "rewards/margins": 3.202249526977539,
-      "rewards/rejected": 0.9444509744644165,
       "step": 190
     },
     {
       "epoch": 0.57,
-      "grad_norm": 1601.8580723204816,
-      "learning_rate": 1.943697665109214e-08,
-      "logits/chosen": -4.358348846435547,
-      "logits/rejected": -4.601215839385986,
-      "logps/chosen": -292.93658447265625,
-      "logps/rejected": -249.59469604492188,
-      "loss": 0.3184,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": 4.194998741149902,
-      "rewards/margins": 2.974621534347534,
-      "rewards/rejected": 1.2203772068023682,
       "step": 200
     },
     {
       "epoch": 0.57,
-      "eval_logits/chosen": -3.2195205688476562,
-      "eval_logits/rejected": -3.2195205688476562,
-      "eval_logps/chosen": -157.37933349609375,
-      "eval_logps/rejected": -157.37933349609375,
       "eval_loss": 0.6931471824645996,
       "eval_rewards/accuracies": 0.0,
-      "eval_rewards/chosen": -1.8023262023925781,
       "eval_rewards/margins": 0.0,
-      "eval_rewards/rejected": -1.8023262023925781,
-      "eval_runtime": 1.4741,
-      "eval_samples_per_second": 0.678,
-      "eval_steps_per_second": 0.678,
       "step": 200
     },
     {
       "epoch": 0.6,
-      "grad_norm": 1818.1510653253358,
-      "learning_rate": 1.7274575140626317e-08,
-      "logits/chosen": -4.293700218200684,
-      "logits/rejected": -4.587708473205566,
-      "logps/chosen": -306.94647216796875,
-      "logps/rejected": -254.83981323242188,
-      "loss": 0.3169,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": 4.274092674255371,
-      "rewards/margins": 3.556690216064453,
-      "rewards/rejected": 0.7174022793769836,
       "step": 210
     },
     {
       "epoch": 0.63,
-      "grad_norm": 2084.9707047014217,
-      "learning_rate": 1.517437420865191e-08,
-      "logits/chosen": -4.2438554763793945,
-      "logits/rejected": -4.590119361877441,
-      "logps/chosen": -297.3277587890625,
-      "logps/rejected": -225.09414672851562,
       "loss": 0.3117,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": 4.186089515686035,
-      "rewards/margins": 3.6873459815979004,
-      "rewards/rejected": 0.4987434446811676,
       "step": 220
     },
     {
       "epoch": 0.66,
-      "grad_norm": 1793.5243127965375,
-      "learning_rate": 1.3153283438175034e-08,
-      "logits/chosen": -4.3719801902771,
-      "logits/rejected": -4.563234806060791,
-      "logps/chosen": -281.373779296875,
-      "logps/rejected": -226.25576782226562,
-      "loss": 0.2879,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": 3.584429979324341,
-      "rewards/margins": 2.8807406425476074,
-      "rewards/rejected": 0.7036892771720886,
       "step": 230
     },
     {
       "epoch": 0.69,
-      "grad_norm": 1621.528952660571,
-      "learning_rate": 1.1227575463697438e-08,
-      "logits/chosen": -4.3936567306518555,
-      "logits/rejected": -4.714280128479004,
-      "logps/chosen": -258.6517639160156,
-      "logps/rejected": -215.28759765625,
-      "loss": 0.3042,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": 3.862626552581787,
-      "rewards/margins": 3.0625431537628174,
-      "rewards/rejected": 0.8000835180282593,
       "step": 240
     },
     {
       "epoch": 0.71,
-      "grad_norm": 2231.5682374793205,
-      "learning_rate": 9.412754953531663e-09,
-      "logits/chosen": -4.34213924407959,
-      "logits/rejected": -4.6162428855896,
-      "logps/chosen": -278.9085388183594,
-      "logps/rejected": -232.6056365966797,
-      "loss": 0.3109,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": 3.6670002937316895,
-      "rewards/margins": 2.8657121658325195,
-      "rewards/rejected": 0.8012881278991699,
       "step": 250
     },
     {
       "epoch": 0.74,
-      "grad_norm": 1668.5476234310504,
-      "learning_rate": 7.723433775328384e-09,
-      "logits/chosen": -4.386145114898682,
-      "logits/rejected": -4.632050037384033,
-      "logps/chosen": -271.8704833984375,
-      "logps/rejected": -240.48257446289062,
-      "loss": 0.3039,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": 3.5878806114196777,
-      "rewards/margins": 2.9320101737976074,
-      "rewards/rejected": 0.6558703184127808,
       "step": 260
     },
     {
       "epoch": 0.77,
-      "grad_norm": 1726.7631750123023,
-      "learning_rate": 6.173213349909728e-09,
-      "logits/chosen": -4.517698764801025,
-      "logits/rejected": -4.687317848205566,
-      "logps/chosen": -273.4754943847656,
-      "logps/rejected": -228.2833709716797,
-      "loss": 0.3356,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": 3.6022744178771973,
-      "rewards/margins": 2.6589503288269043,
-      "rewards/rejected": 0.9433239698410034,
       "step": 270
     },
     {
       "epoch": 0.8,
-      "grad_norm": 1197.1122441391342,
-      "learning_rate": 4.7745751406263165e-09,
-      "logits/chosen": -4.299304008483887,
-      "logits/rejected": -4.589285850524902,
-      "logps/chosen": -274.9901123046875,
-      "logps/rejected": -229.76449584960938,
-      "loss": 0.2791,
-      "rewards/accuracies": 0.893750011920929,
-      "rewards/chosen": 4.094995021820068,
-      "rewards/margins": 3.0975327491760254,
-      "rewards/rejected": 0.997462272644043,
       "step": 280
     },
     {
       "epoch": 0.83,
-      "grad_norm": 2356.4193384705377,
-      "learning_rate": 3.5387801599533474e-09,
-      "logits/chosen": -4.320891857147217,
-      "logits/rejected": -4.508334636688232,
-      "logps/chosen": -282.45013427734375,
-      "logps/rejected": -236.50424194335938,
-      "loss": 0.3316,
-      "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": 4.115664958953857,
-      "rewards/margins": 3.2731566429138184,
-      "rewards/rejected": 0.8425084948539734,
       "step": 290
     },
     {
       "epoch": 0.86,
-      "grad_norm": 1485.14332328563,
-      "learning_rate": 2.475778302439524e-09,
-      "logits/chosen": -4.295617580413818,
-      "logits/rejected": -4.5400543212890625,
-      "logps/chosen": -298.4153137207031,
-      "logps/rejected": -240.1478271484375,
-      "loss": 0.3594,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": 4.416214942932129,
-      "rewards/margins": 3.1984994411468506,
-      "rewards/rejected": 1.2177152633666992,
       "step": 300
     },
     {
       "epoch": 0.86,
-      "eval_logits/chosen": -3.220174551010132,
-      "eval_logits/rejected": -3.220174551010132,
-      "eval_logps/chosen": -157.367431640625,
-      "eval_logps/rejected": -157.367431640625,
       "eval_loss": 0.6931471824645996,
       "eval_rewards/accuracies": 0.0,
-      "eval_rewards/chosen": -1.7904319763183594,
       "eval_rewards/margins": 0.0,
-      "eval_rewards/rejected": -1.7904319763183594,
-      "eval_runtime": 1.47,
-      "eval_samples_per_second": 0.68,
-      "eval_steps_per_second": 0.68,
       "step": 300
     },
     {
       "epoch": 0.89,
-      "grad_norm": 2625.0873445651387,
-      "learning_rate": 1.5941282340065698e-09,
-      "logits/chosen": -4.43851900100708,
-      "logits/rejected": -4.580752372741699,
-      "logps/chosen": -262.37445068359375,
-      "logps/rejected": -226.46572875976562,
-      "loss": 0.3007,
-      "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": 3.741738796234131,
-      "rewards/margins": 2.9144444465637207,
-      "rewards/rejected": 0.8272944688796997,
       "step": 310
     },
     {
       "epoch": 0.91,
-      "grad_norm": 1589.6112135444553,
-      "learning_rate": 9.009284826036689e-10,
-      "logits/chosen": -4.277141094207764,
-      "logits/rejected": -4.5314412117004395,
-      "logps/chosen": -292.65875244140625,
-      "logps/rejected": -243.8509063720703,
-      "loss": 0.3277,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": 4.2250542640686035,
-      "rewards/margins": 3.1320207118988037,
-      "rewards/rejected": 1.093034029006958,
       "step": 320
     },
     {
       "epoch": 0.94,
-      "grad_norm": 2192.855370501752,
-      "learning_rate": 4.017602850342583e-10,
-      "logits/chosen": -4.330888271331787,
-      "logits/rejected": -4.536975383758545,
-      "logps/chosen": -305.5764465332031,
-      "logps/rejected": -252.0467529296875,
-      "loss": 0.3203,
-      "rewards/accuracies": 0.8687499761581421,
-      "rewards/chosen": 4.009243488311768,
-      "rewards/margins": 3.056270122528076,
-      "rewards/rejected": 0.9529730677604675,
       "step": 330
     },
     {
       "epoch": 0.97,
-      "grad_norm": 2158.7231383937637,
-      "learning_rate": 1.0064265011902328e-10,
-      "logits/chosen": -4.319821357727051,
-      "logits/rejected": -4.614516735076904,
-      "logps/chosen": -285.194091796875,
-      "logps/rejected": -227.5124053955078,
-      "loss": 0.3239,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": 3.751185178756714,
-      "rewards/margins": 2.758882522583008,
-      "rewards/rejected": 0.9923027753829956,
       "step": 340
     },
     {
       "epoch": 1.0,
-      "grad_norm": 1350.3403367664616,
       "learning_rate": 0.0,
-      "logits/chosen": -4.290497779846191,
-      "logits/rejected": -4.4949870109558105,
-      "logps/chosen": -291.93768310546875,
-      "logps/rejected": -244.3520965576172,
-      "loss": 0.3142,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": 4.083470344543457,
-      "rewards/margins": 3.2036800384521484,
-      "rewards/rejected": 0.8797903060913086,
       "step": 350
     },
     {
       "epoch": 1.0,
       "step": 350,
       "total_flos": 0.0,
-      "train_loss": 0.36299856867109026,
-      "train_runtime": 5294.123,
-      "train_samples_per_second": 8.454,
       "train_steps_per_second": 0.066
     }
   ],

   "log_history": [
     {
       "epoch": 0.0,
+      "grad_norm": 1533.9529579439338,
+      "learning_rate": 1.4285714285714284e-09,
       "logits/chosen": -4.185730934143066,
       "logits/rejected": -4.509836196899414,
       "logps/chosen": -274.000732421875,
     },
     {
       "epoch": 0.03,
+      "grad_norm": 1798.989663851012,
+      "learning_rate": 1.4285714285714284e-08,
+      "logits/chosen": -4.211680889129639,
+      "logits/rejected": -4.4850640296936035,
+      "logps/chosen": -318.5819091796875,
+      "logps/rejected": -257.2215270996094,
+      "loss": 0.7173,
+      "rewards/accuracies": 0.3888888955116272,
+      "rewards/chosen": -0.03539733216166496,
+      "rewards/margins": -0.0653969869017601,
+      "rewards/rejected": 0.02999965287744999,
       "step": 10
     },
     {
       "epoch": 0.06,
+      "grad_norm": 1668.4002920396833,
+      "learning_rate": 2.857142857142857e-08,
+      "logits/chosen": -4.237612724304199,
+      "logits/rejected": -4.492175102233887,
+      "logps/chosen": -305.21356201171875,
+      "logps/rejected": -244.23391723632812,
+      "loss": 0.7172,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": 0.011527794413268566,
+      "rewards/margins": 0.015434956178069115,
+      "rewards/rejected": -0.003907163627445698,
       "step": 20
     },
     {
       "epoch": 0.09,
+      "grad_norm": 1590.2675307754077,
+      "learning_rate": 4.285714285714285e-08,
+      "logits/chosen": -4.289905548095703,
+      "logits/rejected": -4.550080299377441,
+      "logps/chosen": -306.20733642578125,
+      "logps/rejected": -259.1973571777344,
+      "loss": 0.6742,
+      "rewards/accuracies": 0.581250011920929,
+      "rewards/chosen": 0.15369151532649994,
+      "rewards/margins": 0.08493399620056152,
+      "rewards/rejected": 0.06875751912593842,
       "step": 30
     },
     {
       "epoch": 0.11,
+      "grad_norm": 1234.2347053418307,
+      "learning_rate": 4.996892303047306e-08,
+      "logits/chosen": -4.294736862182617,
+      "logits/rejected": -4.560345649719238,
+      "logps/chosen": -294.7554931640625,
+      "logps/rejected": -234.93032836914062,
+      "loss": 0.5901,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": 0.3894590735435486,
+      "rewards/margins": 0.2519429624080658,
+      "rewards/rejected": 0.1375161111354828,
       "step": 40
     },
     {
       "epoch": 0.14,
+      "grad_norm": 1024.357051064495,
+      "learning_rate": 4.972077065562821e-08,
+      "logits/chosen": -4.300290584564209,
+      "logits/rejected": -4.545838832855225,
+      "logps/chosen": -300.6907043457031,
+      "logps/rejected": -252.9388427734375,
+      "loss": 0.4845,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 1.0174586772918701,
+      "rewards/margins": 0.6066709160804749,
+      "rewards/rejected": 0.41078776121139526,
       "step": 50
     },
     {
       "epoch": 0.17,
+      "grad_norm": 993.3434930666515,
+      "learning_rate": 4.922693215572695e-08,
+      "logits/chosen": -4.309796333312988,
+      "logits/rejected": -4.538843154907227,
+      "logps/chosen": -308.38818359375,
+      "logps/rejected": -261.2379150390625,
+      "loss": 0.4421,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": 1.4816973209381104,
+      "rewards/margins": 0.7946016192436218,
+      "rewards/rejected": 0.6870955228805542,
       "step": 60
     },
     {
       "epoch": 0.2,
+      "grad_norm": 1067.0305947544678,
+      "learning_rate": 4.849231551964771e-08,
+      "logits/chosen": -4.422641277313232,
+      "logits/rejected": -4.553921699523926,
+      "logps/chosen": -285.1670227050781,
+      "logps/rejected": -236.08352661132812,
+      "loss": 0.4036,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": 1.8685623407363892,
+      "rewards/margins": 1.2992055416107178,
+      "rewards/rejected": 0.5693566203117371,
       "step": 70
     },
     {
       "epoch": 0.23,
+      "grad_norm": 1032.775358630634,
+      "learning_rate": 4.7524221697560474e-08,
+      "logits/chosen": -4.270499229431152,
+      "logits/rejected": -4.5226149559021,
+      "logps/chosen": -291.38165283203125,
+      "logps/rejected": -239.2751922607422,
+      "loss": 0.379,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": 2.1530368328094482,
+      "rewards/margins": 1.5649009943008423,
+      "rewards/rejected": 0.5881360769271851,
       "step": 80
     },
     {
       "epoch": 0.26,
+      "grad_norm": 872.5516189664596,
+      "learning_rate": 4.633227204080389e-08,
+      "logits/chosen": -4.196683406829834,
+      "logits/rejected": -4.429889678955078,
+      "logps/chosen": -302.6337890625,
+      "logps/rejected": -257.6473388671875,
+      "loss": 0.3672,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 2.4647421836853027,
+      "rewards/margins": 1.6267496347427368,
+      "rewards/rejected": 0.8379926681518555,
       "step": 90
     },
     {
       "epoch": 0.29,
+      "grad_norm": 1367.4563539236096,
+      "learning_rate": 4.4928312680573064e-08,
+      "logits/chosen": -4.303212642669678,
+      "logits/rejected": -4.523682594299316,
+      "logps/chosen": -290.59271240234375,
+      "logps/rejected": -240.2918701171875,
+      "loss": 0.3536,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": 2.6176071166992188,
+      "rewards/margins": 1.6629337072372437,
+      "rewards/rejected": 0.9546731114387512,
       "step": 100
     },
     {
       "epoch": 0.29,
+      "eval_logits/chosen": -3.2369751930236816,
+      "eval_logits/rejected": -3.2369751930236816,
+      "eval_logps/chosen": -158.35089111328125,
+      "eval_logps/rejected": -158.35089111328125,
       "eval_loss": 0.6931471824645996,
       "eval_rewards/accuracies": 0.0,
+      "eval_rewards/chosen": -1.3869400024414062,
       "eval_rewards/margins": 0.0,
+      "eval_rewards/rejected": -1.3869400024414062,
+      "eval_runtime": 1.4807,
+      "eval_samples_per_second": 0.675,
+      "eval_steps_per_second": 0.675,
       "step": 100
     },
     {
       "epoch": 0.31,
+      "grad_norm": 934.0407259676991,
+      "learning_rate": 4.3326296795745654e-08,
+      "logits/chosen": -4.324947357177734,
+      "logits/rejected": -4.566166400909424,
+      "logps/chosen": -297.800537109375,
+      "logps/rejected": -249.71450805664062,
+      "loss": 0.3471,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": 2.8152554035186768,
+      "rewards/margins": 2.0201711654663086,
+      "rewards/rejected": 0.7950841784477234,
       "step": 110
     },
     {
       "epoch": 0.34,
+      "grad_norm": 1096.418461846408,
+      "learning_rate": 4.1542145939921484e-08,
+      "logits/chosen": -4.368184566497803,
+      "logits/rejected": -4.613701820373535,
+      "logps/chosen": -287.2909851074219,
+      "logps/rejected": -237.5634002685547,
+      "loss": 0.3344,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": 2.821599245071411,
+      "rewards/margins": 2.0445477962493896,
+      "rewards/rejected": 0.7770514488220215,
       "step": 120
     },
     {
       "epoch": 0.37,
+      "grad_norm": 722.1338343165834,
+      "learning_rate": 3.959359180586975e-08,
+      "logits/chosen": -4.369457244873047,
+      "logits/rejected": -4.6166582107543945,
+      "logps/chosen": -277.1622314453125,
+      "logps/rejected": -218.28323364257812,
+      "loss": 0.3351,
       "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": 2.7689156532287598,
+      "rewards/margins": 1.9403083324432373,
+      "rewards/rejected": 0.8286076784133911,
       "step": 130
     },
     {
       "epoch": 0.4,
+      "grad_norm": 854.554160074848,
+      "learning_rate": 3.75e-08,
+      "logits/chosen": -4.2873382568359375,
+      "logits/rejected": -4.604461669921875,
+      "logps/chosen": -294.3111267089844,
+      "logps/rejected": -239.65628051757812,
+      "loss": 0.3544,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": 2.786259174346924,
+      "rewards/margins": 2.21262526512146,
+      "rewards/rejected": 0.5736337900161743,
       "step": 140
     },
     {
       "epoch": 0.43,
+      "grad_norm": 1024.227354138342,
+      "learning_rate": 3.5282177578265295e-08,
+      "logits/chosen": -4.251392364501953,
+      "logits/rejected": -4.515843391418457,
+      "logps/chosen": -293.588623046875,
+      "logps/rejected": -250.3025360107422,
+      "loss": 0.3157,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": 2.910778045654297,
+      "rewards/margins": 2.2114222049713135,
+      "rewards/rejected": 0.6993557810783386,
       "step": 150
     },
     {
       "epoch": 0.46,
+      "grad_norm": 958.7773617526785,
+      "learning_rate": 3.296216625629211e-08,
+      "logits/chosen": -4.2807087898254395,
+      "logits/rejected": -4.571825981140137,
+      "logps/chosen": -294.7529296875,
+      "logps/rejected": -235.1978759765625,
+      "loss": 0.3382,
       "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": 3.0874907970428467,
+      "rewards/margins": 2.296449899673462,
+      "rewards/rejected": 0.7910411953926086,
       "step": 160
     },
     {
       "epoch": 0.49,
+      "grad_norm": 844.9738579712869,
+      "learning_rate": 3.056302334890786e-08,
+      "logits/chosen": -4.230380058288574,
+      "logits/rejected": -4.466236114501953,
+      "logps/chosen": -294.3287658691406,
+      "logps/rejected": -241.07357788085938,
+      "loss": 0.3284,
       "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": 3.165980815887451,
+      "rewards/margins": 2.4775989055633545,
+      "rewards/rejected": 0.6883817911148071,
       "step": 170
     },
     {
       "epoch": 0.51,
+      "grad_norm": 878.602697816289,
+      "learning_rate": 2.8108592616187133e-08,
+      "logits/chosen": -4.364335060119629,
+      "logits/rejected": -4.596997261047363,
+      "logps/chosen": -283.4359130859375,
+      "logps/rejected": -240.91796875,
+      "loss": 0.3163,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 3.220620632171631,
+      "rewards/margins": 2.4390523433685303,
+      "rewards/rejected": 0.7815683484077454,
       "step": 180
     },
     {
       "epoch": 0.54,
+      "grad_norm": 831.8981359537083,
+      "learning_rate": 2.562326729345182e-08,
+      "logits/chosen": -4.325879096984863,
+      "logits/rejected": -4.494770526885986,
+      "logps/chosen": -306.01171875,
+      "logps/rejected": -257.24298095703125,
+      "loss": 0.2864,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 3.1413779258728027,
+      "rewards/margins": 2.4198684692382812,
+      "rewards/rejected": 0.7215089797973633,
       "step": 190
     },
     {
       "epoch": 0.57,
+      "grad_norm": 752.1347907356251,
+      "learning_rate": 2.3131747660339392e-08,
+      "logits/chosen": -4.358603000640869,
+      "logits/rejected": -4.599839687347412,
+      "logps/chosen": -290.7633972167969,
+      "logps/rejected": -249.0517120361328,
+      "loss": 0.3091,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": 3.1841001510620117,
+      "rewards/margins": 2.3024184703826904,
+      "rewards/rejected": 0.8816817998886108,
       "step": 200
     },
     {
       "epoch": 0.57,
+      "eval_logits/chosen": -3.230353832244873,
+      "eval_logits/rejected": -3.230353832244873,
+      "eval_logps/chosen": -159.3397674560547,
+      "eval_logps/rejected": -159.3397674560547,
       "eval_loss": 0.6931471824645996,
       "eval_rewards/accuracies": 0.0,
+      "eval_rewards/chosen": -1.8813800811767578,
       "eval_rewards/margins": 0.0,
+      "eval_rewards/rejected": -1.8813800811767578,
+      "eval_runtime": 1.4678,
+      "eval_samples_per_second": 0.681,
+      "eval_steps_per_second": 0.681,
       "step": 200
     },
     {
       "epoch": 0.6,
+      "grad_norm": 873.0977005391466,
+      "learning_rate": 2.065879555832674e-08,
+      "logits/chosen": -4.293581962585449,
+      "logits/rejected": -4.587343692779541,
+      "logps/chosen": -304.852294921875,
+      "logps/rejected": -254.5345916748047,
+      "loss": 0.3125,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 3.1841378211975098,
+      "rewards/margins": 2.6728169918060303,
+      "rewards/rejected": 0.5113206505775452,
       "step": 210
     },
     {
       "epoch": 0.63,
+      "grad_norm": 896.6576085052702,
+      "learning_rate": 1.8228988296424874e-08,
+      "logits/chosen": -4.245147705078125,
+      "logits/rejected": -4.591282367706299,
+      "logps/chosen": -295.0483703613281,
+      "logps/rejected": -224.8583984375,
       "loss": 0.3117,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 3.232748031616211,
+      "rewards/margins": 2.8655002117156982,
+      "rewards/rejected": 0.367247611284256,
       "step": 220
     },
     {
       "epoch": 0.66,
+      "grad_norm": 896.8048647139675,
+      "learning_rate": 1.5866474390840123e-08,
+      "logits/chosen": -4.371578216552734,
+      "logits/rejected": -4.561336994171143,
+      "logps/chosen": -279.5164489746094,
+      "logps/rejected": -225.96630859375,
+      "loss": 0.2801,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": 2.720884323120117,
+      "rewards/margins": 2.2243082523345947,
+      "rewards/rejected": 0.4965757727622986,
       "step": 230
     },
     {
       "epoch": 0.69,
+      "grad_norm": 794.1572537064102,
+      "learning_rate": 1.3594733566170923e-08,
+      "logits/chosen": -4.393925666809082,
+      "logits/rejected": -4.711283206939697,
+      "logps/chosen": -256.6236877441406,
+      "logps/rejected": -215.0515594482422,
+      "loss": 0.3001,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": 2.945354700088501,
+      "rewards/margins": 2.4272878170013428,
+      "rewards/rejected": 0.5180668830871582,
       "step": 240
     },
     {
       "epoch": 0.71,
+      "grad_norm": 1028.7241893624246,
+      "learning_rate": 1.1436343403356017e-08,
+      "logits/chosen": -4.338345527648926,
+      "logits/rejected": -4.6125383377075195,
+      "logps/chosen": -276.8526611328125,
+      "logps/rejected": -232.35494995117188,
+      "loss": 0.296,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": 2.86142897605896,
+      "rewards/margins": 2.335439443588257,
+      "rewards/rejected": 0.5259896516799927,
       "step": 250
     },
     {
       "epoch": 0.74,
+      "grad_norm": 955.6521893892625,
+      "learning_rate": 9.412754953531663e-09,
+      "logits/chosen": -4.384321212768555,
+      "logits/rejected": -4.630730628967285,
+      "logps/chosen": -269.96063232421875,
+      "logps/rejected": -240.08322143554688,
+      "loss": 0.2927,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": 2.748866558074951,
+      "rewards/margins": 2.221247434616089,
+      "rewards/rejected": 0.5276187658309937,
       "step": 260
     },
     {
       "epoch": 0.77,
+      "grad_norm": 861.1823956058561,
+      "learning_rate": 7.544079547848182e-09,
+      "logits/chosen": -4.517904281616211,
+      "logits/rejected": -4.6855998039245605,
+      "logps/chosen": -271.70074462890625,
+      "logps/rejected": -227.885009765625,
+      "loss": 0.3225,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 2.6885054111480713,
+      "rewards/margins": 2.017667293548584,
+      "rewards/rejected": 0.670837938785553,
       "step": 270
     },
     {
       "epoch": 0.8,
+      "grad_norm": 732.1581791035536,
+      "learning_rate": 5.8488889220255525e-09,
+      "logits/chosen": -4.298913955688477,
+      "logits/rejected": -4.587487697601318,
+      "logps/chosen": -272.83935546875,
+      "logps/rejected": -229.5067596435547,
+      "loss": 0.2873,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": 3.1228713989257812,
+      "rewards/margins": 2.495274066925049,
+      "rewards/rejected": 0.6275972723960876,
       "step": 280
     },
     {
       "epoch": 0.83,
+      "grad_norm": 1125.5972329270946,
+      "learning_rate": 4.344030642100133e-09,
+      "logits/chosen": -4.320634365081787,
+      "logits/rejected": -4.5083842277526855,
+      "logps/chosen": -280.2475280761719,
+      "logps/rejected": -236.018798828125,
+      "loss": 0.3136,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": 3.1591415405273438,
+      "rewards/margins": 2.4951727390289307,
+      "rewards/rejected": 0.6639689207077026,
       "step": 290
     },
     {
       "epoch": 0.86,
+      "grad_norm": 788.6539907080908,
+      "learning_rate": 3.0444606657442835e-09,
+      "logits/chosen": -4.298077583312988,
+      "logits/rejected": -4.541121959686279,
+      "logps/chosen": -296.12176513671875,
+      "logps/rejected": -239.7339324951172,
+      "loss": 0.3363,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": 3.3548855781555176,
+      "rewards/margins": 2.5390803813934326,
+      "rewards/rejected": 0.8158050775527954,
       "step": 300
     },
     {
       "epoch": 0.86,
+      "eval_logits/chosen": -3.2283477783203125,
+      "eval_logits/rejected": -3.2283477783203125,
+      "eval_logps/chosen": -159.417236328125,
+      "eval_logps/rejected": -159.417236328125,
       "eval_loss": 0.6931471824645996,
       "eval_rewards/accuracies": 0.0,
+      "eval_rewards/chosen": -1.9201126098632812,
       "eval_rewards/margins": 0.0,
+      "eval_rewards/rejected": -1.9201126098632812,
+      "eval_runtime": 1.4723,
+      "eval_samples_per_second": 0.679,
+      "eval_steps_per_second": 0.679,
       "step": 300
     },
     {
       "epoch": 0.89,
+      "grad_norm": 1232.483796740804,
+      "learning_rate": 1.9630947032398067e-09,
+      "logits/chosen": -4.439385414123535,
+      "logits/rejected": -4.579739093780518,
+      "logps/chosen": -260.4383850097656,
+      "logps/rejected": -226.1852264404297,
+      "loss": 0.2944,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": 2.838869571685791,
+      "rewards/margins": 2.284980297088623,
+      "rewards/rejected": 0.5538893342018127,
       "step": 310
     },
     {
       "epoch": 0.91,
+      "grad_norm": 734.9918892690486,
+      "learning_rate": 1.1106798553464803e-09,
+      "logits/chosen": -4.274772644042969,
+      "logits/rejected": -4.528196334838867,
+      "logps/chosen": -290.4882507324219,
+      "logps/rejected": -243.47128295898438,
+      "loss": 0.3081,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": 3.197766065597534,
+      "rewards/margins": 2.4614479541778564,
+      "rewards/rejected": 0.7363181114196777,
       "step": 320
     },
     {
       "epoch": 0.94,
+      "grad_norm": 1013.5360319244875,
+      "learning_rate": 4.956878037864043e-10,
+      "logits/chosen": -4.329029083251953,
+      "logits/rejected": -4.53527307510376,
+      "logps/chosen": -303.6526794433594,
+      "logps/rejected": -251.791259765625,
+      "loss": 0.3026,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": 2.9665093421936035,
+      "rewards/margins": 2.3622777462005615,
+      "rewards/rejected": 0.6042317152023315,
       "step": 330
     },
     {
       "epoch": 0.97,
+      "grad_norm": 1029.0631247014248,
+      "learning_rate": 1.2423061586496474e-10,
+      "logits/chosen": -4.317473888397217,
+      "logits/rejected": -4.609925270080566,
+      "logps/chosen": -283.091552734375,
+      "logps/rejected": -227.1355438232422,
+      "loss": 0.3064,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": 2.9268617630004883,
+      "rewards/margins": 2.242302417755127,
+      "rewards/rejected": 0.6845596432685852,
       "step": 340
     },
     {
       "epoch": 1.0,
+      "grad_norm": 657.4804286362323,
       "learning_rate": 0.0,
+      "logits/chosen": -4.288041114807129,
+      "logits/rejected": -4.490693092346191,
+      "logps/chosen": -289.8371887207031,
+      "logps/rejected": -243.97164916992188,
+      "loss": 0.2999,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": 3.091984987258911,
+      "rewards/margins": 2.4618594646453857,
+      "rewards/rejected": 0.6301255226135254,
       "step": 350
     },
     {
       "epoch": 1.0,
       "step": 350,
       "total_flos": 0.0,
+      "train_loss": 0.37015721593584333,
+      "train_runtime": 5302.4484,
+      "train_samples_per_second": 8.44,
       "train_steps_per_second": 0.066
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4cfcdc187e96bc5f72f21240b097691d6a8cdf8d0fcc5ad2fe20f43a43287471
-size 6520

 version https://git-lfs.github.com/spec/v1
+oid sha256:749665d380846ffdd47f0b7ab06064e45e0a2bb2e78deb6e356454a33e729001
+size 6328