Model save

Browse files

Files changed (7) hide show

README.md +10 -10
all_results.json +4 -4
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +191 -191

README.md CHANGED Viewed

@@ -17,15 +17,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2889
-- Rewards/chosen: -0.9091
-- Rewards/rejected: -3.8737
-- Rewards/accuracies: 0.8250
-- Rewards/margins: 2.9646
-- Logps/rejected: -1290.0824
-- Logps/chosen: -656.5975
-- Logits/rejected: -2.9198
-- Logits/chosen: -3.1186
 ## Model description
@@ -62,7 +62,7 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.1851        | 0.53  | 100  | 0.2889          | -0.9091        | -3.8737          | 0.8250             | 2.9646          | -1290.0824     | -656.5975    | -2.9198         | -3.1186       |
 ### Framework versions

 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2503
+- Rewards/chosen: -1.6026
+- Rewards/rejected: -5.5026
+- Rewards/accuracies: 0.8313
+- Rewards/margins: 3.9001
+- Logps/rejected: -1452.9772
+- Logps/chosen: -725.9427
+- Logits/rejected: -2.7934
+- Logits/chosen: -3.0544
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.1645        | 0.53  | 100  | 0.2503          | -1.6026        | -5.5026          | 0.8313             | 3.9001          | -1452.9772     | -725.9427    | -2.7934         | -3.0544       |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.27576306701343967,
-    "train_runtime": 3082.9663,
     "train_samples": 11996,
-    "train_samples_per_second": 3.891,
-    "train_steps_per_second": 0.061
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.2699868052719749,
+    "train_runtime": 2833.2764,
     "train_samples": 11996,
+    "train_samples_per_second": 4.234,
+    "train_steps_per_second": 0.066
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:267f7e96c3a254a09f752a3256ac512b2e248b9cfe7fa3017005c580906977d2
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:eca7a7e2d10da3fc65162096af6021270b1b5deeecc1f58bb27f04941da24365
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:493c8e696fb4bdba9978b1cb053a743fe75c8954129d62aaec43baaa987cd934
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:78281ee40099c3707606330f350cdb85ecb558b99e3d78e52e60a371a73a9d7f
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfc8ff93ae161def1d5859043c3dc04f83ca0519c89c4a8b0f846dd7572f64e8
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b45bed137d92aa903ceaed4637df045bd7b336959148997009a053d184c9ea4
 size 4540516344

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.27576306701343967,
-    "train_runtime": 3082.9663,
     "train_samples": 11996,
-    "train_samples_per_second": 3.891,
-    "train_steps_per_second": 0.061
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.2699868052719749,
+    "train_runtime": 2833.2764,
     "train_samples": 11996,
+    "train_samples_per_second": 4.234,
+    "train_steps_per_second": 0.066
 }

trainer_state.json CHANGED Viewed

@@ -10,7 +10,7 @@
   "log_history": [
     {
       "epoch": 0.01,
-      "grad_norm": 19.110474755913092,
       "learning_rate": 2.6315789473684208e-08,
       "logits/chosen": -2.964515209197998,
       "logits/rejected": -2.865140914916992,
@@ -25,298 +25,298 @@
     },
     {
       "epoch": 0.05,
-      "grad_norm": 18.87772208802828,
       "learning_rate": 2.631578947368421e-07,
-      "logits/chosen": -2.773491859436035,
-      "logits/rejected": -2.7407619953155518,
-      "logps/chosen": -604.6580810546875,
-      "logps/rejected": -1056.211181640625,
-      "loss": 0.6925,
-      "rewards/accuracies": 0.5069444179534912,
-      "rewards/chosen": 0.0016368491342291236,
-      "rewards/margins": 0.001945263589732349,
-      "rewards/rejected": -0.00030841471743769944,
       "step": 10
     },
     {
       "epoch": 0.11,
-      "grad_norm": 19.583298204247857,
       "learning_rate": 4.999562902281866e-07,
-      "logits/chosen": -2.7963502407073975,
-      "logits/rejected": -2.827116012573242,
-      "logps/chosen": -571.3228759765625,
-      "logps/rejected": -971.4885864257812,
-      "loss": 0.675,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": 0.03118445910513401,
-      "rewards/margins": 0.03232298418879509,
-      "rewards/rejected": -0.0011385272955521941,
       "step": 20
     },
     {
       "epoch": 0.16,
-      "grad_norm": 23.803330324477223,
       "learning_rate": 4.947295864744121e-07,
-      "logits/chosen": -2.8588290214538574,
-      "logits/rejected": -2.8853542804718018,
-      "logps/chosen": -529.5823974609375,
-      "logps/rejected": -1093.4755859375,
-      "loss": 0.6299,
       "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": 0.04894017428159714,
-      "rewards/margins": 0.15211351215839386,
-      "rewards/rejected": -0.10317333787679672,
       "step": 30
     },
     {
       "epoch": 0.21,
-      "grad_norm": 73.67534704558324,
       "learning_rate": 4.809698831278217e-07,
-      "logits/chosen": -3.104024648666382,
-      "logits/rejected": -3.1031734943389893,
-      "logps/chosen": -630.6378173828125,
-      "logps/rejected": -1098.404541015625,
-      "loss": 0.5082,
       "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -0.45488986372947693,
-      "rewards/margins": 0.6105720400810242,
-      "rewards/rejected": -1.0654619932174683,
       "step": 40
     },
     {
       "epoch": 0.27,
-      "grad_norm": 70.45752193577601,
       "learning_rate": 4.591569405016049e-07,
-      "logits/chosen": -3.1391983032226562,
-      "logits/rejected": -3.341365098953247,
-      "logps/chosen": -616.8588256835938,
-      "logps/rejected": -1329.1591796875,
-      "loss": 0.3004,
       "rewards/accuracies": 0.856249988079071,
-      "rewards/chosen": -0.7416905164718628,
-      "rewards/margins": 2.4845588207244873,
-      "rewards/rejected": -3.2262492179870605,
       "step": 50
     },
     {
       "epoch": 0.32,
-      "grad_norm": 39.13638850853986,
       "learning_rate": 4.3005131163403164e-07,
-      "logits/chosen": -3.2234439849853516,
-      "logits/rejected": -3.387814998626709,
-      "logps/chosen": -613.5189208984375,
-      "logps/rejected": -1566.4166259765625,
-      "loss": 0.2494,
-      "rewards/accuracies": 0.925000011920929,
-      "rewards/chosen": -0.7437312006950378,
-      "rewards/margins": 4.0797834396362305,
-      "rewards/rejected": -4.823514938354492,
       "step": 60
     },
     {
       "epoch": 0.37,
-      "grad_norm": 64.03359322882075,
       "learning_rate": 3.946678240449515e-07,
-      "logits/chosen": -2.9871840476989746,
-      "logits/rejected": -3.163975715637207,
-      "logps/chosen": -617.3074340820312,
-      "logps/rejected": -1532.427978515625,
-      "loss": 0.2231,
-      "rewards/accuracies": 0.90625,
-      "rewards/chosen": -0.8076885938644409,
-      "rewards/margins": 4.495209693908691,
-      "rewards/rejected": -5.302898406982422,
       "step": 70
     },
     {
       "epoch": 0.43,
-      "grad_norm": 30.339221409943534,
       "learning_rate": 3.5424019569033206e-07,
-      "logits/chosen": -2.9922754764556885,
-      "logits/rejected": -3.0162343978881836,
-      "logps/chosen": -707.5257568359375,
-      "logps/rejected": -1704.016357421875,
-      "loss": 0.2364,
       "rewards/accuracies": 0.9312499761581421,
-      "rewards/chosen": -1.1326261758804321,
-      "rewards/margins": 5.4823126792907715,
-      "rewards/rejected": -6.614939212799072,
       "step": 80
     },
     {
       "epoch": 0.48,
-      "grad_norm": 29.449732213039997,
       "learning_rate": 3.1017801885224326e-07,
-      "logits/chosen": -3.0152523517608643,
-      "logits/rejected": -3.0497183799743652,
-      "logps/chosen": -653.091552734375,
-      "logps/rejected": -1524.4569091796875,
-      "loss": 0.2151,
-      "rewards/accuracies": 0.918749988079071,
-      "rewards/chosen": -0.900044322013855,
-      "rewards/margins": 4.4186201095581055,
-      "rewards/rejected": -5.318665027618408,
       "step": 90
     },
     {
       "epoch": 0.53,
-      "grad_norm": 30.099525435462873,
       "learning_rate": 2.640176118092979e-07,
-      "logits/chosen": -2.930925130844116,
-      "logits/rejected": -3.0645267963409424,
-      "logps/chosen": -727.9111938476562,
-      "logps/rejected": -1594.2391357421875,
-      "loss": 0.1851,
-      "rewards/accuracies": 0.8812500238418579,
-      "rewards/chosen": -0.967258632183075,
-      "rewards/margins": 4.204586505889893,
-      "rewards/rejected": -5.171844482421875,
       "step": 100
     },
     {
       "epoch": 0.53,
-      "eval_logits/chosen": -3.1186375617980957,
-      "eval_logits/rejected": -2.9198145866394043,
-      "eval_logps/chosen": -656.5974731445312,
-      "eval_logps/rejected": -1290.0823974609375,
-      "eval_loss": 0.288867712020874,
-      "eval_rewards/accuracies": 0.824999988079071,
-      "eval_rewards/chosen": -0.9091285467147827,
-      "eval_rewards/margins": 2.96455717086792,
-      "eval_rewards/rejected": -3.873685836791992,
-      "eval_runtime": 78.3784,
-      "eval_samples_per_second": 7.859,
-      "eval_steps_per_second": 0.255,
       "step": 100
     },
     {
       "epoch": 0.59,
-      "grad_norm": 44.578131376508864,
       "learning_rate": 2.1736845194498716e-07,
-      "logits/chosen": -2.9603259563446045,
-      "logits/rejected": -3.03521466255188,
-      "logps/chosen": -594.0872802734375,
-      "logps/rejected": -1612.428466796875,
-      "loss": 0.1691,
       "rewards/accuracies": 0.925000011920929,
-      "rewards/chosen": -0.8532097935676575,
-      "rewards/margins": 5.7642388343811035,
-      "rewards/rejected": -6.6174492835998535,
       "step": 110
     },
     {
       "epoch": 0.64,
-      "grad_norm": 45.452576155560585,
       "learning_rate": 1.718570580135889e-07,
-      "logits/chosen": -2.975057363510132,
-      "logits/rejected": -3.041111707687378,
-      "logps/chosen": -633.195068359375,
-      "logps/rejected": -1821.9937744140625,
-      "loss": 0.1416,
-      "rewards/accuracies": 0.9312499761581421,
-      "rewards/chosen": -1.0681055784225464,
-      "rewards/margins": 6.503140926361084,
-      "rewards/rejected": -7.571246147155762,
       "step": 120
     },
     {
       "epoch": 0.69,
-      "grad_norm": 44.49014668597494,
       "learning_rate": 1.2907027822369005e-07,
-      "logits/chosen": -2.963229179382324,
-      "logits/rejected": -3.067150831222534,
-      "logps/chosen": -721.2030029296875,
-      "logps/rejected": -1949.7958984375,
-      "loss": 0.1515,
-      "rewards/accuracies": 0.918749988079071,
-      "rewards/chosen": -1.216491937637329,
-      "rewards/margins": 7.717434883117676,
-      "rewards/rejected": -8.93392562866211,
       "step": 130
     },
     {
       "epoch": 0.75,
-      "grad_norm": 24.238718650060004,
       "learning_rate": 9.049996151674788e-08,
-      "logits/chosen": -3.040541172027588,
-      "logits/rejected": -3.041283130645752,
-      "logps/chosen": -626.3173828125,
-      "logps/rejected": -1778.029541015625,
-      "loss": 0.185,
-      "rewards/accuracies": 0.9312499761581421,
-      "rewards/chosen": -0.9689780473709106,
-      "rewards/margins": 6.321756362915039,
-      "rewards/rejected": -7.29073429107666,
       "step": 140
     },
     {
       "epoch": 0.8,
-      "grad_norm": 25.38260287029375,
       "learning_rate": 5.74909411901843e-08,
-      "logits/chosen": -2.9344351291656494,
-      "logits/rejected": -2.9482829570770264,
-      "logps/chosen": -602.518798828125,
-      "logps/rejected": -1676.466796875,
-      "loss": 0.141,
-      "rewards/accuracies": 0.96875,
-      "rewards/chosen": -0.8014429807662964,
-      "rewards/margins": 5.64138126373291,
-      "rewards/rejected": -6.442823886871338,
       "step": 150
     },
     {
       "epoch": 0.85,
-      "grad_norm": 37.72257002210603,
       "learning_rate": 3.119414452281158e-08,
-      "logits/chosen": -2.971004009246826,
-      "logits/rejected": -3.0024333000183105,
-      "logps/chosen": -657.559326171875,
-      "logps/rejected": -1856.759033203125,
-      "loss": 0.1321,
-      "rewards/accuracies": 0.9437500238418579,
-      "rewards/chosen": -0.8327785730361938,
-      "rewards/margins": 7.157062530517578,
-      "rewards/rejected": -7.989840507507324,
       "step": 160
     },
     {
       "epoch": 0.91,
-      "grad_norm": 23.531414397024523,
       "learning_rate": 1.2526463331788501e-08,
-      "logits/chosen": -3.06162428855896,
-      "logits/rejected": -2.9571709632873535,
-      "logps/chosen": -637.3997192382812,
-      "logps/rejected": -1728.625732421875,
-      "loss": 0.133,
       "rewards/accuracies": 0.9624999761581421,
-      "rewards/chosen": -0.9682890772819519,
-      "rewards/margins": 6.160744667053223,
-      "rewards/rejected": -7.129033088684082,
       "step": 170
     },
     {
       "epoch": 0.96,
-      "grad_norm": 29.678702291223654,
       "learning_rate": 2.1387846565474044e-09,
-      "logits/chosen": -3.0236430168151855,
-      "logits/rejected": -2.9661448001861572,
-      "logps/chosen": -605.8822021484375,
-      "logps/rejected": -1746.495849609375,
-      "loss": 0.1363,
-      "rewards/accuracies": 0.9312499761581421,
-      "rewards/chosen": -1.0128748416900635,
-      "rewards/margins": 6.32363224029541,
-      "rewards/rejected": -7.3365068435668945,
       "step": 180
     },
     {
       "epoch": 1.0,
       "step": 187,
       "total_flos": 0.0,
-      "train_loss": 0.27576306701343967,
-      "train_runtime": 3082.9663,
-      "train_samples_per_second": 3.891,
-      "train_steps_per_second": 0.061
     }
   ],
   "logging_steps": 10,

   "log_history": [
     {
       "epoch": 0.01,
+      "grad_norm": 19.109572167610484,
       "learning_rate": 2.6315789473684208e-08,
       "logits/chosen": -2.964515209197998,
       "logits/rejected": -2.865140914916992,
     },
     {
       "epoch": 0.05,
+      "grad_norm": 18.895223645335697,
       "learning_rate": 2.631578947368421e-07,
+      "logits/chosen": -2.7736825942993164,
+      "logits/rejected": -2.7408108711242676,
+      "logps/chosen": -604.7006225585938,
+      "logps/rejected": -1056.1942138671875,
+      "loss": 0.6926,
+      "rewards/accuracies": 0.5416666865348816,
+      "rewards/chosen": 0.0012125401990488172,
+      "rewards/margins": 0.001352548599243164,
+      "rewards/rejected": -0.00014000837109051645,
       "step": 10
     },
     {
       "epoch": 0.11,
+      "grad_norm": 19.562748691217283,
       "learning_rate": 4.999562902281866e-07,
+      "logits/chosen": -2.7962822914123535,
+      "logits/rejected": -2.8271851539611816,
+      "logps/chosen": -571.3375854492188,
+      "logps/rejected": -971.5126953125,
+      "loss": 0.6749,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": 0.03103743866086006,
+      "rewards/margins": 0.03241748735308647,
+      "rewards/rejected": -0.0013800484593957663,
       "step": 20
     },
     {
       "epoch": 0.16,
+      "grad_norm": 23.57935669375875,
       "learning_rate": 4.947295864744121e-07,
+      "logits/chosen": -2.859532117843628,
+      "logits/rejected": -2.8859381675720215,
+      "logps/chosen": -529.7252197265625,
+      "logps/rejected": -1093.7412109375,
+      "loss": 0.6296,
       "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": 0.047512348741292953,
+      "rewards/margins": 0.15334269404411316,
+      "rewards/rejected": -0.10583032667636871,
       "step": 30
     },
     {
       "epoch": 0.21,
+      "grad_norm": 74.03794269111636,
       "learning_rate": 4.809698831278217e-07,
+      "logits/chosen": -3.1058590412139893,
+      "logits/rejected": -3.105548143386841,
+      "logps/chosen": -631.2692260742188,
+      "logps/rejected": -1100.1131591796875,
+      "loss": 0.5067,
       "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.4612053334712982,
+      "rewards/margins": 0.6213432550430298,
+      "rewards/rejected": -1.0825484991073608,
       "step": 40
     },
     {
       "epoch": 0.27,
+      "grad_norm": 80.08928437177174,
       "learning_rate": 4.591569405016049e-07,
+      "logits/chosen": -3.1383297443389893,
+      "logits/rejected": -3.338413953781128,
+      "logps/chosen": -614.7294921875,
+      "logps/rejected": -1324.274658203125,
+      "loss": 0.3007,
       "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -0.7203965187072754,
+      "rewards/margins": 2.4570107460021973,
+      "rewards/rejected": -3.1774070262908936,
       "step": 50
     },
     {
       "epoch": 0.32,
+      "grad_norm": 52.8412534701194,
       "learning_rate": 4.3005131163403164e-07,
+      "logits/chosen": -3.232844829559326,
+      "logits/rejected": -3.4020397663116455,
+      "logps/chosen": -607.4974365234375,
+      "logps/rejected": -1571.42578125,
+      "loss": 0.2467,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": -0.6835159063339233,
+      "rewards/margins": 4.190090656280518,
+      "rewards/rejected": -4.8736066818237305,
       "step": 60
     },
     {
       "epoch": 0.37,
+      "grad_norm": 45.803944170508274,
       "learning_rate": 3.946678240449515e-07,
+      "logits/chosen": -3.016165256500244,
+      "logits/rejected": -3.2087910175323486,
+      "logps/chosen": -602.6742553710938,
+      "logps/rejected": -1499.858154296875,
+      "loss": 0.2227,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": -0.6613572239875793,
+      "rewards/margins": 4.315842628479004,
+      "rewards/rejected": -4.977200031280518,
       "step": 70
     },
     {
       "epoch": 0.43,
+      "grad_norm": 33.74568647416123,
       "learning_rate": 3.5424019569033206e-07,
+      "logits/chosen": -2.980517864227295,
+      "logits/rejected": -2.997511863708496,
+      "logps/chosen": -698.8486328125,
+      "logps/rejected": -1709.7763671875,
+      "loss": 0.2216,
       "rewards/accuracies": 0.9312499761581421,
+      "rewards/chosen": -1.0458548069000244,
+      "rewards/margins": 5.626683712005615,
+      "rewards/rejected": -6.672537803649902,
       "step": 80
     },
     {
       "epoch": 0.48,
+      "grad_norm": 32.76518067019826,
       "learning_rate": 3.1017801885224326e-07,
+      "logits/chosen": -3.0111451148986816,
+      "logits/rejected": -3.0090878009796143,
+      "logps/chosen": -650.3148193359375,
+      "logps/rejected": -1498.55419921875,
+      "loss": 0.2021,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -0.8722761869430542,
+      "rewards/margins": 4.187361717224121,
+      "rewards/rejected": -5.059638023376465,
       "step": 90
     },
     {
       "epoch": 0.53,
+      "grad_norm": 64.24324243411806,
       "learning_rate": 2.640176118092979e-07,
+      "logits/chosen": -2.9020493030548096,
+      "logits/rejected": -2.935757875442505,
+      "logps/chosen": -751.5125732421875,
+      "logps/rejected": -1689.5228271484375,
+      "loss": 0.1645,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": -1.2032721042633057,
+      "rewards/margins": 4.921408653259277,
+      "rewards/rejected": -6.124680995941162,
       "step": 100
     },
     {
       "epoch": 0.53,
+      "eval_logits/chosen": -3.0544369220733643,
+      "eval_logits/rejected": -2.793405294418335,
+      "eval_logps/chosen": -725.9426879882812,
+      "eval_logps/rejected": -1452.9771728515625,
+      "eval_loss": 0.25031739473342896,
+      "eval_rewards/accuracies": 0.831250011920929,
+      "eval_rewards/chosen": -1.6025804281234741,
+      "eval_rewards/margins": 3.9000518321990967,
+      "eval_rewards/rejected": -5.502632141113281,
+      "eval_runtime": 65.7537,
+      "eval_samples_per_second": 9.368,
+      "eval_steps_per_second": 0.304,
       "step": 100
     },
     {
       "epoch": 0.59,
+      "grad_norm": 41.59873680369454,
       "learning_rate": 2.1736845194498716e-07,
+      "logits/chosen": -2.9784274101257324,
+      "logits/rejected": -2.980086088180542,
+      "logps/chosen": -600.6064453125,
+      "logps/rejected": -1670.901611328125,
+      "loss": 0.1595,
       "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.918400764465332,
+      "rewards/margins": 6.283780574798584,
+      "rewards/rejected": -7.202181339263916,
       "step": 110
     },
     {
       "epoch": 0.64,
+      "grad_norm": 28.23680644032835,
       "learning_rate": 1.718570580135889e-07,
+      "logits/chosen": -3.0252156257629395,
+      "logits/rejected": -3.080897569656372,
+      "logps/chosen": -611.710693359375,
+      "logps/rejected": -1694.8226318359375,
+      "loss": 0.1391,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -0.8532626032829285,
+      "rewards/margins": 5.446272850036621,
+      "rewards/rejected": -6.299535751342773,
       "step": 120
     },
     {
       "epoch": 0.69,
+      "grad_norm": 40.906944468121836,
       "learning_rate": 1.2907027822369005e-07,
+      "logits/chosen": -2.9933369159698486,
+      "logits/rejected": -3.124406576156616,
+      "logps/chosen": -700.328125,
+      "logps/rejected": -1804.997802734375,
+      "loss": 0.1477,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -1.007743000984192,
+      "rewards/margins": 6.478204250335693,
+      "rewards/rejected": -7.485948085784912,
       "step": 130
     },
     {
       "epoch": 0.75,
+      "grad_norm": 22.754078194499957,
       "learning_rate": 9.049996151674788e-08,
+      "logits/chosen": -3.086073875427246,
+      "logits/rejected": -3.1164612770080566,
+      "logps/chosen": -631.7467651367188,
+      "logps/rejected": -1740.2171630859375,
+      "loss": 0.1821,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -1.0232716798782349,
+      "rewards/margins": 5.889337539672852,
+      "rewards/rejected": -6.912609100341797,
       "step": 140
     },
     {
       "epoch": 0.8,
+      "grad_norm": 20.144359719952234,
       "learning_rate": 5.74909411901843e-08,
+      "logits/chosen": -2.9675424098968506,
+      "logits/rejected": -2.990185499191284,
+      "logps/chosen": -617.1038818359375,
+      "logps/rejected": -1656.051513671875,
+      "loss": 0.1413,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -0.9472934603691101,
+      "rewards/margins": 5.291378974914551,
+      "rewards/rejected": -6.238672733306885,
       "step": 150
     },
     {
       "epoch": 0.85,
+      "grad_norm": 26.642508471840806,
       "learning_rate": 3.119414452281158e-08,
+      "logits/chosen": -2.9869649410247803,
+      "logits/rejected": -3.0431644916534424,
+      "logps/chosen": -662.4171142578125,
+      "logps/rejected": -1831.9390869140625,
+      "loss": 0.1189,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -0.8813556432723999,
+      "rewards/margins": 6.860285758972168,
+      "rewards/rejected": -7.741641044616699,
       "step": 160
     },
     {
       "epoch": 0.91,
+      "grad_norm": 18.842250875900756,
       "learning_rate": 1.2526463331788501e-08,
+      "logits/chosen": -3.083080291748047,
+      "logits/rejected": -2.9783942699432373,
+      "logps/chosen": -638.3408203125,
+      "logps/rejected": -1725.673583984375,
+      "loss": 0.1265,
       "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -0.9777008891105652,
+      "rewards/margins": 6.12181282043457,
+      "rewards/rejected": -7.099513053894043,
       "step": 170
     },
     {
       "epoch": 0.96,
+      "grad_norm": 34.250119439829845,
       "learning_rate": 2.1387846565474044e-09,
+      "logits/chosen": -3.0460267066955566,
+      "logits/rejected": -2.9695019721984863,
+      "logps/chosen": -608.745849609375,
+      "logps/rejected": -1744.884521484375,
+      "loss": 0.1257,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": -1.041512131690979,
+      "rewards/margins": 6.2788825035095215,
+      "rewards/rejected": -7.320394992828369,
       "step": 180
     },
     {
       "epoch": 1.0,
       "step": 187,
       "total_flos": 0.0,
+      "train_loss": 0.2699868052719749,
+      "train_runtime": 2833.2764,
+      "train_samples_per_second": 4.234,
+      "train_steps_per_second": 0.066
     }
   ],
   "logging_steps": 10,