Model save

Browse files

Files changed (9) hide show

README.md +3 -3
all_results.json +6 -7
generation_config.json +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
runs/Jun07_11-44-37_n136-100-194/events.out.tfevents.1717732216.n136-100-194.1436753.0 +2 -2
train_results.json +6 -7
trainer_state.json +257 -209

README.md CHANGED Viewed

@@ -32,7 +32,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 1e-08
 - train_batch_size: 8
 - eval_batch_size: 8
 - seed: 42
@@ -52,7 +52,7 @@ The following hyperparameters were used during training:
 ### Framework versions
-- Transformers 4.41.1
 - Pytorch 2.1.2+cu118
 - Datasets 2.16.1
-- Tokenizers 0.19.1

 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 5e-07
 - train_batch_size: 8
 - eval_batch_size: 8
 - seed: 42
 ### Framework versions
+- Transformers 4.38.2
 - Pytorch 2.1.2+cu118
 - Datasets 2.16.1
+- Tokenizers 0.15.2

all_results.json CHANGED Viewed

@@ -1,9 +1,8 @@
 {
-    "epoch": 0.9984,
-    "total_flos": 0.0,
-    "train_loss": 0.6263951460520426,
-    "train_runtime": 5142.9133,
-    "train_samples": 39942,
-    "train_samples_per_second": 7.766,
-    "train_steps_per_second": 0.03
 }

 {
+    "epoch": 1.0,
+    "train_loss": 0.9975380127246564,
+    "train_runtime": 5482.1546,
+    "train_samples": 49998,
+    "train_samples_per_second": 9.12,
+    "train_steps_per_second": 0.036
 }

generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 32000,
-  "transformers_version": "4.41.1"
 }

   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 32000,
+  "transformers_version": "4.38.2"
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8bc81ae74652460dbdf05d5556e9f657f931cf9d2c5ae6994830076f53da0a2
 size 4943178720

 version https://git-lfs.github.com/spec/v1
+oid sha256:47640a0478f2bcb7154d26393dc9ccd914f431fd8d23c33ec72d35f3d2adafe7
 size 4943178720

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2bb5349fba5d4d2226108e9248d4912b7be3020a89ca7bfc8994b755ff71c92
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:52f69274e88b49d66a73ddb87507cd1bc38954b506db2290b371231064d4f84e
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f49d660d3c13510318d9404e9c4422d8bb01926da8edc3c1ca6ce3b7f11a47a
 size 4540532728

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd5168e074183b468a8f1504e1ee15cf17cb86551434001e60a29c90de0ac2d5
 size 4540532728

runs/Jun07_11-44-37_n136-100-194/events.out.tfevents.1717732216.n136-100-194.1436753.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37d6af240d6b0ad77699957956b3f4a6f758405cab2e8759846659997aca7c35
-size 12331

 version https://git-lfs.github.com/spec/v1
+oid sha256:533a2109507cae2a619e7676a1143322f60bc5df3ca65925183f69a6017d392a
+size 18853

train_results.json CHANGED Viewed

@@ -1,9 +1,8 @@
 {
-    "epoch": 0.9984,
-    "total_flos": 0.0,
-    "train_loss": 0.6263951460520426,
-    "train_runtime": 5142.9133,
-    "train_samples": 39942,
-    "train_samples_per_second": 7.766,
-    "train_steps_per_second": 0.03
 }

 {
+    "epoch": 1.0,
+    "train_loss": 0.9975380127246564,
+    "train_runtime": 5482.1546,
+    "train_samples": 49998,
+    "train_samples_per_second": 9.12,
+    "train_steps_per_second": 0.036
 }

trainer_state.json CHANGED Viewed

@@ -1,22 +1,22 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9984,
   "eval_steps": 500,
-  "global_step": 156,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0064,
-      "grad_norm": 1341.8496030875679,
-      "learning_rate": 6.25e-10,
-      "logits/chosen": -3.9499800205230713,
-      "logits/rejected": -4.237819194793701,
-      "logps/chosen": -300.693115234375,
-      "logps/rejected": -249.96307373046875,
-      "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -24,257 +24,305 @@
       "step": 1
     },
     {
-      "epoch": 0.064,
-      "grad_norm": 1351.1067467304115,
-      "learning_rate": 6.25e-09,
-      "logits/chosen": -4.128900527954102,
-      "logits/rejected": -4.351526260375977,
-      "logps/chosen": -351.4300537109375,
-      "logps/rejected": -308.8679504394531,
-      "loss": 0.7229,
-      "rewards/accuracies": 0.4340277910232544,
-      "rewards/chosen": -0.0018261770019307733,
-      "rewards/margins": -0.04775632172822952,
-      "rewards/rejected": 0.04593014344573021,
       "step": 10
     },
     {
-      "epoch": 0.128,
-      "grad_norm": 1408.8095936894558,
-      "learning_rate": 9.979871469976195e-09,
-      "logits/chosen": -4.194854736328125,
-      "logits/rejected": -4.3817548751831055,
-      "logps/chosen": -335.3293762207031,
-      "logps/rejected": -294.04248046875,
-      "loss": 0.7269,
-      "rewards/accuracies": 0.512499988079071,
-      "rewards/chosen": 0.01136251911520958,
-      "rewards/margins": 0.004810346756130457,
-      "rewards/rejected": 0.0065521723590791225,
       "step": 20
     },
     {
-      "epoch": 0.192,
-      "grad_norm": 1432.0458755805519,
-      "learning_rate": 9.755282581475768e-09,
-      "logits/chosen": -4.23565149307251,
-      "logits/rejected": -4.369490623474121,
-      "logps/chosen": -329.5267028808594,
-      "logps/rejected": -296.1650390625,
-      "loss": 0.7136,
-      "rewards/accuracies": 0.5093749761581421,
-      "rewards/chosen": 0.0647984966635704,
-      "rewards/margins": 0.020466070622205734,
-      "rewards/rejected": 0.04433242976665497,
       "step": 30
     },
     {
-      "epoch": 0.256,
-      "grad_norm": 1362.637677953038,
-      "learning_rate": 9.29224396800933e-09,
-      "logits/chosen": -4.142593860626221,
-      "logits/rejected": -4.344474792480469,
-      "logps/chosen": -333.652587890625,
-      "logps/rejected": -289.78851318359375,
-      "loss": 0.691,
-      "rewards/accuracies": 0.581250011920929,
-      "rewards/chosen": 0.16199079155921936,
-      "rewards/margins": 0.10949220508337021,
-      "rewards/rejected": 0.052498579025268555,
       "step": 40
     },
     {
-      "epoch": 0.32,
-      "grad_norm": 1293.8956896680802,
-      "learning_rate": 8.613974319136958e-09,
-      "logits/chosen": -4.226416110992432,
-      "logits/rejected": -4.406065940856934,
-      "logps/chosen": -334.3558044433594,
-      "logps/rejected": -293.1966552734375,
-      "loss": 0.6734,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": 0.24848651885986328,
-      "rewards/margins": 0.16572698950767517,
-      "rewards/rejected": 0.08275953680276871,
       "step": 50
     },
     {
-      "epoch": 0.384,
-      "grad_norm": 1213.937252280571,
-      "learning_rate": 7.754484907260514e-09,
-      "logits/chosen": -4.241747856140137,
-      "logits/rejected": -4.412692546844482,
-      "logps/chosen": -326.20147705078125,
-      "logps/rejected": -293.2193908691406,
-      "loss": 0.6501,
-      "rewards/accuracies": 0.574999988079071,
-      "rewards/chosen": 0.28125494718551636,
-      "rewards/margins": 0.12699946761131287,
-      "rewards/rejected": 0.1542554497718811,
       "step": 60
     },
     {
-      "epoch": 0.448,
-      "grad_norm": 1168.8702151248158,
-      "learning_rate": 6.756874120406714e-09,
-      "logits/chosen": -4.1678466796875,
-      "logits/rejected": -4.357397556304932,
-      "logps/chosen": -326.0350036621094,
-      "logps/rejected": -290.5421447753906,
-      "loss": 0.6267,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": 0.4029604494571686,
-      "rewards/margins": 0.24430949985980988,
-      "rewards/rejected": 0.1586509495973587,
       "step": 70
     },
     {
-      "epoch": 0.512,
-      "grad_norm": 1195.264190588224,
-      "learning_rate": 5.671166329088278e-09,
-      "logits/chosen": -4.038235187530518,
-      "logits/rejected": -4.326010227203369,
-      "logps/chosen": -352.18646240234375,
-      "logps/rejected": -309.32562255859375,
-      "loss": 0.6092,
-      "rewards/accuracies": 0.690625011920929,
-      "rewards/chosen": 0.5486255288124084,
-      "rewards/margins": 0.3041314482688904,
-      "rewards/rejected": 0.24449411034584045,
       "step": 80
     },
     {
-      "epoch": 0.576,
-      "grad_norm": 1097.5673117468077,
-      "learning_rate": 4.551803455482833e-09,
-      "logits/chosen": -4.168010711669922,
-      "logits/rejected": -4.375750541687012,
-      "logps/chosen": -338.2205505371094,
-      "logps/rejected": -296.5308532714844,
-      "loss": 0.59,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": 0.5563652515411377,
-      "rewards/margins": 0.29324790835380554,
-      "rewards/rejected": 0.263117253780365,
       "step": 90
     },
     {
-      "epoch": 0.64,
-      "grad_norm": 1066.1810496477938,
-      "learning_rate": 3.4549150281252633e-09,
-      "logits/chosen": -4.156978130340576,
-      "logits/rejected": -4.374584197998047,
-      "logps/chosen": -335.9981384277344,
-      "logps/rejected": -287.0412902832031,
-      "loss": 0.5812,
-      "rewards/accuracies": 0.7406250238418579,
-      "rewards/chosen": 0.6475387811660767,
-      "rewards/margins": 0.36960989236831665,
-      "rewards/rejected": 0.2779288589954376,
       "step": 100
     },
     {
-      "epoch": 0.704,
-      "grad_norm": 1155.1395500395697,
-      "learning_rate": 2.43550361297047e-09,
-      "logits/chosen": -4.1374359130859375,
-      "logits/rejected": -4.378481864929199,
-      "logps/chosen": -317.46600341796875,
-      "logps/rejected": -277.5682067871094,
-      "loss": 0.5759,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": 0.7310987710952759,
-      "rewards/margins": 0.3804031014442444,
-      "rewards/rejected": 0.3506956100463867,
       "step": 110
     },
     {
-      "epoch": 0.768,
-      "grad_norm": 1066.5080189058133,
-      "learning_rate": 1.5446867550656768e-09,
-      "logits/chosen": -4.136859893798828,
-      "logits/rejected": -4.3448615074157715,
-      "logps/chosen": -331.464111328125,
-      "logps/rejected": -281.9703674316406,
-      "loss": 0.5683,
-      "rewards/accuracies": 0.715624988079071,
-      "rewards/chosen": 0.7297540903091431,
-      "rewards/margins": 0.37383073568344116,
-      "rewards/rejected": 0.35592326521873474,
       "step": 120
     },
     {
-      "epoch": 0.832,
-      "grad_norm": 1131.6322549220279,
-      "learning_rate": 8.271337313934869e-10,
-      "logits/chosen": -4.222386360168457,
-      "logits/rejected": -4.382724761962891,
-      "logps/chosen": -336.8995666503906,
-      "logps/rejected": -288.167236328125,
-      "loss": 0.5682,
-      "rewards/accuracies": 0.7406250238418579,
-      "rewards/chosen": 0.7898508310317993,
-      "rewards/margins": 0.4281063973903656,
-      "rewards/rejected": 0.3617444634437561,
       "step": 130
     },
     {
-      "epoch": 0.896,
-      "grad_norm": 1132.1867619059146,
-      "learning_rate": 3.18825646801314e-10,
-      "logits/chosen": -4.176682472229004,
-      "logits/rejected": -4.3904242515563965,
-      "logps/chosen": -338.28924560546875,
-      "logps/rejected": -304.8387451171875,
-      "loss": 0.5706,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": 0.6995974183082581,
-      "rewards/margins": 0.34457093477249146,
-      "rewards/rejected": 0.3550264835357666,
       "step": 140
     },
     {
-      "epoch": 0.96,
-      "grad_norm": 1203.6386117758473,
-      "learning_rate": 4.52511911603265e-11,
-      "logits/chosen": -4.113102912902832,
-      "logits/rejected": -4.341179370880127,
-      "logps/chosen": -344.94573974609375,
-      "logps/rejected": -296.61328125,
-      "loss": 0.5703,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": 0.7801700830459595,
-      "rewards/margins": 0.40149813890457153,
-      "rewards/rejected": 0.37867194414138794,
       "step": 150
     },
     {
-      "epoch": 0.9984,
-      "step": 156,
       "total_flos": 0.0,
-      "train_loss": 0.6263951460520426,
-      "train_runtime": 5142.9133,
-      "train_samples_per_second": 7.766,
-      "train_steps_per_second": 0.03
     }
   ],
   "logging_steps": 10,
-  "max_steps": 156,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
-  "stateful_callbacks": {
-    "TrainerControl": {
-      "args": {
-        "should_epoch_stop": false,
-        "should_evaluate": false,
-        "should_log": false,
-        "should_save": true,
-        "should_training_stop": false
-      },
-      "attributes": {}
-    }
-  },
   "total_flos": 0.0,
   "train_batch_size": 8,
   "trial_name": null,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9974424552429667,
   "eval_steps": 500,
+  "global_step": 195,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.01,
+      "grad_norm": 1310.024749740419,
+      "learning_rate": 2.5e-08,
+      "logits/chosen": -5.0504608154296875,
+      "logits/rejected": -5.35328483581543,
+      "logps/chosen": -242.7239990234375,
+      "logps/rejected": -185.90835571289062,
+      "loss": 0.6893,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
       "step": 1
     },
     {
+      "epoch": 0.05,
+      "grad_norm": 1343.8700325036616,
+      "learning_rate": 2.5e-07,
+      "logits/chosen": -4.959235191345215,
+      "logits/rejected": -5.051504135131836,
+      "logps/chosen": -226.43630981445312,
+      "logps/rejected": -216.47547912597656,
+      "loss": 0.7205,
+      "rewards/accuracies": 0.4479166567325592,
+      "rewards/chosen": 0.07974544167518616,
+      "rewards/margins": 0.013408761471509933,
+      "rewards/rejected": 0.06633666902780533,
       "step": 10
     },
     {
+      "epoch": 0.1,
+      "grad_norm": 1443.7667771719773,
+      "learning_rate": 5e-07,
+      "logits/chosen": -4.906929969787598,
+      "logits/rejected": -5.0118937492370605,
+      "logps/chosen": -240.65188598632812,
+      "logps/rejected": -220.84378051757812,
+      "loss": 0.6926,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": 0.7429171204566956,
+      "rewards/margins": 1.1278517246246338,
+      "rewards/rejected": -0.38493460416793823,
       "step": 20
     },
     {
+      "epoch": 0.15,
+      "grad_norm": 1641.6770420153719,
+      "learning_rate": 4.959823971496574e-07,
+      "logits/chosen": -4.913812637329102,
+      "logits/rejected": -5.012935638427734,
+      "logps/chosen": -238.8269805908203,
+      "logps/rejected": -228.05404663085938,
+      "loss": 0.8116,
+      "rewards/accuracies": 0.6343749761581421,
+      "rewards/chosen": 1.8061437606811523,
+      "rewards/margins": 4.523256301879883,
+      "rewards/rejected": -2.7171127796173096,
       "step": 30
     },
     {
+      "epoch": 0.2,
+      "grad_norm": 1382.4291689510926,
+      "learning_rate": 4.840587176599343e-07,
+      "logits/chosen": -4.964416980743408,
+      "logits/rejected": -5.0027852058410645,
+      "logps/chosen": -249.1742706298828,
+      "logps/rejected": -235.87576293945312,
+      "loss": 0.9983,
+      "rewards/accuracies": 0.5531250238418579,
+      "rewards/chosen": 1.3685696125030518,
+      "rewards/margins": 4.053561210632324,
+      "rewards/rejected": -2.6849913597106934,
       "step": 40
     },
     {
+      "epoch": 0.26,
+      "grad_norm": 1428.1508779981239,
+      "learning_rate": 4.646121984004665e-07,
+      "logits/chosen": -4.990395545959473,
+      "logits/rejected": -5.134562015533447,
+      "logps/chosen": -251.7528076171875,
+      "logps/rejected": -226.17306518554688,
+      "loss": 0.9987,
+      "rewards/accuracies": 0.6468750238418579,
+      "rewards/chosen": 2.2698659896850586,
+      "rewards/margins": 5.616934299468994,
+      "rewards/rejected": -3.3470687866210938,
       "step": 50
     },
     {
+      "epoch": 0.31,
+      "grad_norm": 1429.7364912941882,
+      "learning_rate": 4.3826786650090273e-07,
+      "logits/chosen": -5.023388385772705,
+      "logits/rejected": -5.144254684448242,
+      "logps/chosen": -250.6563720703125,
+      "logps/rejected": -241.12484741210938,
+      "loss": 0.993,
+      "rewards/accuracies": 0.5843750238418579,
+      "rewards/chosen": 1.217611312866211,
+      "rewards/margins": 6.1895647048950195,
+      "rewards/rejected": -4.97195291519165,
       "step": 60
     },
     {
+      "epoch": 0.36,
+      "grad_norm": 1385.9054301583744,
+      "learning_rate": 4.058724504646834e-07,
+      "logits/chosen": -4.992190361022949,
+      "logits/rejected": -5.075345039367676,
+      "logps/chosen": -256.97406005859375,
+      "logps/rejected": -242.94003295898438,
+      "loss": 1.1539,
+      "rewards/accuracies": 0.606249988079071,
+      "rewards/chosen": 2.1734097003936768,
+      "rewards/margins": 5.453003883361816,
+      "rewards/rejected": -3.2795944213867188,
       "step": 70
     },
     {
+      "epoch": 0.41,
+      "grad_norm": 1267.3737422156325,
+      "learning_rate": 3.6846716561824967e-07,
+      "logits/chosen": -5.066686630249023,
+      "logits/rejected": -5.165375709533691,
+      "logps/chosen": -246.781982421875,
+      "logps/rejected": -232.3020477294922,
+      "loss": 1.1127,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": 2.182149887084961,
+      "rewards/margins": 6.110042095184326,
+      "rewards/rejected": -3.927891492843628,
       "step": 80
     },
     {
+      "epoch": 0.46,
+      "grad_norm": 1414.9882610729042,
+      "learning_rate": 3.272542485937368e-07,
+      "logits/chosen": -5.056512355804443,
+      "logits/rejected": -5.19997501373291,
+      "logps/chosen": -236.23886108398438,
+      "logps/rejected": -219.4969940185547,
+      "loss": 1.1651,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 2.3071811199188232,
+      "rewards/margins": 4.593169212341309,
+      "rewards/rejected": -2.2859878540039062,
       "step": 90
     },
     {
+      "epoch": 0.51,
+      "grad_norm": 1730.7459110414102,
+      "learning_rate": 2.8355831645441387e-07,
+      "logits/chosen": -5.051321506500244,
+      "logits/rejected": -5.197503089904785,
+      "logps/chosen": -245.94680786132812,
+      "logps/rejected": -224.7979278564453,
+      "loss": 1.1049,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": 2.0447471141815186,
+      "rewards/margins": 3.989384412765503,
+      "rewards/rejected": -1.9446370601654053,
       "step": 100
     },
     {
+      "epoch": 0.56,
+      "grad_norm": 1376.721155787266,
+      "learning_rate": 2.3878379241237134e-07,
+      "logits/chosen": -5.05279541015625,
+      "logits/rejected": -5.2380499839782715,
+      "logps/chosen": -231.46408081054688,
+      "logps/rejected": -221.2686309814453,
+      "loss": 1.0653,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": 2.9433412551879883,
+      "rewards/margins": 7.433489799499512,
+      "rewards/rejected": -4.490148544311523,
       "step": 110
     },
     {
+      "epoch": 0.61,
+      "grad_norm": 1298.5481767381427,
+      "learning_rate": 1.9436976651092142e-07,
+      "logits/chosen": -4.989577293395996,
+      "logits/rejected": -5.143449306488037,
+      "logps/chosen": -250.3534698486328,
+      "logps/rejected": -237.04074096679688,
+      "loss": 1.0694,
+      "rewards/accuracies": 0.6343749761581421,
+      "rewards/chosen": 2.3243861198425293,
+      "rewards/margins": 8.470600128173828,
+      "rewards/rejected": -6.146214485168457,
       "step": 120
     },
     {
+      "epoch": 0.66,
+      "grad_norm": 1456.9702892975145,
+      "learning_rate": 1.517437420865191e-07,
+      "logits/chosen": -5.036610126495361,
+      "logits/rejected": -5.181552886962891,
+      "logps/chosen": -234.2519073486328,
+      "logps/rejected": -226.05050659179688,
+      "loss": 1.1374,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": 2.612969160079956,
+      "rewards/margins": 6.129396915435791,
+      "rewards/rejected": -3.516427516937256,
       "step": 130
     },
     {
+      "epoch": 0.72,
+      "grad_norm": 1414.11944634508,
+      "learning_rate": 1.1227575463697439e-07,
+      "logits/chosen": -5.011117458343506,
+      "logits/rejected": -5.0677995681762695,
+      "logps/chosen": -246.2405242919922,
+      "logps/rejected": -240.97647094726562,
+      "loss": 1.0012,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 2.1312901973724365,
+      "rewards/margins": 6.49268102645874,
+      "rewards/rejected": -4.361390590667725,
       "step": 140
     },
     {
+      "epoch": 0.77,
+      "grad_norm": 1391.6252979817953,
+      "learning_rate": 7.723433775328384e-08,
+      "logits/chosen": -5.031737327575684,
+      "logits/rejected": -5.141982078552246,
+      "logps/chosen": -247.31640625,
+      "logps/rejected": -245.01284790039062,
+      "loss": 1.0468,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": 3.413778781890869,
+      "rewards/margins": 8.60617446899414,
+      "rewards/rejected": -5.19239616394043,
       "step": 150
     },
     {
+      "epoch": 0.82,
+      "grad_norm": 1305.4800329449993,
+      "learning_rate": 4.774575140626316e-08,
+      "logits/chosen": -4.959289073944092,
+      "logits/rejected": -5.040767192840576,
+      "logps/chosen": -253.7027587890625,
+      "logps/rejected": -250.91659545898438,
+      "loss": 0.9992,
+      "rewards/accuracies": 0.6781250238418579,
+      "rewards/chosen": 3.046278476715088,
+      "rewards/margins": 8.344175338745117,
+      "rewards/rejected": -5.297896862030029,
+      "step": 160
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 1228.1104796269808,
+      "learning_rate": 2.475778302439524e-08,
+      "logits/chosen": -5.096159934997559,
+      "logits/rejected": -5.178959369659424,
+      "logps/chosen": -251.2628631591797,
+      "logps/rejected": -233.06857299804688,
+      "loss": 1.0057,
+      "rewards/accuracies": 0.5843750238418579,
+      "rewards/chosen": 2.824694871902466,
+      "rewards/margins": 6.200740814208984,
+      "rewards/rejected": -3.3760459423065186,
+      "step": 170
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 1348.827014256151,
+      "learning_rate": 9.009284826036689e-09,
+      "logits/chosen": -4.995651721954346,
+      "logits/rejected": -5.102165222167969,
+      "logps/chosen": -237.61990356445312,
+      "logps/rejected": -232.7886962890625,
+      "loss": 0.9321,
+      "rewards/accuracies": 0.659375011920929,
+      "rewards/chosen": 2.423119068145752,
+      "rewards/margins": 4.8792009353637695,
+      "rewards/rejected": -2.4560813903808594,
+      "step": 180
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 1117.1672982866971,
+      "learning_rate": 1.0064265011902328e-09,
+      "logits/chosen": -5.071808815002441,
+      "logits/rejected": -5.110179901123047,
+      "logps/chosen": -236.14224243164062,
+      "logps/rejected": -233.5693359375,
+      "loss": 0.9891,
+      "rewards/accuracies": 0.640625,
+      "rewards/chosen": 1.8652112483978271,
+      "rewards/margins": 5.820201873779297,
+      "rewards/rejected": -3.9549899101257324,
+      "step": 190
+    },
+    {
+      "epoch": 1.0,
+      "step": 195,
       "total_flos": 0.0,
+      "train_loss": 0.9975380127246564,
+      "train_runtime": 5482.1546,
+      "train_samples_per_second": 9.12,
+      "train_steps_per_second": 0.036
     }
   ],
   "logging_steps": 10,
+  "max_steps": 195,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
   "total_flos": 0.0,
   "train_batch_size": 8,
   "trial_name": null,