Model save

Browse files

Files changed (9) hide show

README.md +2 -2
all_results.json +6 -5
generation_config.json +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
runs/Jun05_16-45-33_n136-082-130/events.out.tfevents.1717577207.n136-082-130.1671269.0 +2 -2
train_results.json +6 -5
trainer_state.json +231 -234

README.md CHANGED Viewed

@@ -52,7 +52,7 @@ The following hyperparameters were used during training:
 ### Framework versions
-- Transformers 4.38.2
 - Pytorch 2.1.2+cu118
 - Datasets 2.16.1
-- Tokenizers 0.15.2

 ### Framework versions
+- Transformers 4.41.1
 - Pytorch 2.1.2+cu118
 - Datasets 2.16.1
+- Tokenizers 0.19.1

all_results.json CHANGED Viewed

@@ -1,8 +1,9 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.42979541909757746,
-    "train_runtime": 5368.3646,
-    "train_samples": 48530,
-    "train_samples_per_second": 9.04,
-    "train_steps_per_second": 0.035
 }

 {
     "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.4268451908656529,
+    "train_runtime": 5571.7779,
+    "train_samples": 44755,
+    "train_samples_per_second": 8.032,
+    "train_steps_per_second": 0.031
 }

generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 32000,
-  "transformers_version": "4.38.2"
 }

   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 32000,
+  "transformers_version": "4.41.1"
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:356dc2b1355d662c141aef81f6cc89001c178e4007968f89b8978b8150436157
 size 4943178720

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee8452a398b257c4a92a8643d9b1dfe39769d290e7c90c76b86b619836911c45
 size 4943178720

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f1d3e3ba731f6817b54fbce899547aa3234b1ac6c106bb71917516260d9eb90
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee6a898b9636aed352abe6efb776fc9d203259465cf8a6ffff1063f02fa01257
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68e0cc8151a7384be178ba6186d9b46fe0d7d5bcec31517e8e6d3b801f63aec5
 size 4540532728

 version https://git-lfs.github.com/spec/v1
+oid sha256:f22fcd73a88b87f23b169dac783932266e459f67992280e6211fdc500dbf6a1d
 size 4540532728

runs/Jun05_16-45-33_n136-082-130/events.out.tfevents.1717577207.n136-082-130.1671269.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45f886db2c2d590c31df3e18a510a66b7c1b3d72d9d53a9ab721ac742739d02a
-size 12583

 version https://git-lfs.github.com/spec/v1
+oid sha256:677d4dc19859dd093eed3aeb0022a132de8f6ce1d85c343d2af84f7e925a454c
+size 17729

train_results.json CHANGED Viewed

@@ -1,8 +1,9 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.42979541909757746,
-    "train_runtime": 5368.3646,
-    "train_samples": 48530,
-    "train_samples_per_second": 9.04,
-    "train_steps_per_second": 0.035
 }

 {
     "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.4268451908656529,
+    "train_runtime": 5571.7779,
+    "train_samples": 44755,
+    "train_samples_per_second": 8.032,
+    "train_steps_per_second": 0.031
 }

trainer_state.json CHANGED Viewed

@@ -1,22 +1,22 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9960474308300395,
   "eval_steps": 500,
-  "global_step": 189,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.01,
-      "grad_norm": 26.908694644642612,
-      "learning_rate": 2.6315789473684208e-08,
-      "logits/chosen": -4.638427734375,
-      "logits/rejected": -4.891327857971191,
-      "logps/chosen": -198.52749633789062,
-      "logps/rejected": -147.3392791748047,
-      "loss": 0.6929,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -24,290 +24,287 @@
       "step": 1
     },
     {
-      "epoch": 0.05,
-      "grad_norm": 27.07664091604203,
-      "learning_rate": 2.631578947368421e-07,
-      "logits/chosen": -4.496448993682861,
-      "logits/rejected": -4.815927028656006,
-      "logps/chosen": -224.28125,
-      "logps/rejected": -167.94735717773438,
-      "loss": 0.6915,
       "rewards/accuracies": 0.5034722089767456,
-      "rewards/chosen": 0.0034646072890609503,
-      "rewards/margins": 0.002639756305143237,
-      "rewards/rejected": 0.0008248506928794086,
       "step": 10
     },
     {
-      "epoch": 0.11,
-      "grad_norm": 26.30402064096193,
-      "learning_rate": 4.999573126145131e-07,
-      "logits/chosen": -4.625959873199463,
-      "logits/rejected": -4.94482421875,
-      "logps/chosen": -231.04525756835938,
-      "logps/rejected": -196.3661651611328,
-      "loss": 0.6465,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -0.04837086424231529,
-      "rewards/margins": 0.11359457671642303,
-      "rewards/rejected": -0.16196544468402863,
       "step": 20
     },
     {
-      "epoch": 0.16,
-      "grad_norm": 25.70165553073792,
-      "learning_rate": 4.948524419003415e-07,
-      "logits/chosen": -4.869608402252197,
-      "logits/rejected": -5.148451805114746,
-      "logps/chosen": -273.7060241699219,
-      "logps/rejected": -259.2108154296875,
-      "loss": 0.5717,
-      "rewards/accuracies": 0.778124988079071,
-      "rewards/chosen": -0.5196550488471985,
-      "rewards/margins": 0.3445150554180145,
-      "rewards/rejected": -0.8641700744628906,
       "step": 30
     },
     {
-      "epoch": 0.21,
-      "grad_norm": 32.38040367732233,
-      "learning_rate": 4.81409414945389e-07,
-      "logits/chosen": -4.95624303817749,
-      "logits/rejected": -5.334275245666504,
-      "logps/chosen": -321.26739501953125,
-      "logps/rejected": -317.9222106933594,
-      "loss": 0.5311,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -0.9283856153488159,
-      "rewards/margins": 0.48562851548194885,
-      "rewards/rejected": -1.4140141010284424,
       "step": 40
     },
     {
-      "epoch": 0.26,
-      "grad_norm": 27.107807886309228,
-      "learning_rate": 4.6008601790947314e-07,
-      "logits/chosen": -5.323241233825684,
-      "logits/rejected": -5.817015171051025,
-      "logps/chosen": -357.8787536621094,
-      "logps/rejected": -385.47576904296875,
-      "loss": 0.4831,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -1.411299467086792,
-      "rewards/margins": 0.7530988454818726,
-      "rewards/rejected": -2.164398193359375,
       "step": 50
     },
     {
-      "epoch": 0.32,
-      "grad_norm": 32.232061879934236,
-      "learning_rate": 4.3160839350405605e-07,
-      "logits/chosen": -5.831389904022217,
-      "logits/rejected": -6.2499542236328125,
-      "logps/chosen": -395.7707824707031,
-      "logps/rejected": -446.3265686035156,
-      "loss": 0.4294,
-      "rewards/accuracies": 0.778124988079071,
-      "rewards/chosen": -1.821434736251831,
-      "rewards/margins": 0.9432821273803711,
-      "rewards/rejected": -2.7647171020507812,
       "step": 60
     },
     {
-      "epoch": 0.37,
-      "grad_norm": 35.03072007251475,
-      "learning_rate": 3.9694631307311825e-07,
-      "logits/chosen": -6.090306758880615,
-      "logits/rejected": -6.541258335113525,
-      "logps/chosen": -430.2369689941406,
-      "logps/rejected": -496.2119140625,
-      "loss": 0.424,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -2.1488282680511475,
-      "rewards/margins": 1.0692826509475708,
-      "rewards/rejected": -3.218111038208008,
       "step": 70
     },
     {
-      "epoch": 0.42,
-      "grad_norm": 30.667469826354093,
-      "learning_rate": 3.572801521931522e-07,
-      "logits/chosen": -6.3887619972229,
-      "logits/rejected": -6.877404689788818,
-      "logps/chosen": -439.2911071777344,
-      "logps/rejected": -526.5487060546875,
-      "loss": 0.4001,
-      "rewards/accuracies": 0.815625011920929,
-      "rewards/chosen": -2.3115358352661133,
-      "rewards/margins": 1.2141239643096924,
-      "rewards/rejected": -3.5256600379943848,
       "step": 80
     },
     {
-      "epoch": 0.47,
-      "grad_norm": 37.36819911889553,
-      "learning_rate": 3.139606943986089e-07,
-      "logits/chosen": -6.5696258544921875,
-      "logits/rejected": -7.1035637855529785,
-      "logps/chosen": -458.3387756347656,
-      "logps/rejected": -556.1650390625,
-      "loss": 0.3875,
-      "rewards/accuracies": 0.7718750238418579,
-      "rewards/chosen": -2.5067451000213623,
-      "rewards/margins": 1.3494058847427368,
-      "rewards/rejected": -3.8561508655548096,
       "step": 90
     },
     {
-      "epoch": 0.53,
-      "grad_norm": 33.15053822353323,
-      "learning_rate": 2.684631318687185e-07,
-      "logits/chosen": -6.621747016906738,
-      "logits/rejected": -7.236710548400879,
-      "logps/chosen": -467.0467834472656,
-      "logps/rejected": -582.046142578125,
-      "loss": 0.3867,
-      "rewards/accuracies": 0.796875,
-      "rewards/chosen": -2.4837827682495117,
-      "rewards/margins": 1.5418504476547241,
-      "rewards/rejected": -4.025633811950684,
       "step": 100
     },
     {
-      "epoch": 0.58,
-      "grad_norm": 37.45830028947681,
-      "learning_rate": 2.2233682952712483e-07,
-      "logits/chosen": -6.568659782409668,
-      "logits/rejected": -7.284300327301025,
-      "logps/chosen": -460.4766540527344,
-      "logps/rejected": -578.6600341796875,
-      "loss": 0.3771,
-      "rewards/accuracies": 0.846875011920929,
-      "rewards/chosen": -2.3609726428985596,
-      "rewards/margins": 1.647943139076233,
-      "rewards/rejected": -4.008915901184082,
       "step": 110
     },
     {
-      "epoch": 0.63,
-      "grad_norm": 33.8427535333109,
-      "learning_rate": 1.7715256327766884e-07,
-      "logits/chosen": -6.796021461486816,
-      "logits/rejected": -7.497170925140381,
-      "logps/chosen": -504.50543212890625,
-      "logps/rejected": -621.22314453125,
-      "loss": 0.3508,
-      "rewards/accuracies": 0.815625011920929,
-      "rewards/chosen": -2.883434295654297,
-      "rewards/margins": 1.6248239278793335,
-      "rewards/rejected": -4.50825834274292,
       "step": 120
     },
     {
-      "epoch": 0.69,
-      "grad_norm": 35.353347844932394,
-      "learning_rate": 1.3444902911492174e-07,
-      "logits/chosen": -6.833544731140137,
-      "logits/rejected": -7.472651481628418,
-      "logps/chosen": -521.9656372070312,
-      "logps/rejected": -659.3110961914062,
-      "loss": 0.3705,
-      "rewards/accuracies": 0.840624988079071,
-      "rewards/chosen": -2.989759922027588,
-      "rewards/margins": 1.8119176626205444,
-      "rewards/rejected": -4.801677227020264,
       "step": 130
     },
     {
-      "epoch": 0.74,
-      "grad_norm": 32.6045025544378,
-      "learning_rate": 9.56804446775518e-08,
-      "logits/chosen": -6.738868713378906,
-      "logits/rejected": -7.498864650726318,
-      "logps/chosen": -470.77337646484375,
-      "logps/rejected": -584.4710083007812,
-      "loss": 0.3591,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -2.558176040649414,
-      "rewards/margins": 1.6057535409927368,
-      "rewards/rejected": -4.163929462432861,
       "step": 140
     },
     {
-      "epoch": 0.79,
-      "grad_norm": 32.49183208247093,
-      "learning_rate": 6.216702761078166e-08,
-      "logits/chosen": -7.049106597900391,
-      "logits/rejected": -7.772597312927246,
-      "logps/chosen": -487.25726318359375,
-      "logps/rejected": -619.6534423828125,
-      "loss": 0.3576,
-      "rewards/accuracies": 0.8343750238418579,
-      "rewards/chosen": -2.82848858833313,
-      "rewards/margins": 1.7726719379425049,
-      "rewards/rejected": -4.601161003112793,
       "step": 150
     },
     {
-      "epoch": 0.84,
-      "grad_norm": 37.26747220029015,
-      "learning_rate": 3.5050037137906885e-08,
-      "logits/chosen": -6.9701337814331055,
-      "logits/rejected": -7.731366157531738,
-      "logps/chosen": -494.5716247558594,
-      "logps/rejected": -623.4630737304688,
-      "loss": 0.3502,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -2.750206470489502,
-      "rewards/margins": 1.7980148792266846,
-      "rewards/rejected": -4.548220634460449,
       "step": 160
     },
     {
-      "epoch": 0.9,
-      "grad_norm": 31.918546112926368,
-      "learning_rate": 1.5252909846235894e-08,
-      "logits/chosen": -7.007571220397949,
-      "logits/rejected": -7.6982011795043945,
-      "logps/chosen": -509.54388427734375,
-      "logps/rejected": -666.7489624023438,
-      "loss": 0.3631,
-      "rewards/accuracies": 0.890625,
-      "rewards/chosen": -2.9002063274383545,
-      "rewards/margins": 2.0059866905212402,
-      "rewards/rejected": -4.906193733215332,
       "step": 170
     },
-    {
-      "epoch": 0.95,
-      "grad_norm": 29.32551345390984,
-      "learning_rate": 3.4498131616493565e-09,
-      "logits/chosen": -6.939836025238037,
-      "logits/rejected": -7.576680660247803,
-      "logps/chosen": -514.7128295898438,
-      "logps/rejected": -656.9924926757812,
-      "loss": 0.3518,
-      "rewards/accuracies": 0.8031250238418579,
-      "rewards/chosen": -2.932391881942749,
-      "rewards/margins": 1.7769733667373657,
-      "rewards/rejected": -4.709364891052246,
-      "step": 180
-    },
     {
       "epoch": 1.0,
-      "step": 189,
       "total_flos": 0.0,
-      "train_loss": 0.42979541909757746,
-      "train_runtime": 5368.3646,
-      "train_samples_per_second": 9.04,
-      "train_steps_per_second": 0.035
     }
   ],
   "logging_steps": 10,
-  "max_steps": 189,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
   "total_flos": 0.0,
   "train_batch_size": 8,
   "trial_name": null,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 175,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.005714285714285714,
+      "grad_norm": 1251.908438964567,
+      "learning_rate": 2.7777777777777774e-08,
+      "logits/chosen": -4.099947929382324,
+      "logits/rejected": -4.528928756713867,
+      "logps/chosen": -297.4884033203125,
+      "logps/rejected": -227.07449340820312,
+      "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
       "step": 1
     },
     {
+      "epoch": 0.05714285714285714,
+      "grad_norm": 1007.5595895273253,
+      "learning_rate": 2.7777777777777776e-07,
+      "logits/chosen": -4.256350040435791,
+      "logits/rejected": -4.503963947296143,
+      "logps/chosen": -316.07769775390625,
+      "logps/rejected": -254.57467651367188,
+      "loss": 0.6613,
       "rewards/accuracies": 0.5034722089767456,
+      "rewards/chosen": 0.2096220850944519,
+      "rewards/margins": 0.15642070770263672,
+      "rewards/rejected": 0.0532013401389122,
       "step": 10
     },
     {
+      "epoch": 0.11428571428571428,
+      "grad_norm": 675.3841086149566,
+      "learning_rate": 4.997998237821233e-07,
+      "logits/chosen": -4.360010623931885,
+      "logits/rejected": -4.628513813018799,
+      "logps/chosen": -298.9122009277344,
+      "logps/rejected": -249.00918579101562,
+      "loss": 0.4212,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": 3.4100475311279297,
+      "rewards/margins": 2.592763900756836,
+      "rewards/rejected": 0.8172838091850281,
       "step": 20
     },
     {
+      "epoch": 0.17142857142857143,
+      "grad_norm": 675.1555265980924,
+      "learning_rate": 4.928272579403969e-07,
+      "logits/chosen": -4.373316287994385,
+      "logits/rejected": -4.6160383224487305,
+      "logps/chosen": -303.8053894042969,
+      "logps/rejected": -266.44818115234375,
+      "loss": 0.4762,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": 4.110724449157715,
+      "rewards/margins": 6.506677150726318,
+      "rewards/rejected": -2.3959527015686035,
       "step": 30
     },
     {
+      "epoch": 0.22857142857142856,
+      "grad_norm": 600.7834437052495,
+      "learning_rate": 4.7616414547743854e-07,
+      "logits/chosen": -4.35813045501709,
+      "logits/rejected": -4.55276346206665,
+      "logps/chosen": -289.32257080078125,
+      "logps/rejected": -250.25341796875,
+      "loss": 0.5303,
+      "rewards/accuracies": 0.8343750238418579,
+      "rewards/chosen": 3.9142494201660156,
+      "rewards/margins": 7.811418056488037,
+      "rewards/rejected": -3.897169589996338,
       "step": 40
     },
     {
+      "epoch": 0.2857142857142857,
+      "grad_norm": 788.2365830395779,
+      "learning_rate": 4.5047546391491e-07,
+      "logits/chosen": -4.276906967163086,
+      "logits/rejected": -4.5039567947387695,
+      "logps/chosen": -297.9548034667969,
+      "logps/rejected": -260.8029479980469,
+      "loss": 0.4673,
+      "rewards/accuracies": 0.8531249761581421,
+      "rewards/chosen": 4.0600905418396,
+      "rewards/margins": 7.4909186363220215,
+      "rewards/rejected": -3.430828094482422,
       "step": 50
     },
     {
+      "epoch": 0.34285714285714286,
+      "grad_norm": 715.3302112367288,
+      "learning_rate": 4.167863756189767e-07,
+      "logits/chosen": -4.322784900665283,
+      "logits/rejected": -4.564073085784912,
+      "logps/chosen": -293.1005554199219,
+      "logps/rejected": -254.21835327148438,
+      "loss": 0.4621,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": 5.134177207946777,
+      "rewards/margins": 7.875572204589844,
+      "rewards/rejected": -2.741394519805908,
       "step": 60
     },
     {
+      "epoch": 0.4,
+      "grad_norm": 633.4373267135044,
+      "learning_rate": 3.764413164801049e-07,
+      "logits/chosen": -4.282719612121582,
+      "logits/rejected": -4.559357643127441,
+      "logps/chosen": -287.670166015625,
+      "logps/rejected": -240.59359741210938,
+      "loss": 0.3978,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": 4.107884407043457,
+      "rewards/margins": 7.409787654876709,
+      "rewards/rejected": -3.301903247833252,
       "step": 70
     },
     {
+      "epoch": 0.45714285714285713,
+      "grad_norm": 585.2050073161457,
+      "learning_rate": 3.3105034329273217e-07,
+      "logits/chosen": -4.1827239990234375,
+      "logits/rejected": -4.454409599304199,
+      "logps/chosen": -294.9931640625,
+      "logps/rejected": -253.04092407226562,
+      "loss": 0.4435,
+      "rewards/accuracies": 0.828125,
+      "rewards/chosen": 4.6706342697143555,
+      "rewards/margins": 7.3439764976501465,
+      "rewards/rejected": -2.67334246635437,
       "step": 80
     },
     {
+      "epoch": 0.5142857142857142,
+      "grad_norm": 744.3685065355755,
+      "learning_rate": 2.8242488095860204e-07,
+      "logits/chosen": -4.200292110443115,
+      "logits/rejected": -4.432915210723877,
+      "logps/chosen": -289.46466064453125,
+      "logps/rejected": -249.84048461914062,
+      "loss": 0.4059,
+      "rewards/accuracies": 0.8656250238418579,
+      "rewards/chosen": 5.276065349578857,
+      "rewards/margins": 7.3948163986206055,
+      "rewards/rejected": -2.118751287460327,
       "step": 90
     },
     {
+      "epoch": 0.5714285714285714,
+      "grad_norm": 671.6213883992457,
+      "learning_rate": 2.3250543366050071e-07,
+      "logits/chosen": -4.27265739440918,
+      "logits/rejected": -4.471877098083496,
+      "logps/chosen": -299.2139892578125,
+      "logps/rejected": -262.4172668457031,
+      "loss": 0.3587,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": 5.20701265335083,
+      "rewards/margins": 7.200909614562988,
+      "rewards/rejected": -1.9938958883285522,
       "step": 100
     },
     {
+      "epoch": 0.6285714285714286,
+      "grad_norm": 731.7704645558294,
+      "learning_rate": 1.8328414484826743e-07,
+      "logits/chosen": -4.198658466339111,
+      "logits/rejected": -4.5151848793029785,
+      "logps/chosen": -299.356689453125,
+      "logps/rejected": -248.8483428955078,
+      "loss": 0.3809,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": 5.6889519691467285,
+      "rewards/margins": 7.738437652587891,
+      "rewards/rejected": -2.049485683441162,
       "step": 110
     },
     {
+      "epoch": 0.6857142857142857,
+      "grad_norm": 763.5659705732334,
+      "learning_rate": 1.3672529644823003e-07,
+      "logits/chosen": -4.348945140838623,
+      "logits/rejected": -4.604073524475098,
+      "logps/chosen": -269.67547607421875,
+      "logps/rejected": -229.8912811279297,
+      "loss": 0.3889,
+      "rewards/accuracies": 0.8656250238418579,
+      "rewards/chosen": 4.305537700653076,
+      "rewards/margins": 6.874751091003418,
+      "rewards/rejected": -2.569213390350342,
       "step": 120
     },
     {
+      "epoch": 0.7428571428571429,
+      "grad_norm": 609.1110882142142,
+      "learning_rate": 9.468691994696146e-08,
+      "logits/chosen": -4.341274261474609,
+      "logits/rejected": -4.5989298820495605,
+      "logps/chosen": -275.35833740234375,
+      "logps/rejected": -245.8115692138672,
+      "loss": 0.3699,
+      "rewards/accuracies": 0.871874988079071,
+      "rewards/chosen": 4.084762096405029,
+      "rewards/margins": 6.567566871643066,
+      "rewards/rejected": -2.4828040599823,
       "step": 130
     },
     {
+      "epoch": 0.8,
+      "grad_norm": 833.6810153426302,
+      "learning_rate": 5.884664762850466e-08,
+      "logits/chosen": -4.367494106292725,
+      "logits/rejected": -4.598031044006348,
+      "logps/chosen": -273.83099365234375,
+      "logps/rejected": -237.6991729736328,
+      "loss": 0.381,
+      "rewards/accuracies": 0.8656250238418579,
+      "rewards/chosen": 4.479451656341553,
+      "rewards/margins": 6.597804069519043,
+      "rewards/rejected": -2.118351697921753,
       "step": 140
     },
     {
+      "epoch": 0.8571428571428571,
+      "grad_norm": 677.0337306190108,
+      "learning_rate": 3.063476303172388e-08,
+      "logits/chosen": -4.267864227294922,
+      "logits/rejected": -4.488691806793213,
+      "logps/chosen": -288.9342041015625,
+      "logps/rejected": -247.3463592529297,
+      "loss": 0.392,
+      "rewards/accuracies": 0.8843749761581421,
+      "rewards/chosen": 5.401379585266113,
+      "rewards/margins": 7.644896030426025,
+      "rewards/rejected": -2.2435173988342285,
       "step": 150
     },
     {
+      "epoch": 0.9142857142857143,
+      "grad_norm": 601.5321276048043,
+      "learning_rate": 1.1177122393998372e-08,
+      "logits/chosen": -4.331192970275879,
+      "logits/rejected": -4.530573844909668,
+      "logps/chosen": -277.52020263671875,
+      "logps/rejected": -243.84323120117188,
+      "loss": 0.363,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": 4.819538593292236,
+      "rewards/margins": 6.703360080718994,
+      "rewards/rejected": -1.8838220834732056,
       "step": 160
     },
     {
+      "epoch": 0.9714285714285714,
+      "grad_norm": 771.9761619985129,
+      "learning_rate": 1.2502249244298879e-09,
+      "logits/chosen": -4.293517112731934,
+      "logits/rejected": -4.548079013824463,
+      "logps/chosen": -295.1907653808594,
+      "logps/rejected": -248.191650390625,
+      "loss": 0.3693,
+      "rewards/accuracies": 0.8843749761581421,
+      "rewards/chosen": 4.456015586853027,
+      "rewards/margins": 6.605706214904785,
+      "rewards/rejected": -2.1496901512145996,
       "step": 170
     },
     {
       "epoch": 1.0,
+      "step": 175,
       "total_flos": 0.0,
+      "train_loss": 0.4268451908656529,
+      "train_runtime": 5571.7779,
+      "train_samples_per_second": 8.032,
+      "train_steps_per_second": 0.031
     }
   ],
   "logging_steps": 10,
+  "max_steps": 175,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
   "total_flos": 0.0,
   "train_batch_size": 8,
   "trial_name": null,