Model save

Browse files

Files changed (8) hide show

all_results.json +3 -3
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
runs/Jul03_06-06-51_n136-100-194/events.out.tfevents.1719958034.n136-100-194.2001850.0 +2 -2
train_results.json +3 -3
trainer_state.json +435 -435
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 1.0809600353240967,
-    "train_runtime": 6838.8864,
     "train_samples": 56236,
-    "train_samples_per_second": 8.223,
     "train_steps_per_second": 0.064
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.5564739256078942,
+    "train_runtime": 6859.6403,
     "train_samples": 56236,
+    "train_samples_per_second": 8.198,
     "train_steps_per_second": 0.064
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fed3152f0653eb477ecd4813f48e5b38badfc3072df7d0e51cd2dba373baab8
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e692100307a70f65bd0d21036b34ef68687d64f8dc88cc7bd88cac3cb499b72
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:768cb2fc066c755a551c8baf1f36264d28e8a73d92a2bbaac0c88d3f0093a81f
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:22c11cd667919a180be90a638f8180dfe57b3af895c1fe13ee1bda06824ae1db
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6e1839f52689708dd2ac01be610d58ce047b76ccf162250f29b5556c599adad
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:aee128bd109134555c87391e5c9defecae53a6eb4d7c164396cfda3229777b91
 size 4540516344

runs/Jul03_06-06-51_n136-100-194/events.out.tfevents.1719958034.n136-100-194.2001850.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8301cc19bc86e734ef928a25436f99de71cb5f87a600393c62aed1948bb35fc9
-size 33001

 version https://git-lfs.github.com/spec/v1
+oid sha256:02634978f6ef9cb3e31b3f685b867b227dff53eeafc9cc5436c7d90a2706a2ba
+size 35419

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 1.0809600353240967,
-    "train_runtime": 6838.8864,
     "train_samples": 56236,
-    "train_samples_per_second": 8.223,
     "train_steps_per_second": 0.064
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.5564739256078942,
+    "train_runtime": 6859.6403,
     "train_samples": 56236,
+    "train_samples_per_second": 8.198,
     "train_steps_per_second": 0.064
 }

trainer_state.json CHANGED Viewed

@@ -10,13 +10,13 @@
   "log_history": [
     {
       "epoch": 0.0,
-      "grad_norm": 33.30332403665468,
       "learning_rate": 2.2727272727272727e-09,
       "logits/chosen": -1.6768856048583984,
       "logits/rejected": -1.7259055376052856,
       "logps/chosen": -1.2793102264404297,
       "logps/rejected": -1.2162058353424072,
-      "loss": 1.3133,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -25,656 +25,656 @@
     },
     {
       "epoch": 0.02,
-      "grad_norm": 37.64303926905523,
       "learning_rate": 2.2727272727272725e-08,
-      "logits/chosen": -1.7033135890960693,
-      "logits/rejected": -1.668673038482666,
-      "logps/chosen": -1.2131016254425049,
-      "logps/rejected": -1.22050142288208,
-      "loss": 1.313,
-      "rewards/accuracies": 0.4513888955116272,
-      "rewards/chosen": 0.00040783319855108857,
-      "rewards/margins": -8.263149356935173e-05,
-      "rewards/rejected": 0.0004904646775685251,
       "step": 10
     },
     {
       "epoch": 0.05,
-      "grad_norm": 38.69260337999141,
       "learning_rate": 4.545454545454545e-08,
-      "logits/chosen": -1.7795250415802002,
-      "logits/rejected": -1.7348783016204834,
-      "logps/chosen": -1.1448484659194946,
-      "logps/rejected": -1.1852957010269165,
-      "loss": 1.3122,
-      "rewards/accuracies": 0.5062500238418579,
-      "rewards/chosen": -0.003251913469284773,
-      "rewards/margins": 0.0004202231648378074,
-      "rewards/rejected": -0.003672136692330241,
       "step": 20
     },
     {
       "epoch": 0.07,
-      "grad_norm": 44.09359407998382,
       "learning_rate": 6.818181818181817e-08,
-      "logits/chosen": -1.7442439794540405,
-      "logits/rejected": -1.6752439737319946,
-      "logps/chosen": -1.1954559087753296,
-      "logps/rejected": -1.248280644416809,
-      "loss": 1.3059,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": -0.025108838453888893,
-      "rewards/margins": 0.01119022723287344,
-      "rewards/rejected": -0.03629906848073006,
       "step": 30
     },
     {
       "epoch": 0.09,
-      "grad_norm": 28.883029165176804,
       "learning_rate": 9.09090909090909e-08,
-      "logits/chosen": -1.7305904626846313,
-      "logits/rejected": -1.6642875671386719,
-      "logps/chosen": -1.2533624172210693,
-      "logps/rejected": -1.3383153676986694,
-      "loss": 1.2922,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -0.09282750636339188,
-      "rewards/margins": 0.06525905430316925,
-      "rewards/rejected": -0.15808656811714172,
       "step": 40
     },
     {
       "epoch": 0.11,
-      "grad_norm": 36.39900209589975,
       "learning_rate": 9.994307990108962e-08,
-      "logits/chosen": -1.690720796585083,
-      "logits/rejected": -1.625451683998108,
-      "logps/chosen": -1.3044583797454834,
-      "logps/rejected": -1.3643444776535034,
-      "loss": 1.2643,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -0.19274269044399261,
-      "rewards/margins": 0.0795869454741478,
-      "rewards/rejected": -0.2723296284675598,
       "step": 50
     },
     {
       "epoch": 0.14,
-      "grad_norm": 43.081578827458706,
       "learning_rate": 9.959570405988094e-08,
-      "logits/chosen": -1.71735417842865,
-      "logits/rejected": -1.6361076831817627,
-      "logps/chosen": -1.3119524717330933,
-      "logps/rejected": -1.4046932458877563,
-      "loss": 1.2541,
-      "rewards/accuracies": 0.6499999761581421,
-      "rewards/chosen": -0.4057086110115051,
-      "rewards/margins": 0.0816243588924408,
-      "rewards/rejected": -0.4873329699039459,
       "step": 60
     },
     {
       "epoch": 0.16,
-      "grad_norm": 33.06897498171632,
       "learning_rate": 9.893476820924666e-08,
-      "logits/chosen": -1.7922325134277344,
-      "logits/rejected": -1.7017757892608643,
-      "logps/chosen": -1.5047810077667236,
-      "logps/rejected": -1.630091667175293,
-      "loss": 1.2355,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -0.5838777422904968,
-      "rewards/margins": 0.1572917252779007,
-      "rewards/rejected": -0.7411695718765259,
       "step": 70
     },
     {
       "epoch": 0.18,
-      "grad_norm": 37.24284057004877,
       "learning_rate": 9.796445099843647e-08,
-      "logits/chosen": -1.774518370628357,
-      "logits/rejected": -1.6856935024261475,
-      "logps/chosen": -1.5832115411758423,
-      "logps/rejected": -1.7514270544052124,
-      "loss": 1.232,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -0.7524863481521606,
-      "rewards/margins": 0.21537098288536072,
-      "rewards/rejected": -0.9678572416305542,
       "step": 80
     },
     {
       "epoch": 0.2,
-      "grad_norm": 45.064021238231845,
       "learning_rate": 9.669088708527066e-08,
-      "logits/chosen": -1.7184202671051025,
-      "logits/rejected": -1.6467373371124268,
-      "logps/chosen": -1.7363929748535156,
-      "logps/rejected": -1.8083902597427368,
-      "loss": 1.2104,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -1.0013912916183472,
-      "rewards/margins": 0.12990526854991913,
-      "rewards/rejected": -1.1312966346740723,
       "step": 90
     },
     {
       "epoch": 0.23,
-      "grad_norm": 44.286763175528534,
       "learning_rate": 9.512212835085849e-08,
-      "logits/chosen": -1.757889986038208,
-      "logits/rejected": -1.6645339727401733,
-      "logps/chosen": -1.779813528060913,
-      "logps/rejected": -1.9353383779525757,
-      "loss": 1.1819,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -1.2227165699005127,
-      "rewards/margins": 0.2256297618150711,
-      "rewards/rejected": -1.448346495628357,
       "step": 100
     },
     {
       "epoch": 0.25,
-      "grad_norm": 43.36692624974112,
       "learning_rate": 9.326809299301306e-08,
-      "logits/chosen": -1.761940360069275,
-      "logits/rejected": -1.6550146341323853,
-      "logps/chosen": -1.8854389190673828,
-      "logps/rejected": -2.1229450702667236,
-      "loss": 1.1674,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -1.369593620300293,
-      "rewards/margins": 0.371805876493454,
-      "rewards/rejected": -1.7413995265960693,
       "step": 110
     },
     {
       "epoch": 0.27,
-      "grad_norm": 41.78554813342914,
       "learning_rate": 9.114050282021158e-08,
-      "logits/chosen": -1.7491047382354736,
-      "logits/rejected": -1.6867637634277344,
-      "logps/chosen": -1.8475677967071533,
-      "logps/rejected": -2.0627474784851074,
-      "loss": 1.1591,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -1.400010108947754,
-      "rewards/margins": 0.3355749249458313,
-      "rewards/rejected": -1.7355849742889404,
       "step": 120
     },
     {
       "epoch": 0.3,
-      "grad_norm": 40.42754129950971,
       "learning_rate": 8.875280914254802e-08,
-      "logits/chosen": -1.737173080444336,
-      "logits/rejected": -1.644561529159546,
-      "logps/chosen": -2.0521700382232666,
-      "logps/rejected": -2.296677827835083,
-      "loss": 1.1348,
-      "rewards/accuracies": 0.668749988079071,
-      "rewards/chosen": -1.7186797857284546,
-      "rewards/margins": 0.43216562271118164,
-      "rewards/rejected": -2.1508452892303467,
       "step": 130
     },
     {
       "epoch": 0.32,
-      "grad_norm": 39.13812568144021,
       "learning_rate": 8.612010772821971e-08,
-      "logits/chosen": -1.7612278461456299,
-      "logits/rejected": -1.715679407119751,
-      "logps/chosen": -2.0781049728393555,
-      "logps/rejected": -2.2759194374084473,
-      "loss": 1.127,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.7284520864486694,
-      "rewards/margins": 0.4454485774040222,
-      "rewards/rejected": -2.173900604248047,
       "step": 140
     },
     {
       "epoch": 0.34,
-      "grad_norm": 37.596667789585375,
       "learning_rate": 8.325904336322055e-08,
-      "logits/chosen": -1.735419511795044,
-      "logits/rejected": -1.6814868450164795,
-      "logps/chosen": -2.305412769317627,
-      "logps/rejected": -2.55448317527771,
-      "loss": 1.1399,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -2.2760961055755615,
-      "rewards/margins": 0.4037933945655823,
-      "rewards/rejected": -2.679889440536499,
       "step": 150
     },
     {
       "epoch": 0.36,
-      "grad_norm": 37.85769539137667,
       "learning_rate": 8.01877046176447e-08,
-      "logits/chosen": -1.6751991510391235,
-      "logits/rejected": -1.6064836978912354,
-      "logps/chosen": -2.5598020553588867,
-      "logps/rejected": -2.8157076835632324,
-      "loss": 1.09,
-      "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": -2.763003349304199,
-      "rewards/margins": 0.40903931856155396,
-      "rewards/rejected": -3.1720428466796875,
       "step": 160
     },
     {
       "epoch": 0.39,
-      "grad_norm": 33.932219318133306,
       "learning_rate": 7.692550948392249e-08,
-      "logits/chosen": -1.7231628894805908,
-      "logits/rejected": -1.6755987405776978,
-      "logps/chosen": -2.624762535095215,
-      "logps/rejected": -2.9136133193969727,
-      "loss": 1.1053,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -2.8290135860443115,
-      "rewards/margins": 0.5568121671676636,
-      "rewards/rejected": -3.3858256340026855,
       "step": 170
     },
     {
       "epoch": 0.41,
-      "grad_norm": 48.11500069751816,
       "learning_rate": 7.349308261002021e-08,
-      "logits/chosen": -1.6858348846435547,
-      "logits/rejected": -1.6378986835479736,
-      "logps/chosen": -2.640817165374756,
-      "logps/rejected": -2.949113368988037,
-      "loss": 1.0837,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -2.887462615966797,
-      "rewards/margins": 0.5172919034957886,
-      "rewards/rejected": -3.404754638671875,
       "step": 180
     },
     {
       "epoch": 0.43,
-      "grad_norm": 42.33388198011932,
       "learning_rate": 6.991212490377531e-08,
-      "logits/chosen": -1.7423484325408936,
-      "logits/rejected": -1.7037559747695923,
-      "logps/chosen": -2.6472008228302,
-      "logps/rejected": -3.0077877044677734,
-      "loss": 1.0335,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -2.834195613861084,
-      "rewards/margins": 0.6780903339385986,
-      "rewards/rejected": -3.5122859477996826,
       "step": 190
     },
     {
       "epoch": 0.46,
-      "grad_norm": 49.65676542149092,
       "learning_rate": 6.620527633276978e-08,
-      "logits/chosen": -1.6741564273834229,
-      "logits/rejected": -1.6151821613311768,
-      "logps/chosen": -2.735678195953369,
-      "logps/rejected": -3.225632905960083,
-      "loss": 1.0663,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -3.0824506282806396,
-      "rewards/margins": 0.80633145570755,
-      "rewards/rejected": -3.888781785964966,
       "step": 200
     },
     {
       "epoch": 0.48,
-      "grad_norm": 46.53275655997813,
       "learning_rate": 6.239597278716581e-08,
-      "logits/chosen": -1.7146323919296265,
-      "logits/rejected": -1.6657183170318604,
-      "logps/chosen": -3.098931312561035,
-      "logps/rejected": -3.467923641204834,
-      "loss": 1.0287,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -3.707202911376953,
-      "rewards/margins": 0.7793115377426147,
-      "rewards/rejected": -4.486514091491699,
       "step": 210
     },
     {
       "epoch": 0.5,
-      "grad_norm": 47.77625681519385,
       "learning_rate": 5.8508297910462456e-08,
-      "logits/chosen": -1.6560382843017578,
-      "logits/rejected": -1.5879056453704834,
-      "logps/chosen": -3.1243553161621094,
-      "logps/rejected": -3.6013519763946533,
-      "loss": 1.032,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -3.921679735183716,
-      "rewards/margins": 0.8384466171264648,
-      "rewards/rejected": -4.76012659072876,
       "step": 220
     },
     {
       "epoch": 0.52,
-      "grad_norm": 45.3152158322423,
       "learning_rate": 5.456683083494731e-08,
-      "logits/chosen": -1.6423381567001343,
-      "logits/rejected": -1.6075971126556396,
-      "logps/chosen": -3.002626419067383,
-      "logps/rejected": -3.339411497116089,
-      "loss": 1.068,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -3.6176345348358154,
-      "rewards/margins": 0.6260865330696106,
-      "rewards/rejected": -4.2437214851379395,
       "step": 230
     },
     {
       "epoch": 0.55,
-      "grad_norm": 50.18712381426658,
       "learning_rate": 5.059649078450834e-08,
-      "logits/chosen": -1.6221996545791626,
-      "logits/rejected": -1.587894082069397,
-      "logps/chosen": -2.9972426891326904,
-      "logps/rejected": -3.4068732261657715,
-      "loss": 1.0045,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -3.657778263092041,
-      "rewards/margins": 0.6951833963394165,
-      "rewards/rejected": -4.352961540222168,
       "step": 240
     },
     {
       "epoch": 0.57,
-      "grad_norm": 42.94625970616266,
       "learning_rate": 4.6622379527277186e-08,
-      "logits/chosen": -1.6361802816390991,
-      "logits/rejected": -1.5883018970489502,
-      "logps/chosen": -3.0472984313964844,
-      "logps/rejected": -3.4067275524139404,
-      "loss": 1.0159,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": -3.816819429397583,
-      "rewards/margins": 0.65269935131073,
-      "rewards/rejected": -4.469518661499023,
       "step": 250
     },
     {
       "epoch": 0.59,
-      "grad_norm": 49.81189434860217,
       "learning_rate": 4.26696226741691e-08,
-      "logits/chosen": -1.6441590785980225,
-      "logits/rejected": -1.5848346948623657,
-      "logps/chosen": -3.2412009239196777,
-      "logps/rejected": -3.667572021484375,
-      "loss": 1.0333,
-      "rewards/accuracies": 0.643750011920929,
-      "rewards/chosen": -4.0167555809021,
-      "rewards/margins": 0.8128072619438171,
-      "rewards/rejected": -4.829562664031982,
       "step": 260
     },
     {
       "epoch": 0.61,
-      "grad_norm": 46.698998113891435,
       "learning_rate": 3.876321082668098e-08,
-      "logits/chosen": -1.6987736225128174,
-      "logits/rejected": -1.6376842260360718,
-      "logps/chosen": -3.1670312881469727,
-      "logps/rejected": -3.625418186187744,
-      "loss": 1.0046,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -3.857081174850464,
-      "rewards/margins": 0.8981560468673706,
-      "rewards/rejected": -4.755237579345703,
       "step": 270
     },
     {
       "epoch": 0.64,
-      "grad_norm": 54.35348471111713,
       "learning_rate": 3.492784157826244e-08,
-      "logits/chosen": -1.63980233669281,
-      "logits/rejected": -1.552004337310791,
-      "logps/chosen": -3.2830092906951904,
-      "logps/rejected": -3.8152382373809814,
-      "loss": 1.0119,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -4.120265483856201,
-      "rewards/margins": 0.9936790466308594,
-      "rewards/rejected": -5.113945007324219,
       "step": 280
     },
     {
       "epoch": 0.66,
-      "grad_norm": 44.812750561614926,
       "learning_rate": 3.118776336817812e-08,
-      "logits/chosen": -1.6625276803970337,
-      "logits/rejected": -1.6122783422470093,
-      "logps/chosen": -3.191256284713745,
-      "logps/rejected": -3.756882429122925,
-      "loss": 0.9859,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -3.97601580619812,
-      "rewards/margins": 1.1168193817138672,
-      "rewards/rejected": -5.092835426330566,
       "step": 290
     },
     {
       "epoch": 0.68,
-      "grad_norm": 45.89134253017904,
       "learning_rate": 2.7566622175067443e-08,
-      "logits/chosen": -1.6413261890411377,
-      "logits/rejected": -1.5825086832046509,
-      "logps/chosen": -3.339484691619873,
-      "logps/rejected": -3.9588654041290283,
-      "loss": 0.994,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -4.261802673339844,
-      "rewards/margins": 1.0827885866165161,
-      "rewards/rejected": -5.3445916175842285,
       "step": 300
     },
     {
       "epoch": 0.71,
-      "grad_norm": 47.840562340740895,
       "learning_rate": 2.408731201945432e-08,
-      "logits/chosen": -1.64263117313385,
-      "logits/rejected": -1.6013950109481812,
-      "logps/chosen": -3.251277446746826,
-      "logps/rejected": -3.651395082473755,
-      "loss": 1.0008,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -4.11476469039917,
-      "rewards/margins": 0.7599252462387085,
-      "rewards/rejected": -4.874690532684326,
       "step": 310
     },
     {
       "epoch": 0.73,
-      "grad_norm": 51.79356167073485,
       "learning_rate": 2.0771830220378112e-08,
-      "logits/chosen": -1.5991486310958862,
-      "logits/rejected": -1.5396713018417358,
-      "logps/chosen": -3.2509543895721436,
-      "logps/rejected": -3.6364498138427734,
-      "loss": 1.0066,
-      "rewards/accuracies": 0.6187499761581421,
-      "rewards/chosen": -4.056139945983887,
-      "rewards/margins": 0.7866916060447693,
-      "rewards/rejected": -4.842831611633301,
       "step": 320
     },
     {
       "epoch": 0.75,
-      "grad_norm": 43.99284684689101,
       "learning_rate": 1.7641138321260257e-08,
-      "logits/chosen": -1.6334537267684937,
-      "logits/rejected": -1.5692901611328125,
-      "logps/chosen": -3.158041477203369,
-      "logps/rejected": -3.8241424560546875,
-      "loss": 0.9807,
-      "rewards/accuracies": 0.831250011920929,
-      "rewards/chosen": -3.9483726024627686,
-      "rewards/margins": 1.2771327495574951,
-      "rewards/rejected": -5.225505352020264,
       "step": 330
     },
     {
       "epoch": 0.77,
-      "grad_norm": 50.47520523412627,
       "learning_rate": 1.4715029564277793e-08,
-      "logits/chosen": -1.6923463344573975,
-      "logits/rejected": -1.6500104665756226,
-      "logps/chosen": -3.0949554443359375,
-      "logps/rejected": -3.6954338550567627,
-      "loss": 1.0051,
-      "rewards/accuracies": 0.768750011920929,
-      "rewards/chosen": -3.7805895805358887,
-      "rewards/margins": 1.1268298625946045,
-      "rewards/rejected": -4.907419681549072,
       "step": 340
     },
     {
       "epoch": 0.8,
-      "grad_norm": 48.63775480340643,
       "learning_rate": 1.2012003751113343e-08,
-      "logits/chosen": -1.6796951293945312,
-      "logits/rejected": -1.6264684200286865,
-      "logps/chosen": -3.3736748695373535,
-      "logps/rejected": -3.9650447368621826,
-      "loss": 0.9726,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -4.423010349273682,
-      "rewards/margins": 1.0823583602905273,
-      "rewards/rejected": -5.505368709564209,
       "step": 350
     },
     {
       "epoch": 0.82,
-      "grad_norm": 55.26630420954737,
       "learning_rate": 9.549150281252633e-09,
-      "logits/chosen": -1.6259968280792236,
-      "logits/rejected": -1.5858485698699951,
-      "logps/chosen": -3.211542844772339,
-      "logps/rejected": -3.735614776611328,
-      "loss": 0.9729,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -4.078815460205078,
-      "rewards/margins": 0.9446828961372375,
-      "rewards/rejected": -5.02349853515625,
       "step": 360
     },
     {
       "epoch": 0.84,
-      "grad_norm": 51.52261591377872,
       "learning_rate": 7.3420401072985306e-09,
-      "logits/chosen": -1.6755279302597046,
-      "logits/rejected": -1.6221554279327393,
-      "logps/chosen": -3.299112319946289,
-      "logps/rejected": -3.911120653152466,
-      "loss": 0.9649,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -4.168996810913086,
-      "rewards/margins": 1.1090896129608154,
-      "rewards/rejected": -5.2780866622924805,
       "step": 370
     },
     {
       "epoch": 0.86,
-      "grad_norm": 51.72886520205544,
       "learning_rate": 5.404627290395369e-09,
-      "logits/chosen": -1.6374752521514893,
-      "logits/rejected": -1.5786619186401367,
-      "logps/chosen": -3.220484972000122,
-      "logps/rejected": -3.803584337234497,
-      "loss": 0.968,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -4.061758518218994,
-      "rewards/margins": 1.0862071514129639,
-      "rewards/rejected": -5.147965431213379,
       "step": 380
     },
     {
       "epoch": 0.89,
-      "grad_norm": 55.56376010319163,
       "learning_rate": 3.74916077816162e-09,
-      "logits/chosen": -1.6384235620498657,
-      "logits/rejected": -1.5836341381072998,
-      "logps/chosen": -3.2395005226135254,
-      "logps/rejected": -3.746983051300049,
-      "loss": 1.0011,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -4.179410934448242,
-      "rewards/margins": 0.982707142829895,
-      "rewards/rejected": -5.162117958068848,
       "step": 390
     },
     {
       "epoch": 0.91,
-      "grad_norm": 54.81143409505458,
       "learning_rate": 2.386106962899165e-09,
-      "logits/chosen": -1.5698174238204956,
-      "logits/rejected": -1.5115009546279907,
-      "logps/chosen": -3.4176878929138184,
-      "logps/rejected": -3.958037853240967,
-      "loss": 0.9695,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -4.382534027099609,
-      "rewards/margins": 0.9680202603340149,
-      "rewards/rejected": -5.350554466247559,
       "step": 400
     },
     {
       "epoch": 0.93,
-      "grad_norm": 56.75402221437199,
       "learning_rate": 1.3240835096913706e-09,
-      "logits/chosen": -1.594696283340454,
-      "logits/rejected": -1.502890944480896,
-      "logps/chosen": -3.213305711746216,
-      "logps/rejected": -3.921264171600342,
-      "loss": 1.0286,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -4.083509922027588,
-      "rewards/margins": 1.2770874500274658,
-      "rewards/rejected": -5.360597133636475,
       "step": 410
     },
     {
       "epoch": 0.96,
-      "grad_norm": 47.085112169528884,
       "learning_rate": 5.698048727497462e-10,
-      "logits/chosen": -1.6298091411590576,
-      "logits/rejected": -1.5658090114593506,
-      "logps/chosen": -3.3380351066589355,
-      "logps/rejected": -3.9660251140594482,
-      "loss": 0.983,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -4.293475151062012,
-      "rewards/margins": 1.1220663785934448,
-      "rewards/rejected": -5.415541648864746,
       "step": 420
     },
     {
       "epoch": 0.98,
-      "grad_norm": 46.70771599324875,
       "learning_rate": 1.2803984447259387e-10,
-      "logits/chosen": -1.6368719339370728,
-      "logits/rejected": -1.5942411422729492,
-      "logps/chosen": -3.3361122608184814,
-      "logps/rejected": -3.98066782951355,
-      "loss": 0.9434,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -4.3075456619262695,
-      "rewards/margins": 1.1938055753707886,
-      "rewards/rejected": -5.501351356506348,
       "step": 430
     },
     {
       "epoch": 1.0,
       "step": 439,
       "total_flos": 0.0,
-      "train_loss": 1.0809600353240967,
-      "train_runtime": 6838.8864,
-      "train_samples_per_second": 8.223,
       "train_steps_per_second": 0.064
     }
   ],

   "log_history": [
     {
       "epoch": 0.0,
+      "grad_norm": 113.4577168560686,
       "learning_rate": 2.2727272727272727e-09,
       "logits/chosen": -1.6768856048583984,
       "logits/rejected": -1.7259055376052856,
       "logps/chosen": -1.2793102264404297,
       "logps/rejected": -1.2162058353424072,
+      "loss": 0.6934,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
     },
     {
       "epoch": 0.02,
+      "grad_norm": 129.24988403709358,
       "learning_rate": 2.2727272727272725e-08,
+      "logits/chosen": -1.7028687000274658,
+      "logits/rejected": -1.6680525541305542,
+      "logps/chosen": -1.2131904363632202,
+      "logps/rejected": -1.2204842567443848,
+      "loss": 0.6933,
+      "rewards/accuracies": 0.4652777910232544,
+      "rewards/chosen": 0.0011519736144691706,
+      "rewards/margins": -0.001473029493354261,
+      "rewards/rejected": 0.0026250029914081097,
       "step": 10
     },
     {
       "epoch": 0.05,
+      "grad_norm": 128.90531745075424,
       "learning_rate": 4.545454545454545e-08,
+      "logits/chosen": -1.7795600891113281,
+      "logits/rejected": -1.7348560094833374,
+      "logps/chosen": -1.1446261405944824,
+      "logps/rejected": -1.1849511861801147,
+      "loss": 0.6903,
+      "rewards/accuracies": 0.518750011920929,
+      "rewards/chosen": -0.01403624564409256,
+      "rewards/margins": 0.0008796676993370056,
+      "rewards/rejected": -0.014915913343429565,
       "step": 20
     },
     {
       "epoch": 0.07,
+      "grad_norm": 130.88686983721493,
       "learning_rate": 6.818181818181817e-08,
+      "logits/chosen": -1.7440669536590576,
+      "logits/rejected": -1.6752160787582397,
+      "logps/chosen": -1.194157600402832,
+      "logps/rejected": -1.246543526649475,
+      "loss": 0.6755,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.11256156116724014,
+      "rewards/margins": 0.05156043916940689,
+      "rewards/rejected": -0.16412200033664703,
       "step": 30
     },
     {
       "epoch": 0.09,
+      "grad_norm": 99.69346579706567,
       "learning_rate": 9.09090909090909e-08,
+      "logits/chosen": -1.7316129207611084,
+      "logits/rejected": -1.6658855676651,
+      "logps/chosen": -1.2354015111923218,
+      "logps/rejected": -1.3086662292480469,
+      "loss": 0.6598,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.28453049063682556,
+      "rewards/margins": 0.20941098034381866,
+      "rewards/rejected": -0.49394145607948303,
       "step": 40
     },
     {
       "epoch": 0.11,
+      "grad_norm": 94.76247831424028,
       "learning_rate": 9.994307990108962e-08,
+      "logits/chosen": -1.6965711116790771,
+      "logits/rejected": -1.6329838037490845,
+      "logps/chosen": -1.254882574081421,
+      "logps/rejected": -1.3045636415481567,
+      "loss": 0.6257,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.4679547846317291,
+      "rewards/margins": 0.29588648676872253,
+      "rewards/rejected": -0.7638412714004517,
       "step": 50
     },
     {
       "epoch": 0.14,
+      "grad_norm": 134.02849477110337,
       "learning_rate": 9.959570405988094e-08,
+      "logits/chosen": -1.7339792251586914,
+      "logits/rejected": -1.6545541286468506,
+      "logps/chosen": -1.1747747659683228,
+      "logps/rejected": -1.2515872716903687,
+      "loss": 0.628,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.6567646265029907,
+      "rewards/margins": 0.2488430291414261,
+      "rewards/rejected": -0.9056077003479004,
       "step": 60
     },
     {
       "epoch": 0.16,
+      "grad_norm": 81.9825685637945,
       "learning_rate": 9.893476820924666e-08,
+      "logits/chosen": -1.8203418254852295,
+      "logits/rejected": -1.7378566265106201,
+      "logps/chosen": -1.2860430479049683,
+      "logps/rejected": -1.3670638799667358,
+      "loss": 0.5884,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.732010006904602,
+      "rewards/margins": 0.3435601592063904,
+      "rewards/rejected": -1.0755703449249268,
       "step": 70
     },
     {
       "epoch": 0.18,
+      "grad_norm": 111.43014849080478,
       "learning_rate": 9.796445099843647e-08,
+      "logits/chosen": -1.8093068599700928,
+      "logits/rejected": -1.7265288829803467,
+      "logps/chosen": -1.2918837070465088,
+      "logps/rejected": -1.3895039558410645,
+      "loss": 0.6282,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.8491527438163757,
+      "rewards/margins": 0.3709031641483307,
+      "rewards/rejected": -1.2200558185577393,
       "step": 80
     },
     {
       "epoch": 0.2,
+      "grad_norm": 99.11416934571663,
       "learning_rate": 9.669088708527066e-08,
+      "logits/chosen": -1.756994605064392,
+      "logits/rejected": -1.6932170391082764,
+      "logps/chosen": -1.3391311168670654,
+      "logps/rejected": -1.3889451026916504,
+      "loss": 0.5898,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -1.0343393087387085,
+      "rewards/margins": 0.4276931881904602,
+      "rewards/rejected": -1.462032437324524,
       "step": 90
     },
     {
       "epoch": 0.23,
+      "grad_norm": 108.94100525225643,
       "learning_rate": 9.512212835085849e-08,
+      "logits/chosen": -1.7921009063720703,
+      "logits/rejected": -1.7081331014633179,
+      "logps/chosen": -1.2848669290542603,
+      "logps/rejected": -1.379817247390747,
+      "loss": 0.5831,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -1.1641167402267456,
+      "rewards/margins": 0.5224048495292664,
+      "rewards/rejected": -1.6865215301513672,
       "step": 100
     },
     {
       "epoch": 0.25,
+      "grad_norm": 94.58328257186776,
       "learning_rate": 9.326809299301306e-08,
+      "logits/chosen": -1.7934032678604126,
+      "logits/rejected": -1.692413568496704,
+      "logps/chosen": -1.3193799257278442,
+      "logps/rejected": -1.4346280097961426,
+      "loss": 0.5776,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.1873786449432373,
+      "rewards/margins": 0.6364501714706421,
+      "rewards/rejected": -1.8238286972045898,
       "step": 110
     },
     {
       "epoch": 0.27,
+      "grad_norm": 123.65835816529943,
       "learning_rate": 9.114050282021158e-08,
+      "logits/chosen": -1.7867753505706787,
+      "logits/rejected": -1.7270488739013672,
+      "logps/chosen": -1.2704253196716309,
+      "logps/rejected": -1.373067855834961,
+      "loss": 0.5626,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.228627324104309,
+      "rewards/margins": 0.5525014400482178,
+      "rewards/rejected": -1.7811288833618164,
       "step": 120
     },
     {
       "epoch": 0.3,
+      "grad_norm": 95.55607076940454,
       "learning_rate": 8.875280914254802e-08,
+      "logits/chosen": -1.7855722904205322,
+      "logits/rejected": -1.6952784061431885,
+      "logps/chosen": -1.3185499906539917,
+      "logps/rejected": -1.4162604808807373,
+      "loss": 0.5666,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.2571992874145508,
+      "rewards/margins": 0.6928548812866211,
+      "rewards/rejected": -1.9500541687011719,
       "step": 130
     },
     {
       "epoch": 0.32,
+      "grad_norm": 78.06311583858023,
       "learning_rate": 8.612010772821971e-08,
+      "logits/chosen": -1.8129308223724365,
+      "logits/rejected": -1.7682344913482666,
+      "logps/chosen": -1.3229562044143677,
+      "logps/rejected": -1.361987829208374,
+      "loss": 0.5656,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.0907716751098633,
+      "rewards/margins": 0.6394159197807312,
+      "rewards/rejected": -1.7301876544952393,
       "step": 140
     },
     {
       "epoch": 0.34,
+      "grad_norm": 78.88051547861711,
       "learning_rate": 8.325904336322055e-08,
+      "logits/chosen": -1.7850853204727173,
+      "logits/rejected": -1.7291721105575562,
+      "logps/chosen": -1.2866876125335693,
+      "logps/rejected": -1.402489423751831,
+      "loss": 0.5657,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.1932275295257568,
+      "rewards/margins": 0.6862825155258179,
+      "rewards/rejected": -1.8795099258422852,
       "step": 150
     },
     {
       "epoch": 0.36,
+      "grad_norm": 80.61975465340338,
       "learning_rate": 8.01877046176447e-08,
+      "logits/chosen": -1.7330862283706665,
+      "logits/rejected": -1.6600639820098877,
+      "logps/chosen": -1.312774419784546,
+      "logps/rejected": -1.419638991355896,
+      "loss": 0.566,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -1.3447433710098267,
+      "rewards/margins": 0.5547876358032227,
+      "rewards/rejected": -1.8995310068130493,
       "step": 160
     },
     {
       "epoch": 0.39,
+      "grad_norm": 78.96860347790852,
       "learning_rate": 7.692550948392249e-08,
+      "logits/chosen": -1.7879507541656494,
+      "logits/rejected": -1.7219922542572021,
+      "logps/chosen": -1.3235785961151123,
+      "logps/rejected": -1.3983043432235718,
+      "loss": 0.5589,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.1332305669784546,
+      "rewards/margins": 0.6428099870681763,
+      "rewards/rejected": -1.7760404348373413,
       "step": 170
     },
     {
       "epoch": 0.41,
+      "grad_norm": 91.20361542856642,
       "learning_rate": 7.349308261002021e-08,
+      "logits/chosen": -1.744236707687378,
+      "logits/rejected": -1.685158133506775,
+      "logps/chosen": -1.3169732093811035,
+      "logps/rejected": -1.422654390335083,
+      "loss": 0.5541,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.1988707780838013,
+      "rewards/margins": 0.5603083372116089,
+      "rewards/rejected": -1.7591791152954102,
       "step": 180
     },
     {
       "epoch": 0.43,
+      "grad_norm": 85.52532511636508,
       "learning_rate": 6.991212490377531e-08,
+      "logits/chosen": -1.7989540100097656,
+      "logits/rejected": -1.7449232339859009,
+      "logps/chosen": -1.341355562210083,
+      "logps/rejected": -1.4322634935379028,
+      "loss": 0.528,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.112524390220642,
+      "rewards/margins": 0.6936608552932739,
+      "rewards/rejected": -1.8061851263046265,
       "step": 190
     },
     {
       "epoch": 0.46,
+      "grad_norm": 103.62294205062797,
       "learning_rate": 6.620527633276978e-08,
+      "logits/chosen": -1.7379404306411743,
+      "logits/rejected": -1.6623157262802124,
+      "logps/chosen": -1.307138204574585,
+      "logps/rejected": -1.4737988710403442,
+      "loss": 0.54,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.126852035522461,
+      "rewards/margins": 0.7987160682678223,
+      "rewards/rejected": -1.9255679845809937,
       "step": 200
     },
     {
       "epoch": 0.48,
+      "grad_norm": 97.12306479641116,
       "learning_rate": 6.239597278716581e-08,
+      "logits/chosen": -1.8088064193725586,
+      "logits/rejected": -1.74566650390625,
+      "logps/chosen": -1.3601690530776978,
+      "logps/rejected": -1.421120285987854,
+      "loss": 0.5357,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.1483900547027588,
+      "rewards/margins": 0.8161466717720032,
+      "rewards/rejected": -1.9645369052886963,
       "step": 210
     },
     {
       "epoch": 0.5,
+      "grad_norm": 73.94190937238754,
       "learning_rate": 5.8508297910462456e-08,
+      "logits/chosen": -1.75725519657135,
+      "logits/rejected": -1.6749064922332764,
+      "logps/chosen": -1.2782678604125977,
+      "logps/rejected": -1.4215964078903198,
+      "loss": 0.5266,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.147524356842041,
+      "rewards/margins": 0.8555541038513184,
+      "rewards/rejected": -2.0030786991119385,
       "step": 220
     },
     {
       "epoch": 0.52,
+      "grad_norm": 102.01553665817238,
       "learning_rate": 5.456683083494731e-08,
+      "logits/chosen": -1.7501509189605713,
+      "logits/rejected": -1.7102434635162354,
+      "logps/chosen": -1.2995601892471313,
+      "logps/rejected": -1.3736200332641602,
+      "loss": 0.5541,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.057513952255249,
+      "rewards/margins": 0.5031803846359253,
+      "rewards/rejected": -1.5606944561004639,
       "step": 230
     },
     {
       "epoch": 0.55,
+      "grad_norm": 111.25877684367076,
       "learning_rate": 5.059649078450834e-08,
+      "logits/chosen": -1.7446762323379517,
+      "logits/rejected": -1.6967140436172485,
+      "logps/chosen": -1.2858344316482544,
+      "logps/rejected": -1.407447338104248,
+      "loss": 0.5275,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.174809217453003,
+      "rewards/margins": 0.595741868019104,
+      "rewards/rejected": -1.770551085472107,
       "step": 240
     },
     {
       "epoch": 0.57,
+      "grad_norm": 89.74032522739078,
       "learning_rate": 4.6622379527277186e-08,
+      "logits/chosen": -1.7489802837371826,
+      "logits/rejected": -1.6957324743270874,
+      "logps/chosen": -1.262298345565796,
+      "logps/rejected": -1.361208438873291,
+      "loss": 0.5316,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -1.2340971231460571,
+      "rewards/margins": 0.6583037376403809,
+      "rewards/rejected": -1.8924009799957275,
       "step": 250
     },
     {
       "epoch": 0.59,
+      "grad_norm": 75.51753806333156,
       "learning_rate": 4.26696226741691e-08,
+      "logits/chosen": -1.7651500701904297,
+      "logits/rejected": -1.6915719509124756,
+      "logps/chosen": -1.3747735023498535,
+      "logps/rejected": -1.4673488140106201,
+      "loss": 0.5304,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -1.4194996356964111,
+      "rewards/margins": 0.7260831594467163,
+      "rewards/rejected": -2.145582914352417,
       "step": 260
     },
     {
       "epoch": 0.61,
+      "grad_norm": 81.81714896589709,
       "learning_rate": 3.876321082668098e-08,
+      "logits/chosen": -1.8280465602874756,
+      "logits/rejected": -1.7529118061065674,
+      "logps/chosen": -1.3470970392227173,
+      "logps/rejected": -1.435733437538147,
+      "loss": 0.5229,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -1.0860626697540283,
+      "rewards/margins": 0.7932750582695007,
+      "rewards/rejected": -1.8793376684188843,
       "step": 270
     },
     {
       "epoch": 0.64,
+      "grad_norm": 88.74965472733419,
       "learning_rate": 3.492784157826244e-08,
+      "logits/chosen": -1.7529668807983398,
+      "logits/rejected": -1.6530554294586182,
+      "logps/chosen": -1.3322269916534424,
+      "logps/rejected": -1.4489867687225342,
+      "loss": 0.5263,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.0935055017471313,
+      "rewards/margins": 0.8137003779411316,
+      "rewards/rejected": -1.9072058200836182,
       "step": 280
     },
     {
       "epoch": 0.66,
+      "grad_norm": 76.0414974261225,
       "learning_rate": 3.118776336817812e-08,
+      "logits/chosen": -1.7995818853378296,
+      "logits/rejected": -1.7317774295806885,
+      "logps/chosen": -1.3204050064086914,
+      "logps/rejected": -1.4101346731185913,
+      "loss": 0.5231,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.1715632677078247,
+      "rewards/margins": 0.8251334428787231,
+      "rewards/rejected": -1.9966968297958374,
       "step": 290
     },
     {
       "epoch": 0.68,
+      "grad_norm": 87.86932907500237,
       "learning_rate": 2.7566622175067443e-08,
+      "logits/chosen": -1.7801201343536377,
+      "logits/rejected": -1.7111116647720337,
+      "logps/chosen": -1.3444006443023682,
+      "logps/rejected": -1.494860053062439,
+      "loss": 0.5308,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.3581712245941162,
+      "rewards/margins": 0.7247291803359985,
+      "rewards/rejected": -2.082900285720825,
       "step": 300
     },
     {
       "epoch": 0.71,
+      "grad_norm": 101.39189225311264,
       "learning_rate": 2.408731201945432e-08,
+      "logits/chosen": -1.77533757686615,
+      "logits/rejected": -1.7264738082885742,
+      "logps/chosen": -1.313521146774292,
+      "logps/rejected": -1.4012606143951416,
+      "loss": 0.5179,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.1962579488754272,
+      "rewards/margins": 0.6758478283882141,
+      "rewards/rejected": -1.8721058368682861,
       "step": 310
     },
     {
       "epoch": 0.73,
+      "grad_norm": 97.55308734787654,
       "learning_rate": 2.0771830220378112e-08,
+      "logits/chosen": -1.7309653759002686,
+      "logits/rejected": -1.673135757446289,
+      "logps/chosen": -1.3468959331512451,
+      "logps/rejected": -1.405505895614624,
+      "loss": 0.5257,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -1.240114450454712,
+      "rewards/margins": 0.6646026968955994,
+      "rewards/rejected": -1.9047170877456665,
       "step": 320
     },
     {
       "epoch": 0.75,
+      "grad_norm": 79.56679512217426,
       "learning_rate": 1.7641138321260257e-08,
+      "logits/chosen": -1.7662233114242554,
+      "logits/rejected": -1.6911147832870483,
+      "logps/chosen": -1.3011645078659058,
+      "logps/rejected": -1.418474555015564,
+      "loss": 0.5175,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.1730973720550537,
+      "rewards/margins": 0.8977500796318054,
+      "rewards/rejected": -2.070847511291504,
       "step": 330
     },
     {
       "epoch": 0.77,
+      "grad_norm": 78.95443991883164,
       "learning_rate": 1.4715029564277793e-08,
+      "logits/chosen": -1.8377494812011719,
+      "logits/rejected": -1.785035490989685,
+      "logps/chosen": -1.3052855730056763,
+      "logps/rejected": -1.4216973781585693,
+      "loss": 0.535,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.0062506198883057,
+      "rewards/margins": 0.7934825420379639,
+      "rewards/rejected": -1.7997331619262695,
       "step": 340
     },
     {
       "epoch": 0.8,
+      "grad_norm": 85.7404253023672,
       "learning_rate": 1.2012003751113343e-08,
+      "logits/chosen": -1.8215789794921875,
+      "logits/rejected": -1.7556202411651611,
+      "logps/chosen": -1.2944856882095337,
+      "logps/rejected": -1.427002191543579,
+      "loss": 0.5037,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.3231576681137085,
+      "rewards/margins": 0.8232595324516296,
+      "rewards/rejected": -2.1464171409606934,
       "step": 350
     },
     {
       "epoch": 0.82,
+      "grad_norm": 81.80824877374742,
       "learning_rate": 9.549150281252633e-09,
+      "logits/chosen": -1.7837785482406616,
+      "logits/rejected": -1.7289537191390991,
+      "logps/chosen": -1.2906091213226318,
+      "logps/rejected": -1.4211328029632568,
+      "loss": 0.5085,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.1847398281097412,
+      "rewards/margins": 0.7879296541213989,
+      "rewards/rejected": -1.9726696014404297,
       "step": 360
     },
     {
       "epoch": 0.84,
+      "grad_norm": 76.45542191386993,
       "learning_rate": 7.3420401072985306e-09,
+      "logits/chosen": -1.8155953884124756,
+      "logits/rejected": -1.7616589069366455,
+      "logps/chosen": -1.3416122198104858,
+      "logps/rejected": -1.4825923442840576,
+      "loss": 0.512,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.2699860334396362,
+      "rewards/margins": 0.8351644277572632,
+      "rewards/rejected": -2.1051506996154785,
       "step": 370
     },
     {
       "epoch": 0.86,
+      "grad_norm": 100.61500636796463,
       "learning_rate": 5.404627290395369e-09,
+      "logits/chosen": -1.7809003591537476,
+      "logits/rejected": -1.7117547988891602,
+      "logps/chosen": -1.299863338470459,
+      "logps/rejected": -1.4180821180343628,
+      "loss": 0.5139,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.1025749444961548,
+      "rewards/margins": 0.7822272777557373,
+      "rewards/rejected": -1.884802222251892,
       "step": 380
     },
     {
       "epoch": 0.89,
+      "grad_norm": 143.00077069598655,
       "learning_rate": 3.74916077816162e-09,
+      "logits/chosen": -1.7901942729949951,
+      "logits/rejected": -1.7254260778427124,
+      "logps/chosen": -1.2824052572250366,
+      "logps/rejected": -1.3659498691558838,
+      "loss": 0.5278,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.326103925704956,
+      "rewards/margins": 0.6741579174995422,
+      "rewards/rejected": -2.0002617835998535,
       "step": 390
     },
     {
       "epoch": 0.91,
+      "grad_norm": 86.78461219124101,
       "learning_rate": 2.386106962899165e-09,
+      "logits/chosen": -1.7145483493804932,
+      "logits/rejected": -1.6393749713897705,
+      "logps/chosen": -1.3581172227859497,
+      "logps/rejected": -1.4866178035736084,
+      "loss": 0.5223,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -1.3169643878936768,
+      "rewards/margins": 0.7216087579727173,
+      "rewards/rejected": -2.0385732650756836,
       "step": 400
     },
     {
       "epoch": 0.93,
+      "grad_norm": 97.03178172617403,
       "learning_rate": 1.3240835096913706e-09,
+      "logits/chosen": -1.7489525079727173,
+      "logits/rejected": -1.6416590213775635,
+      "logps/chosen": -1.2802146673202515,
+      "logps/rejected": -1.4399700164794922,
+      "loss": 0.5334,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.086639404296875,
+      "rewards/margins": 0.9034107327461243,
+      "rewards/rejected": -1.9900500774383545,
       "step": 410
     },
     {
       "epoch": 0.96,
+      "grad_norm": 177.7844461853396,
       "learning_rate": 5.698048727497462e-10,
+      "logits/chosen": -1.7718130350112915,
+      "logits/rejected": -1.6983397006988525,
+      "logps/chosen": -1.3178266286849976,
+      "logps/rejected": -1.4721015691757202,
+      "loss": 0.5219,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.2652876377105713,
+      "rewards/margins": 0.8731800317764282,
+      "rewards/rejected": -2.138467788696289,
       "step": 420
     },
     {
       "epoch": 0.98,
+      "grad_norm": 191.4766363479098,
       "learning_rate": 1.2803984447259387e-10,
+      "logits/chosen": -1.7818502187728882,
+      "logits/rejected": -1.721131682395935,
+      "logps/chosen": -1.3105113506317139,
+      "logps/rejected": -1.4450818300247192,
+      "loss": 0.5113,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.2817203998565674,
+      "rewards/margins": 0.869175910949707,
+      "rewards/rejected": -2.1508963108062744,
       "step": 430
     },
     {
       "epoch": 1.0,
       "step": 439,
       "total_flos": 0.0,
+      "train_loss": 0.5564739256078942,
+      "train_runtime": 6859.6403,
+      "train_samples_per_second": 8.198,
       "train_steps_per_second": 0.064
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76320bb76e913f17a8744a245dfdf080870c3a71ef8331b90daacf6e96edfb04
 size 6328

 version https://git-lfs.github.com/spec/v1
+oid sha256:54d6666ccc2cfff80afc700988ca128ec647e5b177dfc689ff47ee346912ad9c
 size 6328