Model save

Browse files

Files changed (8) hide show

all_results.json +3 -3
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
runs/Jul03_06-05-57_n136-129-074/events.out.tfevents.1719957980.n136-129-074.2672781.0 +2 -2
train_results.json +3 -3
trainer_state.json +432 -432
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.5750866080199396,
-    "train_runtime": 6876.7322,
     "train_samples": 56236,
-    "train_samples_per_second": 8.178,
     "train_steps_per_second": 0.064
 }

 {
     "epoch": 1.0,
+    "train_loss": 1.0809600353240967,
+    "train_runtime": 6838.8864,
     "train_samples": 56236,
+    "train_samples_per_second": 8.223,
     "train_steps_per_second": 0.064
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6621176b565448451d7eae3d8bd14fd5fd1fef4e2f88cf5a9d5c854ce3c605c3
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:7fed3152f0653eb477ecd4813f48e5b38badfc3072df7d0e51cd2dba373baab8
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c00164aa51a72eff6abefe93a27b79678c281dc71eb0d5b66cf12cdf16b78fb4
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:768cb2fc066c755a551c8baf1f36264d28e8a73d92a2bbaac0c88d3f0093a81f
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee2f9d7f97bbe93fd8937d911ba8fe3705cd1aa578b01f44961a2b34c1da3105
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6e1839f52689708dd2ac01be610d58ce047b76ccf162250f29b5556c599adad
 size 4540516344

runs/Jul03_06-05-57_n136-129-074/events.out.tfevents.1719957980.n136-129-074.2672781.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf8570549296d9d41edf4bb5e8d3b2a96c0f04c81e1400e08820a4a0e0ec7305
-size 32997

 version https://git-lfs.github.com/spec/v1
+oid sha256:76ec4090046dbd4e9d2d0d3f01f40390a1d76adaad09b0d1b4f70c3f6ea27a05
+size 35415

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.5750866080199396,
-    "train_runtime": 6876.7322,
     "train_samples": 56236,
-    "train_samples_per_second": 8.178,
     "train_steps_per_second": 0.064
 }

 {
     "epoch": 1.0,
+    "train_loss": 1.0809600353240967,
+    "train_runtime": 6838.8864,
     "train_samples": 56236,
+    "train_samples_per_second": 8.223,
     "train_steps_per_second": 0.064
 }

trainer_state.json CHANGED Viewed

@@ -10,13 +10,13 @@
   "log_history": [
     {
       "epoch": 0.0,
-      "grad_norm": 46.148553571593695,
       "learning_rate": 2.2727272727272727e-09,
       "logits/chosen": -1.6768856048583984,
       "logits/rejected": -1.7259055376052856,
       "logps/chosen": -1.2793102264404297,
       "logps/rejected": -1.2162058353424072,
-      "loss": 0.6933,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -25,656 +25,656 @@
     },
     {
       "epoch": 0.02,
-      "grad_norm": 51.49370478851895,
       "learning_rate": 2.2727272727272725e-08,
-      "logits/chosen": -1.7024296522140503,
-      "logits/rejected": -1.6681036949157715,
-      "logps/chosen": -1.2134602069854736,
-      "logps/rejected": -1.2201855182647705,
-      "loss": 0.6934,
-      "rewards/accuracies": 0.4166666567325592,
-      "rewards/chosen": -0.0006183187360875309,
-      "rewards/margins": -0.0028628669679164886,
-      "rewards/rejected": 0.002244548173621297,
       "step": 10
     },
     {
       "epoch": 0.05,
-      "grad_norm": 51.98148395544936,
       "learning_rate": 4.545454545454545e-08,
-      "logits/chosen": -1.7797874212265015,
-      "logits/rejected": -1.7346786260604858,
-      "logps/chosen": -1.144641637802124,
-      "logps/rejected": -1.1857845783233643,
-      "loss": 0.6917,
-      "rewards/accuracies": 0.6000000238418579,
-      "rewards/chosen": -0.005677336361259222,
-      "rewards/margins": 0.00362207368016243,
-      "rewards/rejected": -0.00929941050708294,
       "step": 20
     },
     {
       "epoch": 0.07,
-      "grad_norm": 53.07532238582354,
       "learning_rate": 6.818181818181817e-08,
-      "logits/chosen": -1.7449315786361694,
-      "logits/rejected": -1.6763038635253906,
-      "logps/chosen": -1.1949758529663086,
-      "logps/rejected": -1.247839093208313,
-      "loss": 0.6842,
-      "rewards/accuracies": 0.606249988079071,
-      "rewards/chosen": -0.048297375440597534,
-      "rewards/margins": 0.022534046322107315,
-      "rewards/rejected": -0.07083141803741455,
       "step": 30
     },
     {
       "epoch": 0.09,
-      "grad_norm": 38.722113074558656,
       "learning_rate": 9.09090909090909e-08,
-      "logits/chosen": -1.7315384149551392,
-      "logits/rejected": -1.6650068759918213,
-      "logps/chosen": -1.2470494508743286,
-      "logps/rejected": -1.3278839588165283,
-      "loss": 0.6711,
-      "rewards/accuracies": 0.6187499761581421,
-      "rewards/chosen": -0.16040349006652832,
-      "rewards/margins": 0.11404403299093246,
-      "rewards/rejected": -0.274447500705719,
       "step": 40
     },
     {
       "epoch": 0.11,
-      "grad_norm": 42.974027284467326,
       "learning_rate": 9.994307990108962e-08,
-      "logits/chosen": -1.694649338722229,
-      "logits/rejected": -1.6296478509902954,
-      "logps/chosen": -1.2850488424301147,
-      "logps/rejected": -1.34065842628479,
-      "loss": 0.6472,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.30784696340560913,
-      "rewards/margins": 0.14206835627555847,
-      "rewards/rejected": -0.4499153196811676,
       "step": 50
     },
     {
       "epoch": 0.14,
-      "grad_norm": 57.394151591405155,
       "learning_rate": 9.959570405988094e-08,
-      "logits/chosen": -1.7283236980438232,
-      "logits/rejected": -1.6481777429580688,
-      "logps/chosen": -1.2401286363601685,
-      "logps/rejected": -1.3243335485458374,
-      "loss": 0.6482,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.5241212248802185,
-      "rewards/margins": 0.12910696864128113,
-      "rewards/rejected": -0.6532281637191772,
       "step": 60
     },
     {
       "epoch": 0.16,
-      "grad_norm": 39.32038204769895,
       "learning_rate": 9.893476820924666e-08,
-      "logits/chosen": -1.8152574300765991,
-      "logits/rejected": -1.7302563190460205,
-      "logps/chosen": -1.3927916288375854,
-      "logps/rejected": -1.4982484579086304,
-      "loss": 0.6292,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -0.7197983264923096,
-      "rewards/margins": 0.23516786098480225,
-      "rewards/rejected": -0.9549661874771118,
       "step": 70
     },
     {
       "epoch": 0.18,
-      "grad_norm": 42.61872072458202,
       "learning_rate": 9.796445099843647e-08,
-      "logits/chosen": -1.8079169988632202,
-      "logits/rejected": -1.7261250019073486,
-      "logps/chosen": -1.3969148397445679,
-      "logps/rejected": -1.5204780101776123,
-      "loss": 0.6371,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": -0.7597857713699341,
-      "rewards/margins": 0.25213322043418884,
-      "rewards/rejected": -1.0119189023971558,
       "step": 80
     },
     {
       "epoch": 0.2,
-      "grad_norm": 46.415577032465364,
       "learning_rate": 9.669088708527066e-08,
-      "logits/chosen": -1.7607409954071045,
-      "logits/rejected": -1.6981712579727173,
-      "logps/chosen": -1.4422895908355713,
-      "logps/rejected": -1.513820767402649,
-      "loss": 0.6098,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.8263689875602722,
-      "rewards/margins": 0.2579457759857178,
-      "rewards/rejected": -1.0843145847320557,
       "step": 90
     },
     {
       "epoch": 0.23,
-      "grad_norm": 48.85282914944215,
       "learning_rate": 9.512212835085849e-08,
-      "logits/chosen": -1.8021045923233032,
-      "logits/rejected": -1.7189390659332275,
-      "logps/chosen": -1.4129152297973633,
-      "logps/rejected": -1.5352809429168701,
-      "loss": 0.6021,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.9778400659561157,
-      "rewards/margins": 0.3186227083206177,
-      "rewards/rejected": -1.2964627742767334,
       "step": 100
     },
     {
       "epoch": 0.25,
-      "grad_norm": 46.36151439283495,
       "learning_rate": 9.326809299301306e-08,
-      "logits/chosen": -1.79812490940094,
-      "logits/rejected": -1.6997324228286743,
-      "logps/chosen": -1.4540174007415771,
-      "logps/rejected": -1.604739785194397,
-      "loss": 0.5967,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -1.0135016441345215,
-      "rewards/margins": 0.396476686000824,
-      "rewards/rejected": -1.4099782705307007,
       "step": 110
     },
     {
       "epoch": 0.27,
-      "grad_norm": 45.302122433536,
       "learning_rate": 9.114050282021158e-08,
-      "logits/chosen": -1.793320894241333,
-      "logits/rejected": -1.7357345819473267,
-      "logps/chosen": -1.4166992902755737,
-      "logps/rejected": -1.558625340461731,
-      "loss": 0.5941,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -1.0765467882156372,
-      "rewards/margins": 0.37813490629196167,
-      "rewards/rejected": -1.454681634902954,
       "step": 120
     },
     {
       "epoch": 0.3,
-      "grad_norm": 44.726794355611766,
       "learning_rate": 8.875280914254802e-08,
-      "logits/chosen": -1.7930294275283813,
-      "logits/rejected": -1.7056195735931396,
-      "logps/chosen": -1.5269113779067993,
-      "logps/rejected": -1.6759881973266602,
-      "loss": 0.5783,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -1.3363250494003296,
-      "rewards/margins": 0.48260822892189026,
-      "rewards/rejected": -1.818933129310608,
       "step": 130
     },
     {
       "epoch": 0.32,
-      "grad_norm": 36.98397799808558,
       "learning_rate": 8.612010772821971e-08,
-      "logits/chosen": -1.8213390111923218,
-      "logits/rejected": -1.779136061668396,
-      "logps/chosen": -1.5163151025772095,
-      "logps/rejected": -1.6115764379501343,
-      "loss": 0.5802,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -1.2097442150115967,
-      "rewards/margins": 0.4806848466396332,
-      "rewards/rejected": -1.6904290914535522,
       "step": 140
     },
     {
       "epoch": 0.34,
-      "grad_norm": 35.445773953418566,
       "learning_rate": 8.325904336322055e-08,
-      "logits/chosen": -1.7982733249664307,
-      "logits/rejected": -1.7448923587799072,
-      "logps/chosen": -1.5137693881988525,
-      "logps/rejected": -1.6794990301132202,
-      "loss": 0.5856,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -1.3856182098388672,
-      "rewards/margins": 0.4742238521575928,
-      "rewards/rejected": -1.85984206199646,
       "step": 150
     },
     {
       "epoch": 0.36,
-      "grad_norm": 38.005517709582755,
       "learning_rate": 8.01877046176447e-08,
-      "logits/chosen": -1.7442073822021484,
-      "logits/rejected": -1.6729179620742798,
-      "logps/chosen": -1.5704376697540283,
-      "logps/rejected": -1.715036392211914,
-      "loss": 0.5782,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": -1.5685503482818604,
-      "rewards/margins": 0.37285223603248596,
-      "rewards/rejected": -1.9414026737213135,
       "step": 160
     },
     {
       "epoch": 0.39,
-      "grad_norm": 36.45337137576972,
       "learning_rate": 7.692550948392249e-08,
-      "logits/chosen": -1.794782042503357,
-      "logits/rejected": -1.7365185022354126,
-      "logps/chosen": -1.5552618503570557,
-      "logps/rejected": -1.6845000982284546,
-      "loss": 0.5771,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.3800251483917236,
-      "rewards/margins": 0.47517403960227966,
-      "rewards/rejected": -1.8551992177963257,
       "step": 170
     },
     {
       "epoch": 0.41,
-      "grad_norm": 46.08033558224558,
       "learning_rate": 7.349308261002021e-08,
-      "logits/chosen": -1.7525560855865479,
-      "logits/rejected": -1.6976267099380493,
-      "logps/chosen": -1.5552211999893188,
-      "logps/rejected": -1.716825246810913,
-      "loss": 0.5709,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -1.4325402975082397,
-      "rewards/margins": 0.4478151798248291,
-      "rewards/rejected": -1.8803554773330688,
       "step": 180
     },
     {
       "epoch": 0.43,
-      "grad_norm": 38.67140094316328,
       "learning_rate": 6.991212490377531e-08,
-      "logits/chosen": -1.8065755367279053,
-      "logits/rejected": -1.7572141885757446,
-      "logps/chosen": -1.594746470451355,
-      "logps/rejected": -1.7574079036712646,
-      "loss": 0.5479,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -1.458573579788208,
-      "rewards/margins": 0.5644782185554504,
-      "rewards/rejected": -2.0230517387390137,
       "step": 190
     },
     {
       "epoch": 0.46,
-      "grad_norm": 50.20778300695083,
       "learning_rate": 6.620527633276978e-08,
-      "logits/chosen": -1.744382619857788,
-      "logits/rejected": -1.6726484298706055,
-      "logps/chosen": -1.568552851676941,
-      "logps/rejected": -1.8165289163589478,
-      "loss": 0.5629,
-      "rewards/accuracies": 0.7437499761581421,
-      "rewards/chosen": -1.4963985681533813,
-      "rewards/margins": 0.6447495222091675,
-      "rewards/rejected": -2.1411478519439697,
       "step": 200
     },
     {
       "epoch": 0.48,
-      "grad_norm": 40.815630226191416,
       "learning_rate": 6.239597278716581e-08,
-      "logits/chosen": -1.807816743850708,
-      "logits/rejected": -1.746860146522522,
-      "logps/chosen": -1.6599668264389038,
-      "logps/rejected": -1.7937523126602173,
-      "loss": 0.5518,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -1.658548355102539,
-      "rewards/margins": 0.6177951097488403,
-      "rewards/rejected": -2.276343584060669,
       "step": 210
     },
     {
       "epoch": 0.5,
-      "grad_norm": 36.81107380199821,
       "learning_rate": 5.8508297910462456e-08,
-      "logits/chosen": -1.7586944103240967,
-      "logits/rejected": -1.6771053075790405,
-      "logps/chosen": -1.590494155883789,
-      "logps/rejected": -1.8014583587646484,
-      "loss": 0.5551,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.7079153060913086,
-      "rewards/margins": 0.6127630472183228,
-      "rewards/rejected": -2.320678234100342,
       "step": 220
     },
     {
       "epoch": 0.52,
-      "grad_norm": 42.81086496786825,
       "learning_rate": 5.456683083494731e-08,
-      "logits/chosen": -1.748581886291504,
-      "logits/rejected": -1.7098802328109741,
-      "logps/chosen": -1.5830055475234985,
-      "logps/rejected": -1.708268165588379,
-      "loss": 0.5748,
-      "rewards/accuracies": 0.637499988079071,
-      "rewards/chosen": -1.5567874908447266,
-      "rewards/margins": 0.40608254075050354,
-      "rewards/rejected": -1.9628700017929077,
       "step": 230
     },
     {
       "epoch": 0.55,
-      "grad_norm": 50.79898140443755,
       "learning_rate": 5.059649078450834e-08,
-      "logits/chosen": -1.7385135889053345,
-      "logits/rejected": -1.6935017108917236,
-      "logps/chosen": -1.5564693212509155,
-      "logps/rejected": -1.7349010705947876,
-      "loss": 0.5458,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -1.5524632930755615,
-      "rewards/margins": 0.46557125449180603,
-      "rewards/rejected": -2.0180344581604004,
       "step": 240
     },
     {
       "epoch": 0.57,
-      "grad_norm": 40.11976756667232,
       "learning_rate": 4.6622379527277186e-08,
-      "logits/chosen": -1.7455527782440186,
-      "logits/rejected": -1.694297432899475,
-      "logps/chosen": -1.564894437789917,
-      "logps/rejected": -1.7082773447036743,
-      "loss": 0.552,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -1.7040233612060547,
-      "rewards/margins": 0.44121259450912476,
-      "rewards/rejected": -2.1452362537384033,
       "step": 250
     },
     {
       "epoch": 0.59,
-      "grad_norm": 37.69291090254264,
       "learning_rate": 4.26696226741691e-08,
-      "logits/chosen": -1.7581895589828491,
-      "logits/rejected": -1.686743140220642,
-      "logps/chosen": -1.6672862768173218,
-      "logps/rejected": -1.827100396156311,
-      "loss": 0.5531,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": -1.7378520965576172,
-      "rewards/margins": 0.559387743473053,
-      "rewards/rejected": -2.2972397804260254,
       "step": 260
     },
     {
       "epoch": 0.61,
-      "grad_norm": 37.31506455169964,
       "learning_rate": 3.876321082668098e-08,
-      "logits/chosen": -1.8174455165863037,
-      "logits/rejected": -1.7460702657699585,
-      "logps/chosen": -1.6105009317398071,
-      "logps/rejected": -1.7751582860946655,
-      "loss": 0.5459,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -1.4880399703979492,
-      "rewards/margins": 0.6213944554328918,
-      "rewards/rejected": -2.1094346046447754,
       "step": 270
     },
     {
       "epoch": 0.64,
-      "grad_norm": 41.98836134697342,
       "learning_rate": 3.492784157826244e-08,
-      "logits/chosen": -1.746079444885254,
-      "logits/rejected": -1.6474275588989258,
-      "logps/chosen": -1.5982965230941772,
-      "logps/rejected": -1.793271780014038,
-      "loss": 0.5515,
       "rewards/accuracies": 0.71875,
-      "rewards/chosen": -1.5016809701919556,
-      "rewards/margins": 0.6383417844772339,
-      "rewards/rejected": -2.1400227546691895,
       "step": 280
     },
     {
       "epoch": 0.66,
-      "grad_norm": 33.538804743591584,
       "learning_rate": 3.118776336817812e-08,
-      "logits/chosen": -1.7901312112808228,
-      "logits/rejected": -1.7260141372680664,
-      "logps/chosen": -1.5818462371826172,
-      "logps/rejected": -1.7569477558135986,
-      "loss": 0.5398,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -1.5143903493881226,
-      "rewards/margins": 0.6715410351753235,
-      "rewards/rejected": -2.185931444168091,
       "step": 290
     },
     {
       "epoch": 0.68,
-      "grad_norm": 37.791320621822486,
       "learning_rate": 2.7566622175067443e-08,
-      "logits/chosen": -1.774738073348999,
-      "logits/rejected": -1.7078733444213867,
-      "logps/chosen": -1.6364281177520752,
-      "logps/rejected": -1.8677997589111328,
-      "loss": 0.5504,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -1.7113786935806274,
-      "rewards/margins": 0.6135402917861938,
-      "rewards/rejected": -2.3249192237854004,
       "step": 300
     },
     {
       "epoch": 0.71,
-      "grad_norm": 47.94773798292109,
       "learning_rate": 2.408731201945432e-08,
-      "logits/chosen": -1.7694079875946045,
-      "logits/rejected": -1.7203378677368164,
-      "logps/chosen": -1.58682119846344,
-      "logps/rejected": -1.7359449863433838,
-      "loss": 0.5402,
       "rewards/accuracies": 0.71875,
-      "rewards/chosen": -1.5717027187347412,
-      "rewards/margins": 0.5158768892288208,
-      "rewards/rejected": -2.0875794887542725,
       "step": 310
     },
     {
       "epoch": 0.73,
-      "grad_norm": 39.31637908975089,
       "learning_rate": 2.0771830220378112e-08,
-      "logits/chosen": -1.7262191772460938,
-      "logits/rejected": -1.6669414043426514,
-      "logps/chosen": -1.6197150945663452,
-      "logps/rejected": -1.7450358867645264,
-      "loss": 0.5428,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -1.5873229503631592,
-      "rewards/margins": 0.5326842665672302,
-      "rewards/rejected": -2.120007038116455,
       "step": 320
     },
     {
       "epoch": 0.75,
-      "grad_norm": 35.72559300297331,
       "learning_rate": 1.7641138321260257e-08,
-      "logits/chosen": -1.7627308368682861,
-      "logits/rejected": -1.6903340816497803,
-      "logps/chosen": -1.573824167251587,
-      "logps/rejected": -1.7837245464324951,
-      "loss": 0.5391,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -1.5598773956298828,
-      "rewards/margins": 0.729460597038269,
-      "rewards/rejected": -2.2893381118774414,
       "step": 330
     },
     {
       "epoch": 0.77,
-      "grad_norm": 35.42036199200566,
       "learning_rate": 1.4715029564277793e-08,
-      "logits/chosen": -1.8322217464447021,
-      "logits/rejected": -1.7827993631362915,
-      "logps/chosen": -1.5673482418060303,
-      "logps/rejected": -1.7686045169830322,
-      "loss": 0.5503,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.4507509469985962,
-      "rewards/margins": 0.6567715406417847,
-      "rewards/rejected": -2.107522487640381,
       "step": 340
     },
     {
       "epoch": 0.8,
-      "grad_norm": 44.416038802172494,
       "learning_rate": 1.2012003751113343e-08,
-      "logits/chosen": -1.8188507556915283,
-      "logits/rejected": -1.7558269500732422,
-      "logps/chosen": -1.5964884757995605,
-      "logps/rejected": -1.8198480606079102,
-      "loss": 0.5269,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.737273931503296,
-      "rewards/margins": 0.6926761269569397,
-      "rewards/rejected": -2.429949998855591,
       "step": 350
     },
     {
       "epoch": 0.82,
-      "grad_norm": 39.74205139024732,
       "learning_rate": 9.549150281252633e-09,
-      "logits/chosen": -1.779714822769165,
-      "logits/rejected": -1.7280519008636475,
-      "logps/chosen": -1.5766112804412842,
-      "logps/rejected": -1.7840029001235962,
-      "loss": 0.5288,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -1.6179043054580688,
-      "rewards/margins": 0.6226440072059631,
-      "rewards/rejected": -2.2405483722686768,
       "step": 360
     },
     {
       "epoch": 0.84,
-      "grad_norm": 36.101889257586436,
       "learning_rate": 7.3420401072985306e-09,
-      "logits/chosen": -1.8120644092559814,
-      "logits/rejected": -1.7584421634674072,
-      "logps/chosen": -1.6255983114242554,
-      "logps/rejected": -1.8503506183624268,
-      "loss": 0.5301,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -1.6439390182495117,
-      "rewards/margins": 0.6691535711288452,
-      "rewards/rejected": -2.3130927085876465,
       "step": 370
     },
     {
       "epoch": 0.86,
-      "grad_norm": 43.87255026178299,
       "learning_rate": 5.404627290395369e-09,
-      "logits/chosen": -1.7784290313720703,
-      "logits/rejected": -1.710515022277832,
-      "logps/chosen": -1.5699481964111328,
-      "logps/rejected": -1.777539610862732,
-      "loss": 0.5325,
       "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.5213696956634521,
-      "rewards/margins": 0.6703809499740601,
-      "rewards/rejected": -2.1917505264282227,
       "step": 380
     },
     {
       "epoch": 0.89,
-      "grad_norm": 61.61237275525204,
       "learning_rate": 3.74916077816162e-09,
-      "logits/chosen": -1.7858253717422485,
-      "logits/rejected": -1.7235454320907593,
-      "logps/chosen": -1.5679755210876465,
-      "logps/rejected": -1.7219339609146118,
-      "loss": 0.547,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -1.6727231740951538,
-      "rewards/margins": 0.5513177514076233,
-      "rewards/rejected": -2.2240407466888428,
       "step": 390
     },
     {
       "epoch": 0.91,
-      "grad_norm": 40.65037100090872,
       "learning_rate": 2.386106962899165e-09,
-      "logits/chosen": -1.7104368209838867,
-      "logits/rejected": -1.6373924016952515,
-      "logps/chosen": -1.6611610651016235,
-      "logps/rejected": -1.858628511428833,
-      "loss": 0.5418,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -1.738960862159729,
-      "rewards/margins": 0.5645102858543396,
-      "rewards/rejected": -2.303471088409424,
       "step": 400
     },
     {
       "epoch": 0.93,
-      "grad_norm": 41.948467770849064,
       "learning_rate": 1.3240835096913706e-09,
-      "logits/chosen": -1.7456386089324951,
-      "logits/rejected": -1.642713189125061,
-      "logps/chosen": -1.5583795309066772,
-      "logps/rejected": -1.812648057937622,
-      "loss": 0.5483,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -1.5473148822784424,
-      "rewards/margins": 0.7394167184829712,
-      "rewards/rejected": -2.286731481552124,
       "step": 410
     },
     {
       "epoch": 0.96,
-      "grad_norm": 31.441343774038174,
       "learning_rate": 5.698048727497462e-10,
-      "logits/chosen": -1.7712395191192627,
-      "logits/rejected": -1.6984872817993164,
-      "logps/chosen": -1.6279726028442383,
-      "logps/rejected": -1.870309829711914,
-      "loss": 0.536,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -1.7466990947723389,
-      "rewards/margins": 0.7015209794044495,
-      "rewards/rejected": -2.4482200145721436,
       "step": 420
     },
     {
       "epoch": 0.98,
-      "grad_norm": 37.032798704254134,
       "learning_rate": 1.2803984447259387e-10,
-      "logits/chosen": -1.781049370765686,
-      "logits/rejected": -1.7250728607177734,
-      "logps/chosen": -1.6147279739379883,
-      "logps/rejected": -1.8315696716308594,
-      "loss": 0.5305,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -1.7295538187026978,
-      "rewards/margins": 0.6767560243606567,
-      "rewards/rejected": -2.4063098430633545,
       "step": 430
     },
     {
       "epoch": 1.0,
       "step": 439,
       "total_flos": 0.0,
-      "train_loss": 0.5750866080199396,
-      "train_runtime": 6876.7322,
-      "train_samples_per_second": 8.178,
       "train_steps_per_second": 0.064
     }
   ],

   "log_history": [
     {
       "epoch": 0.0,
+      "grad_norm": 33.30332403665468,
       "learning_rate": 2.2727272727272727e-09,
       "logits/chosen": -1.6768856048583984,
       "logits/rejected": -1.7259055376052856,
       "logps/chosen": -1.2793102264404297,
       "logps/rejected": -1.2162058353424072,
+      "loss": 1.3133,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
     },
     {
       "epoch": 0.02,
+      "grad_norm": 37.64303926905523,
       "learning_rate": 2.2727272727272725e-08,
+      "logits/chosen": -1.7033135890960693,
+      "logits/rejected": -1.668673038482666,
+      "logps/chosen": -1.2131016254425049,
+      "logps/rejected": -1.22050142288208,
+      "loss": 1.313,
+      "rewards/accuracies": 0.4513888955116272,
+      "rewards/chosen": 0.00040783319855108857,
+      "rewards/margins": -8.263149356935173e-05,
+      "rewards/rejected": 0.0004904646775685251,
       "step": 10
     },
     {
       "epoch": 0.05,
+      "grad_norm": 38.69260337999141,
       "learning_rate": 4.545454545454545e-08,
+      "logits/chosen": -1.7795250415802002,
+      "logits/rejected": -1.7348783016204834,
+      "logps/chosen": -1.1448484659194946,
+      "logps/rejected": -1.1852957010269165,
+      "loss": 1.3122,
+      "rewards/accuracies": 0.5062500238418579,
+      "rewards/chosen": -0.003251913469284773,
+      "rewards/margins": 0.0004202231648378074,
+      "rewards/rejected": -0.003672136692330241,
       "step": 20
     },
     {
       "epoch": 0.07,
+      "grad_norm": 44.09359407998382,
       "learning_rate": 6.818181818181817e-08,
+      "logits/chosen": -1.7442439794540405,
+      "logits/rejected": -1.6752439737319946,
+      "logps/chosen": -1.1954559087753296,
+      "logps/rejected": -1.248280644416809,
+      "loss": 1.3059,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.025108838453888893,
+      "rewards/margins": 0.01119022723287344,
+      "rewards/rejected": -0.03629906848073006,
       "step": 30
     },
     {
       "epoch": 0.09,
+      "grad_norm": 28.883029165176804,
       "learning_rate": 9.09090909090909e-08,
+      "logits/chosen": -1.7305904626846313,
+      "logits/rejected": -1.6642875671386719,
+      "logps/chosen": -1.2533624172210693,
+      "logps/rejected": -1.3383153676986694,
+      "loss": 1.2922,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.09282750636339188,
+      "rewards/margins": 0.06525905430316925,
+      "rewards/rejected": -0.15808656811714172,
       "step": 40
     },
     {
       "epoch": 0.11,
+      "grad_norm": 36.39900209589975,
       "learning_rate": 9.994307990108962e-08,
+      "logits/chosen": -1.690720796585083,
+      "logits/rejected": -1.625451683998108,
+      "logps/chosen": -1.3044583797454834,
+      "logps/rejected": -1.3643444776535034,
+      "loss": 1.2643,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.19274269044399261,
+      "rewards/margins": 0.0795869454741478,
+      "rewards/rejected": -0.2723296284675598,
       "step": 50
     },
     {
       "epoch": 0.14,
+      "grad_norm": 43.081578827458706,
       "learning_rate": 9.959570405988094e-08,
+      "logits/chosen": -1.71735417842865,
+      "logits/rejected": -1.6361076831817627,
+      "logps/chosen": -1.3119524717330933,
+      "logps/rejected": -1.4046932458877563,
+      "loss": 1.2541,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.4057086110115051,
+      "rewards/margins": 0.0816243588924408,
+      "rewards/rejected": -0.4873329699039459,
       "step": 60
     },
     {
       "epoch": 0.16,
+      "grad_norm": 33.06897498171632,
       "learning_rate": 9.893476820924666e-08,
+      "logits/chosen": -1.7922325134277344,
+      "logits/rejected": -1.7017757892608643,
+      "logps/chosen": -1.5047810077667236,
+      "logps/rejected": -1.630091667175293,
+      "loss": 1.2355,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.5838777422904968,
+      "rewards/margins": 0.1572917252779007,
+      "rewards/rejected": -0.7411695718765259,
       "step": 70
     },
     {
       "epoch": 0.18,
+      "grad_norm": 37.24284057004877,
       "learning_rate": 9.796445099843647e-08,
+      "logits/chosen": -1.774518370628357,
+      "logits/rejected": -1.6856935024261475,
+      "logps/chosen": -1.5832115411758423,
+      "logps/rejected": -1.7514270544052124,
+      "loss": 1.232,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -0.7524863481521606,
+      "rewards/margins": 0.21537098288536072,
+      "rewards/rejected": -0.9678572416305542,
       "step": 80
     },
     {
       "epoch": 0.2,
+      "grad_norm": 45.064021238231845,
       "learning_rate": 9.669088708527066e-08,
+      "logits/chosen": -1.7184202671051025,
+      "logits/rejected": -1.6467373371124268,
+      "logps/chosen": -1.7363929748535156,
+      "logps/rejected": -1.8083902597427368,
+      "loss": 1.2104,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -1.0013912916183472,
+      "rewards/margins": 0.12990526854991913,
+      "rewards/rejected": -1.1312966346740723,
       "step": 90
     },
     {
       "epoch": 0.23,
+      "grad_norm": 44.286763175528534,
       "learning_rate": 9.512212835085849e-08,
+      "logits/chosen": -1.757889986038208,
+      "logits/rejected": -1.6645339727401733,
+      "logps/chosen": -1.779813528060913,
+      "logps/rejected": -1.9353383779525757,
+      "loss": 1.1819,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -1.2227165699005127,
+      "rewards/margins": 0.2256297618150711,
+      "rewards/rejected": -1.448346495628357,
       "step": 100
     },
     {
       "epoch": 0.25,
+      "grad_norm": 43.36692624974112,
       "learning_rate": 9.326809299301306e-08,
+      "logits/chosen": -1.761940360069275,
+      "logits/rejected": -1.6550146341323853,
+      "logps/chosen": -1.8854389190673828,
+      "logps/rejected": -2.1229450702667236,
+      "loss": 1.1674,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -1.369593620300293,
+      "rewards/margins": 0.371805876493454,
+      "rewards/rejected": -1.7413995265960693,
       "step": 110
     },
     {
       "epoch": 0.27,
+      "grad_norm": 41.78554813342914,
       "learning_rate": 9.114050282021158e-08,
+      "logits/chosen": -1.7491047382354736,
+      "logits/rejected": -1.6867637634277344,
+      "logps/chosen": -1.8475677967071533,
+      "logps/rejected": -2.0627474784851074,
+      "loss": 1.1591,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -1.400010108947754,
+      "rewards/margins": 0.3355749249458313,
+      "rewards/rejected": -1.7355849742889404,
       "step": 120
     },
     {
       "epoch": 0.3,
+      "grad_norm": 40.42754129950971,
       "learning_rate": 8.875280914254802e-08,
+      "logits/chosen": -1.737173080444336,
+      "logits/rejected": -1.644561529159546,
+      "logps/chosen": -2.0521700382232666,
+      "logps/rejected": -2.296677827835083,
+      "loss": 1.1348,
+      "rewards/accuracies": 0.668749988079071,
+      "rewards/chosen": -1.7186797857284546,
+      "rewards/margins": 0.43216562271118164,
+      "rewards/rejected": -2.1508452892303467,
       "step": 130
     },
     {
       "epoch": 0.32,
+      "grad_norm": 39.13812568144021,
       "learning_rate": 8.612010772821971e-08,
+      "logits/chosen": -1.7612278461456299,
+      "logits/rejected": -1.715679407119751,
+      "logps/chosen": -2.0781049728393555,
+      "logps/rejected": -2.2759194374084473,
+      "loss": 1.127,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -1.7284520864486694,
+      "rewards/margins": 0.4454485774040222,
+      "rewards/rejected": -2.173900604248047,
       "step": 140
     },
     {
       "epoch": 0.34,
+      "grad_norm": 37.596667789585375,
       "learning_rate": 8.325904336322055e-08,
+      "logits/chosen": -1.735419511795044,
+      "logits/rejected": -1.6814868450164795,
+      "logps/chosen": -2.305412769317627,
+      "logps/rejected": -2.55448317527771,
+      "loss": 1.1399,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -2.2760961055755615,
+      "rewards/margins": 0.4037933945655823,
+      "rewards/rejected": -2.679889440536499,
       "step": 150
     },
     {
       "epoch": 0.36,
+      "grad_norm": 37.85769539137667,
       "learning_rate": 8.01877046176447e-08,
+      "logits/chosen": -1.6751991510391235,
+      "logits/rejected": -1.6064836978912354,
+      "logps/chosen": -2.5598020553588867,
+      "logps/rejected": -2.8157076835632324,
+      "loss": 1.09,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -2.763003349304199,
+      "rewards/margins": 0.40903931856155396,
+      "rewards/rejected": -3.1720428466796875,
       "step": 160
     },
     {
       "epoch": 0.39,
+      "grad_norm": 33.932219318133306,
       "learning_rate": 7.692550948392249e-08,
+      "logits/chosen": -1.7231628894805908,
+      "logits/rejected": -1.6755987405776978,
+      "logps/chosen": -2.624762535095215,
+      "logps/rejected": -2.9136133193969727,
+      "loss": 1.1053,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -2.8290135860443115,
+      "rewards/margins": 0.5568121671676636,
+      "rewards/rejected": -3.3858256340026855,
       "step": 170
     },
     {
       "epoch": 0.41,
+      "grad_norm": 48.11500069751816,
       "learning_rate": 7.349308261002021e-08,
+      "logits/chosen": -1.6858348846435547,
+      "logits/rejected": -1.6378986835479736,
+      "logps/chosen": -2.640817165374756,
+      "logps/rejected": -2.949113368988037,
+      "loss": 1.0837,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -2.887462615966797,
+      "rewards/margins": 0.5172919034957886,
+      "rewards/rejected": -3.404754638671875,
       "step": 180
     },
     {
       "epoch": 0.43,
+      "grad_norm": 42.33388198011932,
       "learning_rate": 6.991212490377531e-08,
+      "logits/chosen": -1.7423484325408936,
+      "logits/rejected": -1.7037559747695923,
+      "logps/chosen": -2.6472008228302,
+      "logps/rejected": -3.0077877044677734,
+      "loss": 1.0335,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -2.834195613861084,
+      "rewards/margins": 0.6780903339385986,
+      "rewards/rejected": -3.5122859477996826,
       "step": 190
     },
     {
       "epoch": 0.46,
+      "grad_norm": 49.65676542149092,
       "learning_rate": 6.620527633276978e-08,
+      "logits/chosen": -1.6741564273834229,
+      "logits/rejected": -1.6151821613311768,
+      "logps/chosen": -2.735678195953369,
+      "logps/rejected": -3.225632905960083,
+      "loss": 1.0663,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -3.0824506282806396,
+      "rewards/margins": 0.80633145570755,
+      "rewards/rejected": -3.888781785964966,
       "step": 200
     },
     {
       "epoch": 0.48,
+      "grad_norm": 46.53275655997813,
       "learning_rate": 6.239597278716581e-08,
+      "logits/chosen": -1.7146323919296265,
+      "logits/rejected": -1.6657183170318604,
+      "logps/chosen": -3.098931312561035,
+      "logps/rejected": -3.467923641204834,
+      "loss": 1.0287,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -3.707202911376953,
+      "rewards/margins": 0.7793115377426147,
+      "rewards/rejected": -4.486514091491699,
       "step": 210
     },
     {
       "epoch": 0.5,
+      "grad_norm": 47.77625681519385,
       "learning_rate": 5.8508297910462456e-08,
+      "logits/chosen": -1.6560382843017578,
+      "logits/rejected": -1.5879056453704834,
+      "logps/chosen": -3.1243553161621094,
+      "logps/rejected": -3.6013519763946533,
+      "loss": 1.032,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -3.921679735183716,
+      "rewards/margins": 0.8384466171264648,
+      "rewards/rejected": -4.76012659072876,
       "step": 220
     },
     {
       "epoch": 0.52,
+      "grad_norm": 45.3152158322423,
       "learning_rate": 5.456683083494731e-08,
+      "logits/chosen": -1.6423381567001343,
+      "logits/rejected": -1.6075971126556396,
+      "logps/chosen": -3.002626419067383,
+      "logps/rejected": -3.339411497116089,
+      "loss": 1.068,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -3.6176345348358154,
+      "rewards/margins": 0.6260865330696106,
+      "rewards/rejected": -4.2437214851379395,
       "step": 230
     },
     {
       "epoch": 0.55,
+      "grad_norm": 50.18712381426658,
       "learning_rate": 5.059649078450834e-08,
+      "logits/chosen": -1.6221996545791626,
+      "logits/rejected": -1.587894082069397,
+      "logps/chosen": -2.9972426891326904,
+      "logps/rejected": -3.4068732261657715,
+      "loss": 1.0045,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -3.657778263092041,
+      "rewards/margins": 0.6951833963394165,
+      "rewards/rejected": -4.352961540222168,
       "step": 240
     },
     {
       "epoch": 0.57,
+      "grad_norm": 42.94625970616266,
       "learning_rate": 4.6622379527277186e-08,
+      "logits/chosen": -1.6361802816390991,
+      "logits/rejected": -1.5883018970489502,
+      "logps/chosen": -3.0472984313964844,
+      "logps/rejected": -3.4067275524139404,
+      "loss": 1.0159,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -3.816819429397583,
+      "rewards/margins": 0.65269935131073,
+      "rewards/rejected": -4.469518661499023,
       "step": 250
     },
     {
       "epoch": 0.59,
+      "grad_norm": 49.81189434860217,
       "learning_rate": 4.26696226741691e-08,
+      "logits/chosen": -1.6441590785980225,
+      "logits/rejected": -1.5848346948623657,
+      "logps/chosen": -3.2412009239196777,
+      "logps/rejected": -3.667572021484375,
+      "loss": 1.0333,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -4.0167555809021,
+      "rewards/margins": 0.8128072619438171,
+      "rewards/rejected": -4.829562664031982,
       "step": 260
     },
     {
       "epoch": 0.61,
+      "grad_norm": 46.698998113891435,
       "learning_rate": 3.876321082668098e-08,
+      "logits/chosen": -1.6987736225128174,
+      "logits/rejected": -1.6376842260360718,
+      "logps/chosen": -3.1670312881469727,
+      "logps/rejected": -3.625418186187744,
+      "loss": 1.0046,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -3.857081174850464,
+      "rewards/margins": 0.8981560468673706,
+      "rewards/rejected": -4.755237579345703,
       "step": 270
     },
     {
       "epoch": 0.64,
+      "grad_norm": 54.35348471111713,
       "learning_rate": 3.492784157826244e-08,
+      "logits/chosen": -1.63980233669281,
+      "logits/rejected": -1.552004337310791,
+      "logps/chosen": -3.2830092906951904,
+      "logps/rejected": -3.8152382373809814,
+      "loss": 1.0119,
       "rewards/accuracies": 0.71875,
+      "rewards/chosen": -4.120265483856201,
+      "rewards/margins": 0.9936790466308594,
+      "rewards/rejected": -5.113945007324219,
       "step": 280
     },
     {
       "epoch": 0.66,
+      "grad_norm": 44.812750561614926,
       "learning_rate": 3.118776336817812e-08,
+      "logits/chosen": -1.6625276803970337,
+      "logits/rejected": -1.6122783422470093,
+      "logps/chosen": -3.191256284713745,
+      "logps/rejected": -3.756882429122925,
+      "loss": 0.9859,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -3.97601580619812,
+      "rewards/margins": 1.1168193817138672,
+      "rewards/rejected": -5.092835426330566,
       "step": 290
     },
     {
       "epoch": 0.68,
+      "grad_norm": 45.89134253017904,
       "learning_rate": 2.7566622175067443e-08,
+      "logits/chosen": -1.6413261890411377,
+      "logits/rejected": -1.5825086832046509,
+      "logps/chosen": -3.339484691619873,
+      "logps/rejected": -3.9588654041290283,
+      "loss": 0.994,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -4.261802673339844,
+      "rewards/margins": 1.0827885866165161,
+      "rewards/rejected": -5.3445916175842285,
       "step": 300
     },
     {
       "epoch": 0.71,
+      "grad_norm": 47.840562340740895,
       "learning_rate": 2.408731201945432e-08,
+      "logits/chosen": -1.64263117313385,
+      "logits/rejected": -1.6013950109481812,
+      "logps/chosen": -3.251277446746826,
+      "logps/rejected": -3.651395082473755,
+      "loss": 1.0008,
       "rewards/accuracies": 0.71875,
+      "rewards/chosen": -4.11476469039917,
+      "rewards/margins": 0.7599252462387085,
+      "rewards/rejected": -4.874690532684326,
       "step": 310
     },
     {
       "epoch": 0.73,
+      "grad_norm": 51.79356167073485,
       "learning_rate": 2.0771830220378112e-08,
+      "logits/chosen": -1.5991486310958862,
+      "logits/rejected": -1.5396713018417358,
+      "logps/chosen": -3.2509543895721436,
+      "logps/rejected": -3.6364498138427734,
+      "loss": 1.0066,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": -4.056139945983887,
+      "rewards/margins": 0.7866916060447693,
+      "rewards/rejected": -4.842831611633301,
       "step": 320
     },
     {
       "epoch": 0.75,
+      "grad_norm": 43.99284684689101,
       "learning_rate": 1.7641138321260257e-08,
+      "logits/chosen": -1.6334537267684937,
+      "logits/rejected": -1.5692901611328125,
+      "logps/chosen": -3.158041477203369,
+      "logps/rejected": -3.8241424560546875,
+      "loss": 0.9807,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -3.9483726024627686,
+      "rewards/margins": 1.2771327495574951,
+      "rewards/rejected": -5.225505352020264,
       "step": 330
     },
     {
       "epoch": 0.77,
+      "grad_norm": 50.47520523412627,
       "learning_rate": 1.4715029564277793e-08,
+      "logits/chosen": -1.6923463344573975,
+      "logits/rejected": -1.6500104665756226,
+      "logps/chosen": -3.0949554443359375,
+      "logps/rejected": -3.6954338550567627,
+      "loss": 1.0051,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -3.7805895805358887,
+      "rewards/margins": 1.1268298625946045,
+      "rewards/rejected": -4.907419681549072,
       "step": 340
     },
     {
       "epoch": 0.8,
+      "grad_norm": 48.63775480340643,
       "learning_rate": 1.2012003751113343e-08,
+      "logits/chosen": -1.6796951293945312,
+      "logits/rejected": -1.6264684200286865,
+      "logps/chosen": -3.3736748695373535,
+      "logps/rejected": -3.9650447368621826,
+      "loss": 0.9726,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -4.423010349273682,
+      "rewards/margins": 1.0823583602905273,
+      "rewards/rejected": -5.505368709564209,
       "step": 350
     },
     {
       "epoch": 0.82,
+      "grad_norm": 55.26630420954737,
       "learning_rate": 9.549150281252633e-09,
+      "logits/chosen": -1.6259968280792236,
+      "logits/rejected": -1.5858485698699951,
+      "logps/chosen": -3.211542844772339,
+      "logps/rejected": -3.735614776611328,
+      "loss": 0.9729,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -4.078815460205078,
+      "rewards/margins": 0.9446828961372375,
+      "rewards/rejected": -5.02349853515625,
       "step": 360
     },
     {
       "epoch": 0.84,
+      "grad_norm": 51.52261591377872,
       "learning_rate": 7.3420401072985306e-09,
+      "logits/chosen": -1.6755279302597046,
+      "logits/rejected": -1.6221554279327393,
+      "logps/chosen": -3.299112319946289,
+      "logps/rejected": -3.911120653152466,
+      "loss": 0.9649,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -4.168996810913086,
+      "rewards/margins": 1.1090896129608154,
+      "rewards/rejected": -5.2780866622924805,
       "step": 370
     },
     {
       "epoch": 0.86,
+      "grad_norm": 51.72886520205544,
       "learning_rate": 5.404627290395369e-09,
+      "logits/chosen": -1.6374752521514893,
+      "logits/rejected": -1.5786619186401367,
+      "logps/chosen": -3.220484972000122,
+      "logps/rejected": -3.803584337234497,
+      "loss": 0.968,
       "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -4.061758518218994,
+      "rewards/margins": 1.0862071514129639,
+      "rewards/rejected": -5.147965431213379,
       "step": 380
     },
     {
       "epoch": 0.89,
+      "grad_norm": 55.56376010319163,
       "learning_rate": 3.74916077816162e-09,
+      "logits/chosen": -1.6384235620498657,
+      "logits/rejected": -1.5836341381072998,
+      "logps/chosen": -3.2395005226135254,
+      "logps/rejected": -3.746983051300049,
+      "loss": 1.0011,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -4.179410934448242,
+      "rewards/margins": 0.982707142829895,
+      "rewards/rejected": -5.162117958068848,
       "step": 390
     },
     {
       "epoch": 0.91,
+      "grad_norm": 54.81143409505458,
       "learning_rate": 2.386106962899165e-09,
+      "logits/chosen": -1.5698174238204956,
+      "logits/rejected": -1.5115009546279907,
+      "logps/chosen": -3.4176878929138184,
+      "logps/rejected": -3.958037853240967,
+      "loss": 0.9695,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -4.382534027099609,
+      "rewards/margins": 0.9680202603340149,
+      "rewards/rejected": -5.350554466247559,
       "step": 400
     },
     {
       "epoch": 0.93,
+      "grad_norm": 56.75402221437199,
       "learning_rate": 1.3240835096913706e-09,
+      "logits/chosen": -1.594696283340454,
+      "logits/rejected": -1.502890944480896,
+      "logps/chosen": -3.213305711746216,
+      "logps/rejected": -3.921264171600342,
+      "loss": 1.0286,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -4.083509922027588,
+      "rewards/margins": 1.2770874500274658,
+      "rewards/rejected": -5.360597133636475,
       "step": 410
     },
     {
       "epoch": 0.96,
+      "grad_norm": 47.085112169528884,
       "learning_rate": 5.698048727497462e-10,
+      "logits/chosen": -1.6298091411590576,
+      "logits/rejected": -1.5658090114593506,
+      "logps/chosen": -3.3380351066589355,
+      "logps/rejected": -3.9660251140594482,
+      "loss": 0.983,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -4.293475151062012,
+      "rewards/margins": 1.1220663785934448,
+      "rewards/rejected": -5.415541648864746,
       "step": 420
     },
     {
       "epoch": 0.98,
+      "grad_norm": 46.70771599324875,
       "learning_rate": 1.2803984447259387e-10,
+      "logits/chosen": -1.6368719339370728,
+      "logits/rejected": -1.5942411422729492,
+      "logps/chosen": -3.3361122608184814,
+      "logps/rejected": -3.98066782951355,
+      "loss": 0.9434,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -4.3075456619262695,
+      "rewards/margins": 1.1938055753707886,
+      "rewards/rejected": -5.501351356506348,
       "step": 430
     },
     {
       "epoch": 1.0,
       "step": 439,
       "total_flos": 0.0,
+      "train_loss": 1.0809600353240967,
+      "train_runtime": 6838.8864,
+      "train_samples_per_second": 8.223,
       "train_steps_per_second": 0.064
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:54d6666ccc2cfff80afc700988ca128ec647e5b177dfc689ff47ee346912ad9c
 size 6328

 version https://git-lfs.github.com/spec/v1
+oid sha256:76320bb76e913f17a8744a245dfdf080870c3a71ef8331b90daacf6e96edfb04
 size 6328