Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

model-00001-of-00002.safetensors +1 -1
model-00002-of-00002.safetensors +1 -1
optimizer.pt +2 -2
scheduler.pt +1 -1
trainer_state.json +1023 -3

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f66bfb42982b8c06c9bc25b8b99d14435f7a44a4827e6f1c4f4f62b47436fd6f
 size 4996670464

 version https://git-lfs.github.com/spec/v1
+oid sha256:035fcee6ade42d8a6e210e0bfb333167cdc4142533f169f6bd7e5c2c8b59ca73
 size 4996670464

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c9c22855dcd0d98bb0e09d292039b2831909be91813061f03aa2692016df446
 size 1178224960

 version https://git-lfs.github.com/spec/v1
+oid sha256:5021db8004c45a9a530ca6803cb7f47e7efcbccaab5aa96fe3152fc5d66ad20a
 size 1178224960

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a2af9d07fb61306ec347f800e5ef1d06cd08a760bc2a70df53fd800b38069f3
-size 3094642562

 version https://git-lfs.github.com/spec/v1
+oid sha256:74c17b077acfeba0f92ffed7849a96f3861ffba1ac7f25e9d00e928a0c556655
+size 3094642882

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aca84d21747b494f2647f19153afa27bad629c2a874992b2bbe3f010aee01c0c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a742e5814e33065999dacc80c1127cad656555ce6fc832d7c43bde53fdae9c09
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.021066583570698138,
   "eval_steps": 5000,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -347,6 +347,1026 @@
       "rewards/rejected": -0.4050002992153168,
       "sft_loss": 0.4557226896286011,
       "step": 200
     }
   ],
   "logging_steps": 10,
@@ -366,7 +1386,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4746225175966515e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.08426633428279255,
   "eval_steps": 5000,
+  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/rejected": -0.4050002992153168,
       "sft_loss": 0.4557226896286011,
       "step": 200
+    },
+    {
+      "epoch": 0.022119912749233046,
+      "grad_norm": 5.377903938293457,
+      "learning_rate": 0.00011052631578947368,
+      "logits/chosen": -2.777975559234619,
+      "logits/rejected": -2.778069257736206,
+      "logps/chosen": -0.663443922996521,
+      "logps/rejected": -3.8639333248138428,
+      "loss": 0.69,
+      "odds_ratio_loss": 1.9626834392547607,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": -0.06634439527988434,
+      "rewards/margins": 0.3200489580631256,
+      "rewards/rejected": -0.38639336824417114,
+      "sft_loss": 0.4936945140361786,
+      "step": 210
+    },
+    {
+      "epoch": 0.02317324192776795,
+      "grad_norm": 11.14415454864502,
+      "learning_rate": 0.00011578947368421053,
+      "logits/chosen": -2.69752836227417,
+      "logits/rejected": -2.6975817680358887,
+      "logps/chosen": -0.7092010378837585,
+      "logps/rejected": -3.6659300327301025,
+      "loss": 0.7441,
+      "odds_ratio_loss": 2.298079013824463,
+      "rewards/accuracies": 0.8354166746139526,
+      "rewards/chosen": -0.07092010229825974,
+      "rewards/margins": 0.29567286372184753,
+      "rewards/rejected": -0.36659297347068787,
+      "sft_loss": 0.5143173933029175,
+      "step": 220
+    },
+    {
+      "epoch": 0.024226571106302858,
+      "grad_norm": 17.70037269592285,
+      "learning_rate": 0.00012105263157894738,
+      "logits/chosen": -2.8756678104400635,
+      "logits/rejected": -2.875657796859741,
+      "logps/chosen": -0.639348566532135,
+      "logps/rejected": -4.930140018463135,
+      "loss": 0.6653,
+      "odds_ratio_loss": 2.042109489440918,
+      "rewards/accuracies": 0.8958333134651184,
+      "rewards/chosen": -0.06393485516309738,
+      "rewards/margins": 0.42907920479774475,
+      "rewards/rejected": -0.49301406741142273,
+      "sft_loss": 0.4610413908958435,
+      "step": 230
+    },
+    {
+      "epoch": 0.025279900284837765,
+      "grad_norm": 22.880346298217773,
+      "learning_rate": 0.0001263157894736842,
+      "logits/chosen": -3.3157336711883545,
+      "logits/rejected": -3.3157567977905273,
+      "logps/chosen": -1.2456268072128296,
+      "logps/rejected": -5.491827964782715,
+      "loss": 1.3155,
+      "odds_ratio_loss": 4.847614765167236,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -0.12456268817186356,
+      "rewards/margins": 0.4246201515197754,
+      "rewards/rejected": -0.5491827726364136,
+      "sft_loss": 0.8306990265846252,
+      "step": 240
+    },
+    {
+      "epoch": 0.026333229463372673,
+      "grad_norm": 5.729049205780029,
+      "learning_rate": 0.00013157894736842105,
+      "logits/chosen": -2.5473344326019287,
+      "logits/rejected": -2.5469789505004883,
+      "logps/chosen": -0.749646008014679,
+      "logps/rejected": -6.155911445617676,
+      "loss": 0.7811,
+      "odds_ratio_loss": 2.4923181533813477,
+      "rewards/accuracies": 0.8645833134651184,
+      "rewards/chosen": -0.07496459782123566,
+      "rewards/margins": 0.5406264662742615,
+      "rewards/rejected": -0.6155910491943359,
+      "sft_loss": 0.5319061875343323,
+      "step": 250
+    },
+    {
+      "epoch": 0.027386558641907578,
+      "grad_norm": 11.868535995483398,
+      "learning_rate": 0.00013684210526315792,
+      "logits/chosen": -2.9207849502563477,
+      "logits/rejected": -2.9205822944641113,
+      "logps/chosen": -0.8412100076675415,
+      "logps/rejected": -5.425389289855957,
+      "loss": 0.8748,
+      "odds_ratio_loss": 3.032189130783081,
+      "rewards/accuracies": 0.8479166626930237,
+      "rewards/chosen": -0.08412099629640579,
+      "rewards/margins": 0.4584178924560547,
+      "rewards/rejected": -0.5425389409065247,
+      "sft_loss": 0.5715639591217041,
+      "step": 260
+    },
+    {
+      "epoch": 0.028439887820442485,
+      "grad_norm": 9.387285232543945,
+      "learning_rate": 0.00014210526315789474,
+      "logits/chosen": -3.1293420791625977,
+      "logits/rejected": -3.129204273223877,
+      "logps/chosen": -0.7858380079269409,
+      "logps/rejected": -4.375970363616943,
+      "loss": 0.8281,
+      "odds_ratio_loss": 2.820624351501465,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.07858379930257797,
+      "rewards/margins": 0.35901322960853577,
+      "rewards/rejected": -0.43759700655937195,
+      "sft_loss": 0.5460221171379089,
+      "step": 270
+    },
+    {
+      "epoch": 0.029493216998977393,
+      "grad_norm": 5.87777042388916,
+      "learning_rate": 0.00014736842105263158,
+      "logits/chosen": -2.9154765605926514,
+      "logits/rejected": -2.91546368598938,
+      "logps/chosen": -0.595488965511322,
+      "logps/rejected": -3.7737627029418945,
+      "loss": 0.6283,
+      "odds_ratio_loss": 2.1527862548828125,
+      "rewards/accuracies": 0.8604166507720947,
+      "rewards/chosen": -0.05954889953136444,
+      "rewards/margins": 0.31782734394073486,
+      "rewards/rejected": -0.3773762583732605,
+      "sft_loss": 0.4130483567714691,
+      "step": 280
+    },
+    {
+      "epoch": 0.0305465461775123,
+      "grad_norm": 10.7889986038208,
+      "learning_rate": 0.00015263157894736842,
+      "logits/chosen": -3.0789036750793457,
+      "logits/rejected": -3.079068899154663,
+      "logps/chosen": -0.5851417779922485,
+      "logps/rejected": -3.892369031906128,
+      "loss": 0.6135,
+      "odds_ratio_loss": 2.1990480422973633,
+      "rewards/accuracies": 0.8791666626930237,
+      "rewards/chosen": -0.05851416662335396,
+      "rewards/margins": 0.33072274923324585,
+      "rewards/rejected": -0.3892369568347931,
+      "sft_loss": 0.3936450183391571,
+      "step": 290
+    },
+    {
+      "epoch": 0.031599875356047205,
+      "grad_norm": 10.757394790649414,
+      "learning_rate": 0.00015789473684210527,
+      "logits/chosen": -3.1641581058502197,
+      "logits/rejected": -3.1641595363616943,
+      "logps/chosen": -0.625824511051178,
+      "logps/rejected": -4.4615254402160645,
+      "loss": 0.6551,
+      "odds_ratio_loss": 2.074664354324341,
+      "rewards/accuracies": 0.8708333373069763,
+      "rewards/chosen": -0.06258244812488556,
+      "rewards/margins": 0.3835701644420624,
+      "rewards/rejected": -0.44615259766578674,
+      "sft_loss": 0.44765299558639526,
+      "step": 300
+    },
+    {
+      "epoch": 0.03265320453458211,
+      "grad_norm": 8.260001182556152,
+      "learning_rate": 0.0001631578947368421,
+      "logits/chosen": -3.1696364879608154,
+      "logits/rejected": -3.169647693634033,
+      "logps/chosen": -0.6334646940231323,
+      "logps/rejected": -4.125209331512451,
+      "loss": 0.6653,
+      "odds_ratio_loss": 2.147244691848755,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -0.06334646791219711,
+      "rewards/margins": 0.34917446970939636,
+      "rewards/rejected": -0.4125209450721741,
+      "sft_loss": 0.45062482357025146,
+      "step": 310
+    },
+    {
+      "epoch": 0.03370653371311702,
+      "grad_norm": 17.23076057434082,
+      "learning_rate": 0.00016842105263157895,
+      "logits/chosen": -3.175907611846924,
+      "logits/rejected": -3.175673007965088,
+      "logps/chosen": -0.8329946994781494,
+      "logps/rejected": -4.718179702758789,
+      "loss": 0.8649,
+      "odds_ratio_loss": 2.6120009422302246,
+      "rewards/accuracies": 0.8729166388511658,
+      "rewards/chosen": -0.08329946547746658,
+      "rewards/margins": 0.3885185122489929,
+      "rewards/rejected": -0.4718180298805237,
+      "sft_loss": 0.6036695837974548,
+      "step": 320
+    },
+    {
+      "epoch": 0.03475986289165193,
+      "grad_norm": 8.57013988494873,
+      "learning_rate": 0.0001736842105263158,
+      "logits/chosen": -2.885397434234619,
+      "logits/rejected": -2.8853094577789307,
+      "logps/chosen": -0.7634103298187256,
+      "logps/rejected": -3.892472982406616,
+      "loss": 0.7919,
+      "odds_ratio_loss": 2.4835994243621826,
+      "rewards/accuracies": 0.8770833611488342,
+      "rewards/chosen": -0.07634103298187256,
+      "rewards/margins": 0.31290626525878906,
+      "rewards/rejected": -0.389247328042984,
+      "sft_loss": 0.5435259938240051,
+      "step": 330
+    },
+    {
+      "epoch": 0.035813192070186836,
+      "grad_norm": 6.161098957061768,
+      "learning_rate": 0.00017894736842105264,
+      "logits/chosen": -2.7474565505981445,
+      "logits/rejected": -2.747159004211426,
+      "logps/chosen": -0.6635507345199585,
+      "logps/rejected": -4.673018455505371,
+      "loss": 0.6934,
+      "odds_ratio_loss": 2.4976134300231934,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -0.06635507941246033,
+      "rewards/margins": 0.4009467363357544,
+      "rewards/rejected": -0.4673018753528595,
+      "sft_loss": 0.44364967942237854,
+      "step": 340
+    },
+    {
+      "epoch": 0.036866521248721744,
+      "grad_norm": 6.6998372077941895,
+      "learning_rate": 0.00018421052631578948,
+      "logits/chosen": -3.3279902935028076,
+      "logits/rejected": -3.327728509902954,
+      "logps/chosen": -0.7464654445648193,
+      "logps/rejected": -4.424903869628906,
+      "loss": 0.7811,
+      "odds_ratio_loss": 2.4744033813476562,
+      "rewards/accuracies": 0.8270833492279053,
+      "rewards/chosen": -0.07464654743671417,
+      "rewards/margins": 0.3678438365459442,
+      "rewards/rejected": -0.4424903988838196,
+      "sft_loss": 0.5336239337921143,
+      "step": 350
+    },
+    {
+      "epoch": 0.037919850427256645,
+      "grad_norm": 4.3592400550842285,
+      "learning_rate": 0.00018947368421052632,
+      "logits/chosen": -3.632689952850342,
+      "logits/rejected": -3.6323180198669434,
+      "logps/chosen": -0.6197668313980103,
+      "logps/rejected": -5.021815299987793,
+      "loss": 0.647,
+      "odds_ratio_loss": 2.0902163982391357,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": -0.061976686120033264,
+      "rewards/margins": 0.44020482897758484,
+      "rewards/rejected": -0.5021815299987793,
+      "sft_loss": 0.43794170022010803,
+      "step": 360
+    },
+    {
+      "epoch": 0.03897317960579155,
+      "grad_norm": 9.133977890014648,
+      "learning_rate": 0.00019473684210526317,
+      "logits/chosen": -3.6677591800689697,
+      "logits/rejected": -3.667369842529297,
+      "logps/chosen": -0.6474730372428894,
+      "logps/rejected": -5.439915180206299,
+      "loss": 0.6779,
+      "odds_ratio_loss": 2.1945674419403076,
+      "rewards/accuracies": 0.8666666746139526,
+      "rewards/chosen": -0.06474730372428894,
+      "rewards/margins": 0.4792442321777344,
+      "rewards/rejected": -0.5439915060997009,
+      "sft_loss": 0.45841965079307556,
+      "step": 370
+    },
+    {
+      "epoch": 0.04002650878432646,
+      "grad_norm": 9.33304214477539,
+      "learning_rate": 0.0002,
+      "logits/chosen": -3.5276687145233154,
+      "logits/rejected": -3.527397632598877,
+      "logps/chosen": -0.6519566178321838,
+      "logps/rejected": -4.4450178146362305,
+      "loss": 0.6857,
+      "odds_ratio_loss": 2.411801338195801,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.06519566476345062,
+      "rewards/margins": 0.3793061375617981,
+      "rewards/rejected": -0.4445018172264099,
+      "sft_loss": 0.44453203678131104,
+      "step": 380
+    },
+    {
+      "epoch": 0.04107983796286137,
+      "grad_norm": 8.269370079040527,
+      "learning_rate": 0.00020526315789473685,
+      "logits/chosen": -3.345468282699585,
+      "logits/rejected": -3.3452601432800293,
+      "logps/chosen": -0.7482808232307434,
+      "logps/rejected": -4.133052349090576,
+      "loss": 0.7849,
+      "odds_ratio_loss": 2.473043918609619,
+      "rewards/accuracies": 0.8395833373069763,
+      "rewards/chosen": -0.07482809573411942,
+      "rewards/margins": 0.33847716450691223,
+      "rewards/rejected": -0.41330528259277344,
+      "sft_loss": 0.5376084446907043,
+      "step": 390
+    },
+    {
+      "epoch": 0.042133167141396276,
+      "grad_norm": 3.1917130947113037,
+      "learning_rate": 0.00021052631578947367,
+      "logits/chosen": -3.498554229736328,
+      "logits/rejected": -3.4982807636260986,
+      "logps/chosen": -0.6910140514373779,
+      "logps/rejected": -4.305008888244629,
+      "loss": 0.7229,
+      "odds_ratio_loss": 2.5834543704986572,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.06910141557455063,
+      "rewards/margins": 0.36139950156211853,
+      "rewards/rejected": -0.43050095438957214,
+      "sft_loss": 0.46452444791793823,
+      "step": 400
+    },
+    {
+      "epoch": 0.043186496319931184,
+      "grad_norm": 8.981714248657227,
+      "learning_rate": 0.00021578947368421054,
+      "logits/chosen": -3.482508420944214,
+      "logits/rejected": -3.482311725616455,
+      "logps/chosen": -0.666519045829773,
+      "logps/rejected": -3.838574171066284,
+      "loss": 0.7004,
+      "odds_ratio_loss": 2.59932017326355,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.06665190309286118,
+      "rewards/margins": 0.3172055184841156,
+      "rewards/rejected": -0.3838574290275574,
+      "sft_loss": 0.4405144453048706,
+      "step": 410
+    },
+    {
+      "epoch": 0.04423982549846609,
+      "grad_norm": 5.946087837219238,
+      "learning_rate": 0.00022105263157894735,
+      "logits/chosen": -3.5680463314056396,
+      "logits/rejected": -3.5679588317871094,
+      "logps/chosen": -0.6861178874969482,
+      "logps/rejected": -3.294382333755493,
+      "loss": 0.7209,
+      "odds_ratio_loss": 2.4581611156463623,
+      "rewards/accuracies": 0.8520833253860474,
+      "rewards/chosen": -0.06861178576946259,
+      "rewards/margins": 0.26082643866539,
+      "rewards/rejected": -0.3294382095336914,
+      "sft_loss": 0.4750979244709015,
+      "step": 420
+    },
+    {
+      "epoch": 0.045293154677001,
+      "grad_norm": 16.975387573242188,
+      "learning_rate": 0.00022631578947368422,
+      "logits/chosen": -3.8716492652893066,
+      "logits/rejected": -3.871539831161499,
+      "logps/chosen": -0.7186715602874756,
+      "logps/rejected": -3.2046849727630615,
+      "loss": 0.7559,
+      "odds_ratio_loss": 2.6692261695861816,
+      "rewards/accuracies": 0.8458333611488342,
+      "rewards/chosen": -0.07186715304851532,
+      "rewards/margins": 0.24860134720802307,
+      "rewards/rejected": -0.3204684853553772,
+      "sft_loss": 0.48894843459129333,
+      "step": 430
+    },
+    {
+      "epoch": 0.0463464838555359,
+      "grad_norm": 3.843916416168213,
+      "learning_rate": 0.00023157894736842107,
+      "logits/chosen": -3.794214963912964,
+      "logits/rejected": -3.794062852859497,
+      "logps/chosen": -0.6966003179550171,
+      "logps/rejected": -3.6082844734191895,
+      "loss": 0.7316,
+      "odds_ratio_loss": 2.6561334133148193,
+      "rewards/accuracies": 0.8479166626930237,
+      "rewards/chosen": -0.06966003775596619,
+      "rewards/margins": 0.2911684215068817,
+      "rewards/rejected": -0.3608284592628479,
+      "sft_loss": 0.4659655690193176,
+      "step": 440
+    },
+    {
+      "epoch": 0.04739981303407081,
+      "grad_norm": 14.617210388183594,
+      "learning_rate": 0.00023684210526315788,
+      "logits/chosen": -3.84993052482605,
+      "logits/rejected": -3.8500382900238037,
+      "logps/chosen": -0.7132828831672668,
+      "logps/rejected": -3.116370916366577,
+      "loss": 0.7449,
+      "odds_ratio_loss": 2.349879264831543,
+      "rewards/accuracies": 0.8583333492279053,
+      "rewards/chosen": -0.0713282972574234,
+      "rewards/margins": 0.24030880630016327,
+      "rewards/rejected": -0.31163710355758667,
+      "sft_loss": 0.5099204182624817,
+      "step": 450
+    },
+    {
+      "epoch": 0.048453142212605715,
+      "grad_norm": 15.630524635314941,
+      "learning_rate": 0.00024210526315789475,
+      "logits/chosen": -4.3313679695129395,
+      "logits/rejected": -4.331648349761963,
+      "logps/chosen": -0.7833544611930847,
+      "logps/rejected": -2.8526246547698975,
+      "loss": 0.8191,
+      "odds_ratio_loss": 2.5849623680114746,
+      "rewards/accuracies": 0.8354166746139526,
+      "rewards/chosen": -0.07833544164896011,
+      "rewards/margins": 0.20692706108093262,
+      "rewards/rejected": -0.28526249527931213,
+      "sft_loss": 0.5606356263160706,
+      "step": 460
+    },
+    {
+      "epoch": 0.04950647139114062,
+      "grad_norm": 4.825496196746826,
+      "learning_rate": 0.0002473684210526316,
+      "logits/chosen": -4.020305156707764,
+      "logits/rejected": -4.020514965057373,
+      "logps/chosen": -0.7084909677505493,
+      "logps/rejected": -2.901973009109497,
+      "loss": 0.745,
+      "odds_ratio_loss": 2.5733158588409424,
+      "rewards/accuracies": 0.8479166626930237,
+      "rewards/chosen": -0.07084909081459045,
+      "rewards/margins": 0.21934820711612701,
+      "rewards/rejected": -0.29019731283187866,
+      "sft_loss": 0.48766499757766724,
+      "step": 470
+    },
+    {
+      "epoch": 0.05055980056967553,
+      "grad_norm": 6.267645835876465,
+      "learning_rate": 0.0002526315789473684,
+      "logits/chosen": -3.936088800430298,
+      "logits/rejected": -3.936236619949341,
+      "logps/chosen": -0.7358769774436951,
+      "logps/rejected": -2.6652441024780273,
+      "loss": 0.7689,
+      "odds_ratio_loss": 2.5294764041900635,
+      "rewards/accuracies": 0.8541666865348816,
+      "rewards/chosen": -0.07358769327402115,
+      "rewards/margins": 0.1929367184638977,
+      "rewards/rejected": -0.26652440428733826,
+      "sft_loss": 0.5159851312637329,
+      "step": 480
+    },
+    {
+      "epoch": 0.05161312974821044,
+      "grad_norm": 7.438229084014893,
+      "learning_rate": 0.0002578947368421053,
+      "logits/chosen": -4.008545875549316,
+      "logits/rejected": -4.008641242980957,
+      "logps/chosen": -0.7306921482086182,
+      "logps/rejected": -2.7273244857788086,
+      "loss": 0.7645,
+      "odds_ratio_loss": 2.6694443225860596,
+      "rewards/accuracies": 0.8291666507720947,
+      "rewards/chosen": -0.07306921482086182,
+      "rewards/margins": 0.1996632218360901,
+      "rewards/rejected": -0.2727324366569519,
+      "sft_loss": 0.49753716588020325,
+      "step": 490
+    },
+    {
+      "epoch": 0.052666458926745346,
+      "grad_norm": 5.6936469078063965,
+      "learning_rate": 0.0002631578947368421,
+      "logits/chosen": -3.8969054222106934,
+      "logits/rejected": -3.896923303604126,
+      "logps/chosen": -0.7155380249023438,
+      "logps/rejected": -3.1710591316223145,
+      "loss": 0.7467,
+      "odds_ratio_loss": 2.616429567337036,
+      "rewards/accuracies": 0.8729166388511658,
+      "rewards/chosen": -0.07155381143093109,
+      "rewards/margins": 0.24555210769176483,
+      "rewards/rejected": -0.3171059191226959,
+      "sft_loss": 0.48508700728416443,
+      "step": 500
+    },
+    {
+      "epoch": 0.053719788105280254,
+      "grad_norm": 4.272115230560303,
+      "learning_rate": 0.00026842105263157897,
+      "logits/chosen": -3.8689732551574707,
+      "logits/rejected": -3.868974208831787,
+      "logps/chosen": -0.6541014313697815,
+      "logps/rejected": -3.1265270709991455,
+      "loss": 0.6821,
+      "odds_ratio_loss": 2.2681777477264404,
+      "rewards/accuracies": 0.8854166865348816,
+      "rewards/chosen": -0.06541014462709427,
+      "rewards/margins": 0.2472425401210785,
+      "rewards/rejected": -0.31265270709991455,
+      "sft_loss": 0.4552646279335022,
+      "step": 510
+    },
+    {
+      "epoch": 0.054773117283815155,
+      "grad_norm": 5.510837078094482,
+      "learning_rate": 0.00027368421052631584,
+      "logits/chosen": -3.8620245456695557,
+      "logits/rejected": -3.862044334411621,
+      "logps/chosen": -0.6386537551879883,
+      "logps/rejected": -3.322967767715454,
+      "loss": 0.6712,
+      "odds_ratio_loss": 2.311323881149292,
+      "rewards/accuracies": 0.8583333492279053,
+      "rewards/chosen": -0.06386537849903107,
+      "rewards/margins": 0.2684313654899597,
+      "rewards/rejected": -0.33229681849479675,
+      "sft_loss": 0.4400910437107086,
+      "step": 520
+    },
+    {
+      "epoch": 0.05582644646235006,
+      "grad_norm": 12.38877010345459,
+      "learning_rate": 0.0002789473684210526,
+      "logits/chosen": -4.60584020614624,
+      "logits/rejected": -4.6057939529418945,
+      "logps/chosen": -0.7113536596298218,
+      "logps/rejected": -3.330021381378174,
+      "loss": 0.7496,
+      "odds_ratio_loss": 2.427239179611206,
+      "rewards/accuracies": 0.8354166746139526,
+      "rewards/chosen": -0.07113537192344666,
+      "rewards/margins": 0.2618667781352997,
+      "rewards/rejected": -0.33300215005874634,
+      "sft_loss": 0.5068832635879517,
+      "step": 530
+    },
+    {
+      "epoch": 0.05687977564088497,
+      "grad_norm": 2.2653727531433105,
+      "learning_rate": 0.00028421052631578947,
+      "logits/chosen": -5.099688529968262,
+      "logits/rejected": -5.09957218170166,
+      "logps/chosen": -0.6874160170555115,
+      "logps/rejected": -3.100078582763672,
+      "loss": 0.7231,
+      "odds_ratio_loss": 2.652129650115967,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.06874160468578339,
+      "rewards/margins": 0.24126628041267395,
+      "rewards/rejected": -0.31000787019729614,
+      "sft_loss": 0.45785781741142273,
+      "step": 540
+    },
+    {
+      "epoch": 0.05793310481941988,
+      "grad_norm": 6.484382152557373,
+      "learning_rate": 0.00028947368421052634,
+      "logits/chosen": -4.181884288787842,
+      "logits/rejected": -4.181893348693848,
+      "logps/chosen": -0.7184228897094727,
+      "logps/rejected": -3.2252790927886963,
+      "loss": 0.7563,
+      "odds_ratio_loss": 2.4872865676879883,
+      "rewards/accuracies": 0.8458333611488342,
+      "rewards/chosen": -0.07184228301048279,
+      "rewards/margins": 0.25068560242652893,
+      "rewards/rejected": -0.3225278854370117,
+      "sft_loss": 0.5075890421867371,
+      "step": 550
+    },
+    {
+      "epoch": 0.058986433997954786,
+      "grad_norm": 6.237575531005859,
+      "learning_rate": 0.00029473684210526316,
+      "logits/chosen": -4.042048931121826,
+      "logits/rejected": -4.042147159576416,
+      "logps/chosen": -0.6820612549781799,
+      "logps/rejected": -2.6241307258605957,
+      "loss": 0.7178,
+      "odds_ratio_loss": 2.6058013439178467,
+      "rewards/accuracies": 0.8604166507720947,
+      "rewards/chosen": -0.06820613890886307,
+      "rewards/margins": 0.19420695304870605,
+      "rewards/rejected": -0.26241305470466614,
+      "sft_loss": 0.45718762278556824,
+      "step": 560
+    },
+    {
+      "epoch": 0.060039763176489694,
+      "grad_norm": 5.729897499084473,
+      "learning_rate": 0.0003,
+      "logits/chosen": -3.9665284156799316,
+      "logits/rejected": -3.966668128967285,
+      "logps/chosen": -0.7161160111427307,
+      "logps/rejected": -2.8060250282287598,
+      "loss": 0.7529,
+      "odds_ratio_loss": 2.4470136165618896,
+      "rewards/accuracies": 0.8520833253860474,
+      "rewards/chosen": -0.07161159813404083,
+      "rewards/margins": 0.20899087190628052,
+      "rewards/rejected": -0.28060245513916016,
+      "sft_loss": 0.5082017779350281,
+      "step": 570
+    },
+    {
+      "epoch": 0.0610930923550246,
+      "grad_norm": 5.065602779388428,
+      "learning_rate": 0.00030526315789473684,
+      "logits/chosen": -3.9091081619262695,
+      "logits/rejected": -3.9092376232147217,
+      "logps/chosen": -0.6755971908569336,
+      "logps/rejected": -2.8741674423217773,
+      "loss": 0.7078,
+      "odds_ratio_loss": 2.4316818714141846,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -0.06755972653627396,
+      "rewards/margins": 0.21985705196857452,
+      "rewards/rejected": -0.2874167859554291,
+      "sft_loss": 0.4646414816379547,
+      "step": 580
+    },
+    {
+      "epoch": 0.06214642153355951,
+      "grad_norm": 2.45158314704895,
+      "learning_rate": 0.0003105263157894737,
+      "logits/chosen": -3.9886550903320312,
+      "logits/rejected": -3.9887642860412598,
+      "logps/chosen": -0.649567186832428,
+      "logps/rejected": -3.0265567302703857,
+      "loss": 0.6791,
+      "odds_ratio_loss": 2.3147711753845215,
+      "rewards/accuracies": 0.8729166388511658,
+      "rewards/chosen": -0.06495673209428787,
+      "rewards/margins": 0.2376989722251892,
+      "rewards/rejected": -0.3026556670665741,
+      "sft_loss": 0.4476209580898285,
+      "step": 590
+    },
+    {
+      "epoch": 0.06319975071209441,
+      "grad_norm": 15.312357902526855,
+      "learning_rate": 0.00031578947368421053,
+      "logits/chosen": -3.9752919673919678,
+      "logits/rejected": -3.9754388332366943,
+      "logps/chosen": -0.696826159954071,
+      "logps/rejected": -3.0343518257141113,
+      "loss": 0.732,
+      "odds_ratio_loss": 2.443164587020874,
+      "rewards/accuracies": 0.8479166626930237,
+      "rewards/chosen": -0.06968262046575546,
+      "rewards/margins": 0.23375259339809418,
+      "rewards/rejected": -0.30343523621559143,
+      "sft_loss": 0.48767518997192383,
+      "step": 600
+    },
+    {
+      "epoch": 0.06425307989062932,
+      "grad_norm": 9.758230209350586,
+      "learning_rate": 0.0003210526315789474,
+      "logits/chosen": -3.76411509513855,
+      "logits/rejected": -3.763446092605591,
+      "logps/chosen": -0.7242849469184875,
+      "logps/rejected": -5.800142288208008,
+      "loss": 0.7592,
+      "odds_ratio_loss": 2.657700300216675,
+      "rewards/accuracies": 0.8458333611488342,
+      "rewards/chosen": -0.07242848724126816,
+      "rewards/margins": 0.5075857639312744,
+      "rewards/rejected": -0.5800142884254456,
+      "sft_loss": 0.49342209100723267,
+      "step": 610
+    },
+    {
+      "epoch": 0.06530640906916423,
+      "grad_norm": 7.555414199829102,
+      "learning_rate": 0.0003263157894736842,
+      "logits/chosen": -4.165302753448486,
+      "logits/rejected": -4.1650519371032715,
+      "logps/chosen": -0.7384843230247498,
+      "logps/rejected": -3.710164785385132,
+      "loss": 0.7768,
+      "odds_ratio_loss": 2.5719528198242188,
+      "rewards/accuracies": 0.8520833253860474,
+      "rewards/chosen": -0.0738484337925911,
+      "rewards/margins": 0.297168105840683,
+      "rewards/rejected": -0.3710165023803711,
+      "sft_loss": 0.5196101665496826,
+      "step": 620
+    },
+    {
+      "epoch": 0.06635973824769914,
+      "grad_norm": 4.273881435394287,
+      "learning_rate": 0.00033157894736842103,
+      "logits/chosen": -4.187811374664307,
+      "logits/rejected": -4.186800479888916,
+      "logps/chosen": -0.6481006145477295,
+      "logps/rejected": -5.178854942321777,
+      "loss": 0.6803,
+      "odds_ratio_loss": 2.3059561252593994,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -0.06481005996465683,
+      "rewards/margins": 0.45307546854019165,
+      "rewards/rejected": -0.5178855061531067,
+      "sft_loss": 0.4497505724430084,
+      "step": 630
+    },
+    {
+      "epoch": 0.06741306742623404,
+      "grad_norm": 6.665101528167725,
+      "learning_rate": 0.0003368421052631579,
+      "logits/chosen": -4.168524265289307,
+      "logits/rejected": -4.1669230461120605,
+      "logps/chosen": -0.658748984336853,
+      "logps/rejected": -6.14946174621582,
+      "loss": 0.6936,
+      "odds_ratio_loss": 2.615469455718994,
+      "rewards/accuracies": 0.8520833253860474,
+      "rewards/chosen": -0.06587490439414978,
+      "rewards/margins": 0.5490713715553284,
+      "rewards/rejected": -0.614946186542511,
+      "sft_loss": 0.432014137506485,
+      "step": 640
+    },
+    {
+      "epoch": 0.06846639660476894,
+      "grad_norm": 5.859743118286133,
+      "learning_rate": 0.00034210526315789477,
+      "logits/chosen": -4.12244176864624,
+      "logits/rejected": -4.120962619781494,
+      "logps/chosen": -0.703795850276947,
+      "logps/rejected": -5.927857875823975,
+      "loss": 0.739,
+      "odds_ratio_loss": 2.5700552463531494,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -0.0703795999288559,
+      "rewards/margins": 0.5224061608314514,
+      "rewards/rejected": -0.5927857756614685,
+      "sft_loss": 0.48198458552360535,
+      "step": 650
+    },
+    {
+      "epoch": 0.06951972578330386,
+      "grad_norm": 3.937659502029419,
+      "learning_rate": 0.0003473684210526316,
+      "logits/chosen": -4.144687175750732,
+      "logits/rejected": -4.143020153045654,
+      "logps/chosen": -0.6716140508651733,
+      "logps/rejected": -6.169389247894287,
+      "loss": 0.704,
+      "odds_ratio_loss": 2.5956499576568604,
+      "rewards/accuracies": 0.8583333492279053,
+      "rewards/chosen": -0.06716141104698181,
+      "rewards/margins": 0.549777626991272,
+      "rewards/rejected": -0.6169389486312866,
+      "sft_loss": 0.44441157579421997,
+      "step": 660
+    },
+    {
+      "epoch": 0.07057305496183876,
+      "grad_norm": 4.0990681648254395,
+      "learning_rate": 0.0003526315789473684,
+      "logits/chosen": -4.208241939544678,
+      "logits/rejected": -4.206976413726807,
+      "logps/chosen": -0.6446244120597839,
+      "logps/rejected": -5.427404403686523,
+      "loss": 0.6791,
+      "odds_ratio_loss": 2.412100315093994,
+      "rewards/accuracies": 0.8520833253860474,
+      "rewards/chosen": -0.06446244567632675,
+      "rewards/margins": 0.4782780110836029,
+      "rewards/rejected": -0.5427404642105103,
+      "sft_loss": 0.4378568232059479,
+      "step": 670
+    },
+    {
+      "epoch": 0.07162638414037367,
+      "grad_norm": 4.258831977844238,
+      "learning_rate": 0.0003578947368421053,
+      "logits/chosen": -4.341937065124512,
+      "logits/rejected": -4.341104984283447,
+      "logps/chosen": -0.7450679540634155,
+      "logps/rejected": -4.367857933044434,
+      "loss": 0.7874,
+      "odds_ratio_loss": 2.708036184310913,
+      "rewards/accuracies": 0.8083333373069763,
+      "rewards/chosen": -0.07450678944587708,
+      "rewards/margins": 0.3622789978981018,
+      "rewards/rejected": -0.4367857873439789,
+      "sft_loss": 0.5165507793426514,
+      "step": 680
+    },
+    {
+      "epoch": 0.07267971331890857,
+      "grad_norm": 10.723002433776855,
+      "learning_rate": 0.00036315789473684214,
+      "logits/chosen": -4.344449996948242,
+      "logits/rejected": -4.344136714935303,
+      "logps/chosen": -0.8118324279785156,
+      "logps/rejected": -3.4473140239715576,
+      "loss": 0.852,
+      "odds_ratio_loss": 2.871811628341675,
+      "rewards/accuracies": 0.8104166388511658,
+      "rewards/chosen": -0.08118324726819992,
+      "rewards/margins": 0.26354819536209106,
+      "rewards/rejected": -0.3447313904762268,
+      "sft_loss": 0.5648209452629089,
+      "step": 690
+    },
+    {
+      "epoch": 0.07373304249744349,
+      "grad_norm": 5.821114540100098,
+      "learning_rate": 0.00036842105263157896,
+      "logits/chosen": -4.07045316696167,
+      "logits/rejected": -4.069707870483398,
+      "logps/chosen": -0.8850536942481995,
+      "logps/rejected": -5.450161933898926,
+      "loss": 0.9181,
+      "odds_ratio_loss": 3.165844678878784,
+      "rewards/accuracies": 0.8416666388511658,
+      "rewards/chosen": -0.08850537240505219,
+      "rewards/margins": 0.4565107524394989,
+      "rewards/rejected": -0.5450161695480347,
+      "sft_loss": 0.6015486121177673,
+      "step": 700
+    },
+    {
+      "epoch": 0.07478637167597839,
+      "grad_norm": 2.219165563583374,
+      "learning_rate": 0.0003736842105263158,
+      "logits/chosen": -3.7920498847961426,
+      "logits/rejected": -3.7913458347320557,
+      "logps/chosen": -0.7324831485748291,
+      "logps/rejected": -4.996405601501465,
+      "loss": 0.7707,
+      "odds_ratio_loss": 2.7621920108795166,
+      "rewards/accuracies": 0.8041666746139526,
+      "rewards/chosen": -0.07324830442667007,
+      "rewards/margins": 0.42639225721359253,
+      "rewards/rejected": -0.499640554189682,
+      "sft_loss": 0.49450069665908813,
+      "step": 710
+    },
+    {
+      "epoch": 0.07583970085451329,
+      "grad_norm": 5.435701370239258,
+      "learning_rate": 0.00037894736842105265,
+      "logits/chosen": -4.781533718109131,
+      "logits/rejected": -4.781356334686279,
+      "logps/chosen": -0.6917392611503601,
+      "logps/rejected": -4.243617057800293,
+      "loss": 0.7244,
+      "odds_ratio_loss": 2.5724165439605713,
+      "rewards/accuracies": 0.8645833134651184,
+      "rewards/chosen": -0.06917393207550049,
+      "rewards/margins": 0.3551878333091736,
+      "rewards/rejected": -0.4243617355823517,
+      "sft_loss": 0.4671470522880554,
+      "step": 720
+    },
+    {
+      "epoch": 0.0768930300330482,
+      "grad_norm": 4.722170352935791,
+      "learning_rate": 0.00038421052631578946,
+      "logits/chosen": -4.822556495666504,
+      "logits/rejected": -4.822704792022705,
+      "logps/chosen": -0.6918298006057739,
+      "logps/rejected": -3.5728962421417236,
+      "loss": 0.7267,
+      "odds_ratio_loss": 2.5833892822265625,
+      "rewards/accuracies": 0.8416666388511658,
+      "rewards/chosen": -0.06918298453092575,
+      "rewards/margins": 0.28810662031173706,
+      "rewards/rejected": -0.3572896420955658,
+      "sft_loss": 0.4683450758457184,
+      "step": 730
+    },
+    {
+      "epoch": 0.0779463592115831,
+      "grad_norm": 2.800881862640381,
+      "learning_rate": 0.00038947368421052633,
+      "logits/chosen": -4.779958248138428,
+      "logits/rejected": -4.780096530914307,
+      "logps/chosen": -0.6186120510101318,
+      "logps/rejected": -3.642204761505127,
+      "loss": 0.6549,
+      "odds_ratio_loss": 2.427229881286621,
+      "rewards/accuracies": 0.8583333492279053,
+      "rewards/chosen": -0.06186120584607124,
+      "rewards/margins": 0.3023592531681061,
+      "rewards/rejected": -0.3642204701900482,
+      "sft_loss": 0.41214191913604736,
+      "step": 740
+    },
+    {
+      "epoch": 0.07899968839011802,
+      "grad_norm": 5.068697452545166,
+      "learning_rate": 0.00039473684210526315,
+      "logits/chosen": -4.596142768859863,
+      "logits/rejected": -4.595941066741943,
+      "logps/chosen": -0.7380008697509766,
+      "logps/rejected": -4.162142276763916,
+      "loss": 0.7749,
+      "odds_ratio_loss": 2.4714393615722656,
+      "rewards/accuracies": 0.8333333134651184,
+      "rewards/chosen": -0.07380008697509766,
+      "rewards/margins": 0.34241411089897156,
+      "rewards/rejected": -0.4162141978740692,
+      "sft_loss": 0.527804970741272,
+      "step": 750
+    },
+    {
+      "epoch": 0.08005301756865292,
+      "grad_norm": 3.4697628021240234,
+      "learning_rate": 0.0004,
+      "logits/chosen": -4.708858013153076,
+      "logits/rejected": -4.708543300628662,
+      "logps/chosen": -0.675973653793335,
+      "logps/rejected": -4.2291083335876465,
+      "loss": 0.7074,
+      "odds_ratio_loss": 2.3750479221343994,
+      "rewards/accuracies": 0.8416666388511658,
+      "rewards/chosen": -0.06759736686944962,
+      "rewards/margins": 0.3553134799003601,
+      "rewards/rejected": -0.4229108393192291,
+      "sft_loss": 0.4698618948459625,
+      "step": 760
+    },
+    {
+      "epoch": 0.08110634674718784,
+      "grad_norm": 11.160131454467773,
+      "learning_rate": 0.00040526315789473684,
+      "logits/chosen": -5.051191329956055,
+      "logits/rejected": -5.050747871398926,
+      "logps/chosen": -0.7793533802032471,
+      "logps/rejected": -5.09091854095459,
+      "loss": 0.8153,
+      "odds_ratio_loss": 2.829737901687622,
+      "rewards/accuracies": 0.8291666507720947,
+      "rewards/chosen": -0.07793533802032471,
+      "rewards/margins": 0.43115654587745667,
+      "rewards/rejected": -0.509091854095459,
+      "sft_loss": 0.5323660969734192,
+      "step": 770
+    },
+    {
+      "epoch": 0.08215967592572274,
+      "grad_norm": 3.8492166996002197,
+      "learning_rate": 0.0004105263157894737,
+      "logits/chosen": -4.681753158569336,
+      "logits/rejected": -4.681027889251709,
+      "logps/chosen": -0.67795729637146,
+      "logps/rejected": -5.4289870262146,
+      "loss": 0.7104,
+      "odds_ratio_loss": 2.6001367568969727,
+      "rewards/accuracies": 0.8520833253860474,
+      "rewards/chosen": -0.06779572367668152,
+      "rewards/margins": 0.4751029908657074,
+      "rewards/rejected": -0.5428987145423889,
+      "sft_loss": 0.45040473341941833,
+      "step": 780
+    },
+    {
+      "epoch": 0.08321300510425765,
+      "grad_norm": 4.350924491882324,
+      "learning_rate": 0.0004157894736842106,
+      "logits/chosen": -5.090719699859619,
+      "logits/rejected": -5.0898871421813965,
+      "logps/chosen": -0.6309987902641296,
+      "logps/rejected": -6.083089828491211,
+      "loss": 0.6608,
+      "odds_ratio_loss": 2.363413095474243,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -0.06309988349676132,
+      "rewards/margins": 0.5452090501785278,
+      "rewards/rejected": -0.6083090305328369,
+      "sft_loss": 0.4244639277458191,
+      "step": 790
+    },
+    {
+      "epoch": 0.08426633428279255,
+      "grad_norm": 4.629517078399658,
+      "learning_rate": 0.00042105263157894734,
+      "logits/chosen": -5.171376705169678,
+      "logits/rejected": -5.170820713043213,
+      "logps/chosen": -0.7821296453475952,
+      "logps/rejected": -4.942056655883789,
+      "loss": 0.8229,
+      "odds_ratio_loss": 2.6525399684906006,
+      "rewards/accuracies": 0.8208333253860474,
+      "rewards/chosen": -0.07821296900510788,
+      "rewards/margins": 0.41599270701408386,
+      "rewards/rejected": -0.49420568346977234,
+      "sft_loss": 0.557674765586853,
+      "step": 800
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.905053933387448e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null