Model save

Browse files

Files changed (8) hide show

all_results.json +5 -5
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
runs/Jun06_13-45-18_n136-100-194/events.out.tfevents.1717653377.n136-100-194.882286.0 +2 -2
train_results.json +5 -5
trainer_state.json +482 -542
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.5533875935638006,
-    "train_runtime": 12702.5109,
-    "train_samples": 111132,
-    "train_samples_per_second": 8.749,
-    "train_steps_per_second": 0.034
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.5006634004508392,
+    "train_runtime": 11862.2044,
+    "train_samples": 101076,
+    "train_samples_per_second": 8.521,
+    "train_steps_per_second": 0.033
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcec15c11061f01145410326e83e22e9e119675ae40a0022f9d01119851e5b43
 size 4943178720

 version https://git-lfs.github.com/spec/v1
+oid sha256:61e33ba725bfcc12234b7e1aa8bbe919d9083391c542aaf9e86faf61e566cf71
 size 4943178720

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3388da565e73d0a53d42775f84d6f31e380786fc86693f449f99a6a5c5ee5e87
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d62874d6b3324997b7227210437b37ce9e3e972d1acfde34418d07bafa06888
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b5c26a3b832e0dc2dd5eb31988b1522bdb63734b704f3b28700dc261401dfa0
 size 4540532728

 version https://git-lfs.github.com/spec/v1
+oid sha256:20fd3986b63dcc45a9bbb5a1faf9ad0eae8651c0d4714f41784422b658e38f0a
 size 4540532728

runs/Jun06_13-45-18_n136-100-194/events.out.tfevents.1717653377.n136-100-194.882286.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:244a1633b88584af18706dfa78b97f66c3c1c9067a98dc2041222ec6576a2b6c
-size 26059

 version https://git-lfs.github.com/spec/v1
+oid sha256:4193fa8d1864457fe3ae66778ae278902a5d901b6b6ef28476c1eeb686ab2ef9
+size 32605

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.5533875935638006,
-    "train_runtime": 12702.5109,
-    "train_samples": 111132,
-    "train_samples_per_second": 8.749,
-    "train_steps_per_second": 0.034
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.5006634004508392,
+    "train_runtime": 11862.2044,
+    "train_samples": 101076,
+    "train_samples_per_second": 8.521,
+    "train_steps_per_second": 0.033
 }

trainer_state.json CHANGED Viewed

@@ -1,22 +1,22 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9994242947610823,
   "eval_steps": 500,
-  "global_step": 434,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "grad_norm": 41.760020423030454,
-      "learning_rate": 1.1363636363636363e-08,
-      "logits/chosen": -4.852883815765381,
-      "logits/rejected": -5.038845539093018,
-      "logps/chosen": -266.87384033203125,
-      "logps/rejected": -341.158935546875,
-      "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -24,662 +24,602 @@
       "step": 1
     },
     {
-      "epoch": 0.02,
-      "grad_norm": 35.2404459189821,
-      "learning_rate": 1.1363636363636363e-07,
-      "logits/chosen": -4.649970054626465,
-      "logits/rejected": -4.861534118652344,
-      "logps/chosen": -329.62591552734375,
-      "logps/rejected": -358.3674621582031,
-      "loss": 0.6926,
-      "rewards/accuracies": 0.4236111044883728,
-      "rewards/chosen": -0.003552212379872799,
-      "rewards/margins": 0.00014615118561778218,
-      "rewards/rejected": -0.0036983639001846313,
       "step": 10
     },
     {
       "epoch": 0.05,
-      "grad_norm": 38.80276500420471,
-      "learning_rate": 2.2727272727272726e-07,
-      "logits/chosen": -4.702324867248535,
-      "logits/rejected": -4.93120813369751,
-      "logps/chosen": -323.15277099609375,
-      "logps/rejected": -350.1238708496094,
-      "loss": 0.6758,
-      "rewards/accuracies": 0.609375,
-      "rewards/chosen": -0.09294315427541733,
-      "rewards/margins": 0.03752884641289711,
-      "rewards/rejected": -0.13047200441360474,
       "step": 20
     },
     {
-      "epoch": 0.07,
-      "grad_norm": 44.150425429765605,
-      "learning_rate": 3.4090909090909085e-07,
-      "logits/chosen": -4.943687915802002,
-      "logits/rejected": -5.059121608734131,
-      "logps/chosen": -358.85186767578125,
-      "logps/rejected": -428.28997802734375,
-      "loss": 0.6356,
-      "rewards/accuracies": 0.6312500238418579,
-      "rewards/chosen": -0.5626996159553528,
-      "rewards/margins": 0.20829734206199646,
-      "rewards/rejected": -0.7709969282150269,
       "step": 30
     },
     {
-      "epoch": 0.09,
-      "grad_norm": 40.317859636548626,
-      "learning_rate": 4.545454545454545e-07,
-      "logits/chosen": -4.930764198303223,
-      "logits/rejected": -5.059735298156738,
-      "logps/chosen": -406.4983825683594,
-      "logps/rejected": -480.08984375,
-      "loss": 0.6181,
-      "rewards/accuracies": 0.640625,
-      "rewards/chosen": -0.804176926612854,
-      "rewards/margins": 0.33279144763946533,
-      "rewards/rejected": -1.1369682550430298,
       "step": 40
     },
     {
-      "epoch": 0.12,
-      "grad_norm": 41.480329345920765,
-      "learning_rate": 4.997080567080816e-07,
-      "logits/chosen": -5.149637222290039,
-      "logits/rejected": -5.36204719543457,
-      "logps/chosen": -328.46356201171875,
-      "logps/rejected": -432.31854248046875,
-      "loss": 0.5989,
-      "rewards/accuracies": 0.7093750238418579,
-      "rewards/chosen": -0.586052417755127,
-      "rewards/margins": 0.4240691661834717,
-      "rewards/rejected": -1.0101215839385986,
       "step": 50
     },
     {
-      "epoch": 0.14,
-      "grad_norm": 45.66439552100321,
-      "learning_rate": 4.979264274553905e-07,
-      "logits/chosen": -5.387632846832275,
-      "logits/rejected": -5.600171089172363,
-      "logps/chosen": -370.166259765625,
-      "logps/rejected": -468.5503845214844,
-      "loss": 0.5899,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.6436477899551392,
-      "rewards/margins": 0.5441282987594604,
-      "rewards/rejected": -1.1877760887145996,
       "step": 60
     },
     {
-      "epoch": 0.16,
-      "grad_norm": 58.36091247583923,
-      "learning_rate": 4.945369001834514e-07,
-      "logits/chosen": -5.68746280670166,
-      "logits/rejected": -5.95988655090332,
-      "logps/chosen": -392.7463684082031,
-      "logps/rejected": -469.6172790527344,
-      "loss": 0.582,
-      "rewards/accuracies": 0.6656249761581421,
-      "rewards/chosen": -0.8184071779251099,
-      "rewards/margins": 0.44322291016578674,
-      "rewards/rejected": -1.2616300582885742,
       "step": 70
     },
     {
-      "epoch": 0.18,
-      "grad_norm": 44.87515888678066,
-      "learning_rate": 4.895614572772916e-07,
-      "logits/chosen": -5.767647743225098,
-      "logits/rejected": -6.016678810119629,
-      "logps/chosen": -372.30438232421875,
-      "logps/rejected": -485.02850341796875,
-      "loss": 0.5658,
-      "rewards/accuracies": 0.6656249761581421,
-      "rewards/chosen": -0.6735275983810425,
-      "rewards/margins": 0.523722767829895,
-      "rewards/rejected": -1.1972506046295166,
       "step": 80
     },
     {
-      "epoch": 0.21,
-      "grad_norm": 52.56006964617041,
-      "learning_rate": 4.830323663933919e-07,
-      "logits/chosen": -5.834498405456543,
-      "logits/rejected": -6.01763916015625,
-      "logps/chosen": -381.7452392578125,
-      "logps/rejected": -476.9891662597656,
-      "loss": 0.5659,
-      "rewards/accuracies": 0.6656249761581421,
-      "rewards/chosen": -0.829800009727478,
-      "rewards/margins": 0.5006512403488159,
-      "rewards/rejected": -1.3304513692855835,
       "step": 90
     },
     {
-      "epoch": 0.23,
-      "grad_norm": 55.69644328341761,
-      "learning_rate": 4.74991971191553e-07,
-      "logits/chosen": -5.832143306732178,
-      "logits/rejected": -6.132119655609131,
-      "logps/chosen": -373.9161682128906,
-      "logps/rejected": -479.5479431152344,
-      "loss": 0.5632,
-      "rewards/accuracies": 0.6781250238418579,
-      "rewards/chosen": -0.693705677986145,
-      "rewards/margins": 0.6272264719009399,
-      "rewards/rejected": -1.320932149887085,
       "step": 100
     },
     {
-      "epoch": 0.25,
-      "grad_norm": 55.95067399887189,
-      "learning_rate": 4.6549241672001225e-07,
-      "logits/chosen": -6.0772786140441895,
-      "logits/rejected": -6.3634233474731445,
-      "logps/chosen": -431.4512634277344,
-      "logps/rejected": -542.3984985351562,
-      "loss": 0.5495,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -1.0600697994232178,
-      "rewards/margins": 0.6067067384719849,
-      "rewards/rejected": -1.6667766571044922,
       "step": 110
     },
     {
-      "epoch": 0.28,
-      "grad_norm": 48.05186252180738,
-      "learning_rate": 4.5459531123479673e-07,
-      "logits/chosen": -6.061857223510742,
-      "logits/rejected": -6.299743175506592,
-      "logps/chosen": -365.68341064453125,
-      "logps/rejected": -485.478271484375,
-      "loss": 0.5609,
-      "rewards/accuracies": 0.6968749761581421,
-      "rewards/chosen": -0.7879248261451721,
-      "rewards/margins": 0.5600650906562805,
-      "rewards/rejected": -1.347989797592163,
       "step": 120
     },
     {
-      "epoch": 0.3,
-      "grad_norm": 56.849323822551575,
-      "learning_rate": 4.4237132664654147e-07,
-      "logits/chosen": -6.179199695587158,
-      "logits/rejected": -6.447500705718994,
-      "logps/chosen": -373.60626220703125,
-      "logps/rejected": -507.93450927734375,
-      "loss": 0.552,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": -0.806027889251709,
-      "rewards/margins": 0.6611197590827942,
-      "rewards/rejected": -1.467147707939148,
       "step": 130
     },
     {
-      "epoch": 0.32,
-      "grad_norm": 51.72316001946749,
-      "learning_rate": 4.2889974018603024e-07,
-      "logits/chosen": -6.394374847412109,
-      "logits/rejected": -6.6608686447143555,
-      "logps/chosen": -405.6766662597656,
-      "logps/rejected": -509.36065673828125,
-      "loss": 0.5535,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.810355544090271,
-      "rewards/margins": 0.6747696399688721,
-      "rewards/rejected": -1.4851253032684326,
       "step": 140
     },
     {
-      "epoch": 0.35,
-      "grad_norm": 56.109386147317295,
-      "learning_rate": 4.142679202609327e-07,
-      "logits/chosen": -6.469355583190918,
-      "logits/rejected": -6.71613073348999,
-      "logps/chosen": -389.1719665527344,
-      "logps/rejected": -522.1373291015625,
-      "loss": 0.5577,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.880142867565155,
-      "rewards/margins": 0.8348616361618042,
-      "rewards/rejected": -1.715004563331604,
       "step": 150
     },
     {
-      "epoch": 0.37,
-      "grad_norm": 52.97530937607907,
-      "learning_rate": 3.9857075983815435e-07,
-      "logits/chosen": -6.588133811950684,
-      "logits/rejected": -6.864637851715088,
-      "logps/chosen": -383.6964416503906,
-      "logps/rejected": -510.33111572265625,
-      "loss": 0.5416,
-      "rewards/accuracies": 0.746874988079071,
-      "rewards/chosen": -0.7866679430007935,
-      "rewards/margins": 0.8415088653564453,
-      "rewards/rejected": -1.6281766891479492,
       "step": 160
     },
     {
-      "epoch": 0.39,
-      "grad_norm": 55.77171290205848,
-      "learning_rate": 3.8191006102653317e-07,
-      "logits/chosen": -6.785226345062256,
-      "logits/rejected": -7.160543918609619,
-      "logps/chosen": -397.39068603515625,
-      "logps/rejected": -506.77398681640625,
-      "loss": 0.5291,
-      "rewards/accuracies": 0.703125,
-      "rewards/chosen": -0.8594799041748047,
-      "rewards/margins": 0.8123966455459595,
-      "rewards/rejected": -1.6718765497207642,
       "step": 170
     },
     {
-      "epoch": 0.41,
-      "grad_norm": 54.05797462315199,
-      "learning_rate": 3.6439387485109883e-07,
-      "logits/chosen": -6.769280433654785,
-      "logits/rejected": -7.096776008605957,
-      "logps/chosen": -387.23101806640625,
-      "logps/rejected": -501.2037048339844,
-      "loss": 0.5379,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.8674057126045227,
-      "rewards/margins": 0.7561392784118652,
-      "rewards/rejected": -1.6235449314117432,
       "step": 180
     },
     {
-      "epoch": 0.44,
-      "grad_norm": 56.88992267517494,
-      "learning_rate": 3.4613580050071274e-07,
-      "logits/chosen": -6.776444435119629,
-      "logits/rejected": -6.957192897796631,
-      "logps/chosen": -407.02349853515625,
-      "logps/rejected": -540.9013671875,
-      "loss": 0.5546,
-      "rewards/accuracies": 0.6875,
-      "rewards/chosen": -1.035926103591919,
-      "rewards/margins": 0.7458062171936035,
-      "rewards/rejected": -1.7817323207855225,
       "step": 190
     },
     {
-      "epoch": 0.46,
-      "grad_norm": 48.953131469141674,
-      "learning_rate": 3.272542485937368e-07,
-      "logits/chosen": -6.675101280212402,
-      "logits/rejected": -6.999788761138916,
-      "logps/chosen": -379.14483642578125,
-      "logps/rejected": -494.6246032714844,
-      "loss": 0.532,
-      "rewards/accuracies": 0.703125,
-      "rewards/chosen": -0.6772204637527466,
-      "rewards/margins": 0.6743000745773315,
-      "rewards/rejected": -1.3515205383300781,
       "step": 200
     },
     {
-      "epoch": 0.48,
-      "grad_norm": 59.16183169308755,
-      "learning_rate": 3.078716732397358e-07,
-      "logits/chosen": -6.790053367614746,
-      "logits/rejected": -7.169698238372803,
-      "logps/chosen": -404.49749755859375,
-      "logps/rejected": -520.8421020507812,
-      "loss": 0.5446,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.8419032096862793,
-      "rewards/margins": 0.7671428918838501,
-      "rewards/rejected": -1.609046220779419,
       "step": 210
     },
     {
-      "epoch": 0.51,
-      "grad_norm": 51.81706264683318,
-      "learning_rate": 2.881137778775863e-07,
-      "logits/chosen": -6.8976874351501465,
-      "logits/rejected": -7.1951165199279785,
-      "logps/chosen": -386.2132873535156,
-      "logps/rejected": -497.3343811035156,
-      "loss": 0.5343,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.8116914629936218,
-      "rewards/margins": 0.7524455785751343,
-      "rewards/rejected": -1.5641369819641113,
       "step": 220
     },
     {
-      "epoch": 0.53,
-      "grad_norm": 55.97935905060418,
-      "learning_rate": 2.681087000404406e-07,
-      "logits/chosen": -6.740978240966797,
-      "logits/rejected": -7.123350620269775,
-      "logps/chosen": -392.87066650390625,
-      "logps/rejected": -503.4215393066406,
-      "loss": 0.5453,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.8021535873413086,
-      "rewards/margins": 0.7195227742195129,
-      "rewards/rejected": -1.5216763019561768,
       "step": 230
     },
     {
-      "epoch": 0.55,
-      "grad_norm": 49.37528181856528,
-      "learning_rate": 2.4798618033465255e-07,
-      "logits/chosen": -6.945050239562988,
-      "logits/rejected": -7.23672342300415,
-      "logps/chosen": -388.6627502441406,
-      "logps/rejected": -537.4052124023438,
-      "loss": 0.5321,
-      "rewards/accuracies": 0.7406250238418579,
-      "rewards/chosen": -0.9606342315673828,
-      "rewards/margins": 0.8123178482055664,
-      "rewards/rejected": -1.7729520797729492,
       "step": 240
     },
     {
-      "epoch": 0.58,
-      "grad_norm": 54.105423705553996,
-      "learning_rate": 2.278767210221604e-07,
-      "logits/chosen": -6.868166923522949,
-      "logits/rejected": -7.291008949279785,
-      "logps/chosen": -392.64984130859375,
-      "logps/rejected": -484.0719299316406,
-      "loss": 0.5417,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -0.779350996017456,
-      "rewards/margins": 0.814343273639679,
-      "rewards/rejected": -1.5936942100524902,
       "step": 250
     },
     {
-      "epoch": 0.6,
-      "grad_norm": 56.43268807738197,
-      "learning_rate": 2.0791073966324034e-07,
-      "logits/chosen": -7.0641374588012695,
-      "logits/rejected": -7.506702423095703,
-      "logps/chosen": -392.3079528808594,
-      "logps/rejected": -523.6732788085938,
-      "loss": 0.5417,
-      "rewards/accuracies": 0.7281249761581421,
-      "rewards/chosen": -0.9223122596740723,
-      "rewards/margins": 0.6978656053543091,
-      "rewards/rejected": -1.6201778650283813,
       "step": 260
     },
     {
-      "epoch": 0.62,
-      "grad_norm": 57.791839351610484,
-      "learning_rate": 1.8821772330858257e-07,
-      "logits/chosen": -7.262925624847412,
-      "logits/rejected": -7.752607822418213,
-      "logps/chosen": -377.09088134765625,
-      "logps/rejected": -489.00811767578125,
-      "loss": 0.5303,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -0.7971266508102417,
-      "rewards/margins": 0.7223898768424988,
-      "rewards/rejected": -1.5195165872573853,
       "step": 270
     },
     {
-      "epoch": 0.64,
-      "grad_norm": 52.90664589103769,
-      "learning_rate": 1.6892538872607933e-07,
-      "logits/chosen": -7.113929748535156,
-      "logits/rejected": -7.584033012390137,
-      "logps/chosen": -380.8609619140625,
-      "logps/rejected": -483.22265625,
-      "loss": 0.5418,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.7374104261398315,
-      "rewards/margins": 0.6971267461776733,
-      "rewards/rejected": -1.4345371723175049,
       "step": 280
     },
     {
-      "epoch": 0.67,
-      "grad_norm": 52.54626658594162,
-      "learning_rate": 1.5015885410857614e-07,
-      "logits/chosen": -7.044780731201172,
-      "logits/rejected": -7.396302700042725,
-      "logps/chosen": -402.6374206542969,
-      "logps/rejected": -516.0399169921875,
-      "loss": 0.5395,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.8658789396286011,
-      "rewards/margins": 0.7155196666717529,
-      "rewards/rejected": -1.581398606300354,
       "step": 290
     },
     {
-      "epoch": 0.69,
-      "grad_norm": 49.517270927729605,
-      "learning_rate": 1.320398276343795e-07,
-      "logits/chosen": -7.218907356262207,
-      "logits/rejected": -7.622152805328369,
-      "logps/chosen": -381.68310546875,
-      "logps/rejected": -497.5284118652344,
-      "loss": 0.5304,
-      "rewards/accuracies": 0.71875,
-      "rewards/chosen": -0.8602964282035828,
-      "rewards/margins": 0.7747164368629456,
-      "rewards/rejected": -1.6350128650665283,
       "step": 300
     },
     {
-      "epoch": 0.71,
-      "grad_norm": 56.86193381024086,
-      "learning_rate": 1.1468581814301717e-07,
-      "logits/chosen": -7.034183502197266,
-      "logits/rejected": -7.478652000427246,
-      "logps/chosen": -426.84246826171875,
-      "logps/rejected": -530.8802490234375,
-      "loss": 0.5331,
-      "rewards/accuracies": 0.715624988079071,
-      "rewards/chosen": -0.9773043394088745,
-      "rewards/margins": 0.6900089979171753,
-      "rewards/rejected": -1.6673132181167603,
       "step": 310
     },
     {
-      "epoch": 0.74,
-      "grad_norm": 54.684846687132904,
-      "learning_rate": 9.82093730453222e-08,
-      "logits/chosen": -7.0423383712768555,
-      "logits/rejected": -7.299139499664307,
-      "logps/chosen": -368.8961181640625,
-      "logps/rejected": -539.9181518554688,
-      "loss": 0.5349,
-      "rewards/accuracies": 0.7281249761581421,
-      "rewards/chosen": -0.8125068545341492,
-      "rewards/margins": 0.9283336400985718,
-      "rewards/rejected": -1.7408406734466553,
       "step": 320
     },
     {
-      "epoch": 0.76,
-      "grad_norm": 50.829923121131,
-      "learning_rate": 8.271734841028552e-08,
-      "logits/chosen": -7.086381435394287,
-      "logits/rejected": -7.435737609863281,
-      "logps/chosen": -373.8357849121094,
-      "logps/rejected": -515.7593994140625,
-      "loss": 0.5378,
-      "rewards/accuracies": 0.7281249761581421,
-      "rewards/chosen": -0.8114317655563354,
-      "rewards/margins": 0.869731068611145,
-      "rewards/rejected": -1.6811625957489014,
       "step": 330
     },
     {
-      "epoch": 0.78,
-      "grad_norm": 55.18994010345068,
-      "learning_rate": 6.831021596244424e-08,
-      "logits/chosen": -7.145020484924316,
-      "logits/rejected": -7.365900993347168,
-      "logps/chosen": -399.44464111328125,
-      "logps/rejected": -547.0018920898438,
-      "loss": 0.5091,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -0.8901287317276001,
-      "rewards/margins": 0.9701870083808899,
-      "rewards/rejected": -1.8603156805038452,
       "step": 340
     },
     {
-      "epoch": 0.81,
-      "grad_norm": 54.117959716474104,
-      "learning_rate": 5.508141148419443e-08,
-      "logits/chosen": -7.050479888916016,
-      "logits/rejected": -7.3631181716918945,
-      "logps/chosen": -395.1244201660156,
-      "logps/rejected": -546.9639282226562,
-      "loss": 0.5287,
-      "rewards/accuracies": 0.746874988079071,
-      "rewards/chosen": -0.9601947069168091,
-      "rewards/margins": 0.8646580576896667,
-      "rewards/rejected": -1.8248529434204102,
       "step": 350
     },
     {
-      "epoch": 0.83,
-      "grad_norm": 59.05434076734903,
-      "learning_rate": 4.311672884888756e-08,
-      "logits/chosen": -7.259505271911621,
-      "logits/rejected": -7.578073024749756,
-      "logps/chosen": -371.8418884277344,
-      "logps/rejected": -483.1830139160156,
-      "loss": 0.5215,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.8195570707321167,
-      "rewards/margins": 0.8197137117385864,
-      "rewards/rejected": -1.6392707824707031,
       "step": 360
     },
     {
-      "epoch": 0.85,
-      "grad_norm": 54.176289282529886,
-      "learning_rate": 3.249376361464021e-08,
-      "logits/chosen": -7.098161220550537,
-      "logits/rejected": -7.438362121582031,
-      "logps/chosen": -408.6588439941406,
-      "logps/rejected": -542.7982788085938,
-      "loss": 0.5208,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -0.9817103147506714,
-      "rewards/margins": 0.7650116682052612,
-      "rewards/rejected": -1.746721863746643,
       "step": 370
     },
     {
-      "epoch": 0.88,
-      "grad_norm": 60.447603354663286,
-      "learning_rate": 2.3281409787363648e-08,
-      "logits/chosen": -7.142265319824219,
-      "logits/rejected": -7.481961727142334,
-      "logps/chosen": -387.88934326171875,
-      "logps/rejected": -509.31011962890625,
-      "loss": 0.5432,
-      "rewards/accuracies": 0.6937500238418579,
-      "rewards/chosen": -0.8285897374153137,
-      "rewards/margins": 0.6989187598228455,
-      "rewards/rejected": -1.5275084972381592,
       "step": 380
     },
-    {
-      "epoch": 0.9,
-      "grad_norm": 53.49129578625785,
-      "learning_rate": 1.553941301669892e-08,
-      "logits/chosen": -7.165548801422119,
-      "logits/rejected": -7.568087577819824,
-      "logps/chosen": -370.10491943359375,
-      "logps/rejected": -490.369873046875,
-      "loss": 0.5315,
-      "rewards/accuracies": 0.706250011920929,
-      "rewards/chosen": -0.814159095287323,
-      "rewards/margins": 0.7283869981765747,
-      "rewards/rejected": -1.542546033859253,
-      "step": 390
-    },
-    {
-      "epoch": 0.92,
-      "grad_norm": 52.37813865787704,
-      "learning_rate": 9.31798312255233e-09,
-      "logits/chosen": -7.114771842956543,
-      "logits/rejected": -7.5348968505859375,
-      "logps/chosen": -390.9321594238281,
-      "logps/rejected": -521.2406005859375,
-      "loss": 0.5151,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.8433186411857605,
-      "rewards/margins": 0.7988412976264954,
-      "rewards/rejected": -1.6421600580215454,
-      "step": 400
-    },
-    {
-      "epoch": 0.94,
-      "grad_norm": 53.77720647192081,
-      "learning_rate": 4.657468465146641e-09,
-      "logits/chosen": -7.192900657653809,
-      "logits/rejected": -7.582442283630371,
-      "logps/chosen": -385.35809326171875,
-      "logps/rejected": -510.85919189453125,
-      "loss": 0.5351,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -0.8629342913627625,
-      "rewards/margins": 0.8567607998847961,
-      "rewards/rejected": -1.7196948528289795,
-      "step": 410
-    },
-    {
-      "epoch": 0.97,
-      "grad_norm": 59.87565888131157,
-      "learning_rate": 1.5880942704217526e-09,
-      "logits/chosen": -6.9229278564453125,
-      "logits/rejected": -7.265672206878662,
-      "logps/chosen": -432.6807556152344,
-      "logps/rejected": -540.7777099609375,
-      "loss": 0.5192,
-      "rewards/accuracies": 0.715624988079071,
-      "rewards/chosen": -0.9274924993515015,
-      "rewards/margins": 0.6948927640914917,
-      "rewards/rejected": -1.6223852634429932,
-      "step": 420
-    },
     {
       "epoch": 0.99,
-      "grad_norm": 54.84275580772891,
-      "learning_rate": 1.297666078462767e-10,
-      "logits/chosen": -7.139874458312988,
-      "logits/rejected": -7.5435380935668945,
-      "logps/chosen": -396.08514404296875,
-      "logps/rejected": -513.01806640625,
-      "loss": 0.5269,
-      "rewards/accuracies": 0.7593749761581421,
-      "rewards/chosen": -0.8496484756469727,
-      "rewards/margins": 0.8382279276847839,
-      "rewards/rejected": -1.6878764629364014,
-      "step": 430
     },
     {
       "epoch": 1.0,
-      "step": 434,
       "total_flos": 0.0,
-      "train_loss": 0.5533875935638006,
-      "train_runtime": 12702.5109,
-      "train_samples_per_second": 8.749,
-      "train_steps_per_second": 0.034
     }
   ],
   "logging_steps": 10,
-  "max_steps": 434,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 395,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "grad_norm": 41.54115560671131,
+      "learning_rate": 1.25e-08,
+      "logits/chosen": -4.306375503540039,
+      "logits/rejected": -4.599514007568359,
+      "logps/chosen": -381.2711181640625,
+      "logps/rejected": -391.8406982421875,
+      "loss": 0.6929,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
       "step": 1
     },
     {
+      "epoch": 0.03,
+      "grad_norm": 38.89233173260305,
+      "learning_rate": 1.25e-07,
+      "logits/chosen": -4.333991050720215,
+      "logits/rejected": -4.4896559715271,
+      "logps/chosen": -376.6128845214844,
+      "logps/rejected": -396.8119201660156,
+      "loss": 0.6925,
+      "rewards/accuracies": 0.4583333432674408,
+      "rewards/chosen": -0.0025132838636636734,
+      "rewards/margins": 0.0018265678081661463,
+      "rewards/rejected": -0.004339851904660463,
       "step": 10
     },
     {
       "epoch": 0.05,
+      "grad_norm": 38.139879750053254,
+      "learning_rate": 2.5e-07,
+      "logits/chosen": -4.47939920425415,
+      "logits/rejected": -4.573966979980469,
+      "logps/chosen": -391.5196838378906,
+      "logps/rejected": -438.828857421875,
+      "loss": 0.6674,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": -0.09850569069385529,
+      "rewards/margins": 0.05668836832046509,
+      "rewards/rejected": -0.15519407391548157,
       "step": 20
     },
     {
+      "epoch": 0.08,
+      "grad_norm": 47.79366128002695,
+      "learning_rate": 3.75e-07,
+      "logits/chosen": -4.530553340911865,
+      "logits/rejected": -4.708470344543457,
+      "logps/chosen": -464.93084716796875,
+      "logps/rejected": -509.82861328125,
+      "loss": 0.6261,
+      "rewards/accuracies": 0.659375011920929,
+      "rewards/chosen": -0.5474977493286133,
+      "rewards/margins": 0.25755801796913147,
+      "rewards/rejected": -0.8050557374954224,
       "step": 30
     },
     {
+      "epoch": 0.1,
+      "grad_norm": 47.01153640565049,
+      "learning_rate": 5e-07,
+      "logits/chosen": -4.857049942016602,
+      "logits/rejected": -5.048783779144287,
+      "logps/chosen": -437.2730407714844,
+      "logps/rejected": -497.80078125,
+      "loss": 0.5883,
+      "rewards/accuracies": 0.653124988079071,
+      "rewards/chosen": -0.6910537481307983,
+      "rewards/margins": 0.3994576036930084,
+      "rewards/rejected": -1.0905113220214844,
       "step": 40
     },
     {
+      "epoch": 0.13,
+      "grad_norm": 50.785580057659836,
+      "learning_rate": 4.990217055187362e-07,
+      "logits/chosen": -4.775557518005371,
+      "logits/rejected": -4.96406364440918,
+      "logps/chosen": -425.1912536621094,
+      "logps/rejected": -523.9107666015625,
+      "loss": 0.5553,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.48143666982650757,
+      "rewards/margins": 0.5418455004692078,
+      "rewards/rejected": -1.0232822895050049,
       "step": 50
     },
     {
+      "epoch": 0.15,
+      "grad_norm": 47.58443781578147,
+      "learning_rate": 4.960944785556813e-07,
+      "logits/chosen": -4.912293434143066,
+      "logits/rejected": -5.1732072830200195,
+      "logps/chosen": -461.0411682128906,
+      "logps/rejected": -549.9326171875,
+      "loss": 0.5619,
+      "rewards/accuracies": 0.7093750238418579,
+      "rewards/chosen": -0.7086145281791687,
+      "rewards/margins": 0.5085697174072266,
+      "rewards/rejected": -1.21718430519104,
       "step": 60
     },
     {
+      "epoch": 0.18,
+      "grad_norm": 50.17116749835004,
+      "learning_rate": 4.912412286307025e-07,
+      "logits/chosen": -5.128066062927246,
+      "logits/rejected": -5.452770709991455,
+      "logps/chosen": -429.89202880859375,
+      "logps/rejected": -530.6647338867188,
+      "loss": 0.5226,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.5659561157226562,
+      "rewards/margins": 0.6657453775405884,
+      "rewards/rejected": -1.2317016124725342,
       "step": 70
     },
     {
+      "epoch": 0.2,
+      "grad_norm": 56.54681066075575,
+      "learning_rate": 4.844999390047419e-07,
+      "logits/chosen": -5.285617828369141,
+      "logits/rejected": -5.636483192443848,
+      "logps/chosen": -460.7303161621094,
+      "logps/rejected": -563.2789916992188,
+      "loss": 0.5138,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.7176406383514404,
+      "rewards/margins": 0.732753574848175,
+      "rewards/rejected": -1.4503942728042603,
       "step": 80
     },
     {
+      "epoch": 0.23,
+      "grad_norm": 50.83178244078908,
+      "learning_rate": 4.7592336940930097e-07,
+      "logits/chosen": -5.608884811401367,
+      "logits/rejected": -5.990847587585449,
+      "logps/chosen": -460.23272705078125,
+      "logps/rejected": -559.8355712890625,
+      "loss": 0.5099,
+      "rewards/accuracies": 0.784375011920929,
+      "rewards/chosen": -0.593207061290741,
+      "rewards/margins": 0.8474555015563965,
+      "rewards/rejected": -1.4406626224517822,
       "step": 90
     },
     {
+      "epoch": 0.25,
+      "grad_norm": 59.601370802822075,
+      "learning_rate": 4.655786431300069e-07,
+      "logits/chosen": -5.9478230476379395,
+      "logits/rejected": -6.265199184417725,
+      "logps/chosen": -431.99151611328125,
+      "logps/rejected": -531.1004638671875,
+      "loss": 0.5186,
+      "rewards/accuracies": 0.7906249761581421,
+      "rewards/chosen": -0.6661251783370972,
+      "rewards/margins": 0.7114373445510864,
+      "rewards/rejected": -1.3775627613067627,
       "step": 100
     },
     {
+      "epoch": 0.28,
+      "grad_norm": 54.889294284535225,
+      "learning_rate": 4.535467216758936e-07,
+      "logits/chosen": -5.984147548675537,
+      "logits/rejected": -6.4844231605529785,
+      "logps/chosen": -461.1131286621094,
+      "logps/rejected": -544.032958984375,
+      "loss": 0.5057,
+      "rewards/accuracies": 0.7593749761581421,
+      "rewards/chosen": -0.6606206893920898,
+      "rewards/margins": 0.6746741533279419,
+      "rewards/rejected": -1.3352949619293213,
       "step": 110
     },
     {
+      "epoch": 0.3,
+      "grad_norm": 61.24432368201881,
+      "learning_rate": 4.3992177114582117e-07,
+      "logits/chosen": -6.2256269454956055,
+      "logits/rejected": -6.654993534088135,
+      "logps/chosen": -477.16326904296875,
+      "logps/rejected": -610.1165771484375,
+      "loss": 0.4971,
+      "rewards/accuracies": 0.7593749761581421,
+      "rewards/chosen": -0.8679486513137817,
+      "rewards/margins": 0.9162583351135254,
+      "rewards/rejected": -1.7842069864273071,
       "step": 120
     },
     {
+      "epoch": 0.33,
+      "grad_norm": 73.6030496927752,
+      "learning_rate": 4.248104252510785e-07,
+      "logits/chosen": -5.852092266082764,
+      "logits/rejected": -6.4555840492248535,
+      "logps/chosen": -436.20867919921875,
+      "logps/rejected": -535.7562866210938,
+      "loss": 0.5056,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.6110241413116455,
+      "rewards/margins": 0.7542751431465149,
+      "rewards/rejected": -1.3652993440628052,
       "step": 130
     },
     {
+      "epoch": 0.35,
+      "grad_norm": 47.56900195447933,
+      "learning_rate": 4.0833095076201176e-07,
+      "logits/chosen": -5.862217903137207,
+      "logits/rejected": -6.282025337219238,
+      "logps/chosen": -448.24188232421875,
+      "logps/rejected": -539.3355712890625,
+      "loss": 0.5071,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.7590019702911377,
+      "rewards/margins": 0.7245356440544128,
+      "rewards/rejected": -1.4835376739501953,
       "step": 140
     },
     {
+      "epoch": 0.38,
+      "grad_norm": 61.35802392759384,
+      "learning_rate": 3.9061232191019517e-07,
+      "logits/chosen": -5.939135551452637,
+      "logits/rejected": -6.367193698883057,
+      "logps/chosen": -452.0302734375,
+      "logps/rejected": -549.789306640625,
+      "loss": 0.5017,
+      "rewards/accuracies": 0.7906249761581421,
+      "rewards/chosen": -0.6960467100143433,
+      "rewards/margins": 0.7666617631912231,
+      "rewards/rejected": -1.4627084732055664,
       "step": 150
     },
     {
+      "epoch": 0.41,
+      "grad_norm": 47.33126253925995,
+      "learning_rate": 3.717932109901991e-07,
+      "logits/chosen": -6.0608344078063965,
+      "logits/rejected": -6.6918182373046875,
+      "logps/chosen": -481.3443298339844,
+      "logps/rejected": -580.4495849609375,
+      "loss": 0.4842,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.8736475706100464,
+      "rewards/margins": 0.889535129070282,
+      "rewards/rejected": -1.7631828784942627,
       "step": 160
     },
     {
+      "epoch": 0.43,
+      "grad_norm": 55.24382676161828,
+      "learning_rate": 3.520209030608662e-07,
+      "logits/chosen": -5.88026237487793,
+      "logits/rejected": -6.288437843322754,
+      "logps/chosen": -452.7632751464844,
+      "logps/rejected": -572.0946655273438,
+      "loss": 0.4902,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.6406772136688232,
+      "rewards/margins": 0.8104515075683594,
+      "rewards/rejected": -1.4511287212371826,
       "step": 170
     },
     {
+      "epoch": 0.46,
+      "grad_norm": 55.62294024430127,
+      "learning_rate": 3.314501432400294e-07,
+      "logits/chosen": -6.004621505737305,
+      "logits/rejected": -6.520898342132568,
+      "logps/chosen": -464.07867431640625,
+      "logps/rejected": -585.2781982421875,
+      "loss": 0.4718,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.7512537240982056,
+      "rewards/margins": 0.9464238286018372,
+      "rewards/rejected": -1.6976773738861084,
       "step": 180
     },
     {
+      "epoch": 0.48,
+      "grad_norm": 52.01142149507834,
+      "learning_rate": 3.1024192561415357e-07,
+      "logits/chosen": -6.592843532562256,
+      "logits/rejected": -6.868170738220215,
+      "logps/chosen": -469.8837890625,
+      "logps/rejected": -633.4119873046875,
+      "loss": 0.4847,
+      "rewards/accuracies": 0.7593749761581421,
+      "rewards/chosen": -1.087369680404663,
+      "rewards/margins": 1.0047850608825684,
+      "rewards/rejected": -2.0921549797058105,
       "step": 190
     },
     {
+      "epoch": 0.51,
+      "grad_norm": 59.64754211046823,
+      "learning_rate": 2.8856223324132555e-07,
+      "logits/chosen": -6.358391761779785,
+      "logits/rejected": -6.768553733825684,
+      "logps/chosen": -484.43780517578125,
+      "logps/rejected": -597.5379638671875,
+      "loss": 0.485,
+      "rewards/accuracies": 0.753125011920929,
+      "rewards/chosen": -0.9880083799362183,
+      "rewards/margins": 0.7920882105827332,
+      "rewards/rejected": -1.7800966501235962,
       "step": 200
     },
     {
+      "epoch": 0.53,
+      "grad_norm": 55.126905350837,
+      "learning_rate": 2.66580739108776e-07,
+      "logits/chosen": -6.6527838706970215,
+      "logits/rejected": -7.2258100509643555,
+      "logps/chosen": -467.697509765625,
+      "logps/rejected": -590.52734375,
+      "loss": 0.4806,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -0.8441788554191589,
+      "rewards/margins": 0.9318108558654785,
+      "rewards/rejected": -1.7759897708892822,
       "step": 210
     },
     {
+      "epoch": 0.56,
+      "grad_norm": 52.277945286098316,
+      "learning_rate": 2.444694782117033e-07,
+      "logits/chosen": -6.5264458656311035,
+      "logits/rejected": -7.032387733459473,
+      "logps/chosen": -461.33795166015625,
+      "logps/rejected": -560.9654541015625,
+      "loss": 0.4717,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.9239259958267212,
+      "rewards/margins": 0.8057114481925964,
+      "rewards/rejected": -1.7296375036239624,
       "step": 220
     },
     {
+      "epoch": 0.58,
+      "grad_norm": 56.70702029670774,
+      "learning_rate": 2.2240150114618259e-07,
+      "logits/chosen": -6.4634904861450195,
+      "logits/rejected": -6.930532932281494,
+      "logps/chosen": -506.49505615234375,
+      "logps/rejected": -632.0296020507812,
+      "loss": 0.4759,
+      "rewards/accuracies": 0.815625011920929,
+      "rewards/chosen": -1.0257264375686646,
+      "rewards/margins": 1.0186141729354858,
+      "rewards/rejected": -2.0443403720855713,
       "step": 230
     },
     {
+      "epoch": 0.61,
+      "grad_norm": 50.19002044845227,
+      "learning_rate": 2.0054951975362065e-07,
+      "logits/chosen": -6.56687068939209,
+      "logits/rejected": -7.020349979400635,
+      "logps/chosen": -470.70648193359375,
+      "logps/rejected": -628.5145263671875,
+      "loss": 0.4777,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.882061779499054,
+      "rewards/margins": 1.0980554819107056,
+      "rewards/rejected": -1.9801172018051147,
       "step": 240
     },
     {
+      "epoch": 0.63,
+      "grad_norm": 62.96869333763073,
+      "learning_rate": 1.7908455541642582e-07,
+      "logits/chosen": -6.792383670806885,
+      "logits/rejected": -7.117269039154053,
+      "logps/chosen": -466.4208984375,
+      "logps/rejected": -605.7127075195312,
+      "loss": 0.4758,
+      "rewards/accuracies": 0.840624988079071,
+      "rewards/chosen": -0.8703948855400085,
+      "rewards/margins": 1.0195105075836182,
+      "rewards/rejected": -1.889905571937561,
       "step": 250
     },
     {
+      "epoch": 0.66,
+      "grad_norm": 62.510903657866734,
+      "learning_rate": 1.5817460058381084e-07,
+      "logits/chosen": -6.452023506164551,
+      "logits/rejected": -6.968575477600098,
+      "logps/chosen": -495.3380432128906,
+      "logps/rejected": -609.4599609375,
+      "loss": 0.4864,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.9492015838623047,
+      "rewards/margins": 0.9177757501602173,
+      "rewards/rejected": -1.866977334022522,
       "step": 260
     },
     {
+      "epoch": 0.68,
+      "grad_norm": 62.01447255874997,
+      "learning_rate": 1.3798330400310537e-07,
+      "logits/chosen": -6.2711181640625,
+      "logits/rejected": -6.893205165863037,
+      "logps/chosen": -465.7061462402344,
+      "logps/rejected": -592.8031005859375,
+      "loss": 0.4625,
+      "rewards/accuracies": 0.7906249761581421,
+      "rewards/chosen": -0.7948521375656128,
+      "rewards/margins": 1.056058645248413,
+      "rewards/rejected": -1.8509107828140259,
       "step": 270
     },
     {
+      "epoch": 0.71,
+      "grad_norm": 62.84305172490392,
+      "learning_rate": 1.1866868994642534e-07,
+      "logits/chosen": -6.332844257354736,
+      "logits/rejected": -6.893272399902344,
+      "logps/chosen": -478.971435546875,
+      "logps/rejected": -597.5892333984375,
+      "loss": 0.4598,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -0.8677324056625366,
+      "rewards/margins": 0.9433156251907349,
+      "rewards/rejected": -1.811047911643982,
       "step": 280
     },
     {
+      "epoch": 0.73,
+      "grad_norm": 69.95001635354407,
+      "learning_rate": 1.0038192145648567e-07,
+      "logits/chosen": -6.384323596954346,
+      "logits/rejected": -6.853055477142334,
+      "logps/chosen": -527.7755126953125,
+      "logps/rejected": -647.9898681640625,
+      "loss": 0.4736,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.156057357788086,
+      "rewards/margins": 1.0375856161117554,
+      "rewards/rejected": -2.193643093109131,
       "step": 290
     },
     {
+      "epoch": 0.76,
+      "grad_norm": 74.81540906001793,
+      "learning_rate": 8.32661172908373e-08,
+      "logits/chosen": -6.537497043609619,
+      "logits/rejected": -6.883517265319824,
+      "logps/chosen": -472.21649169921875,
+      "logps/rejected": -605.0711059570312,
+      "loss": 0.4672,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -0.9630511999130249,
+      "rewards/margins": 0.9703599810600281,
+      "rewards/rejected": -1.9334112405776978,
       "step": 300
     },
     {
+      "epoch": 0.78,
+      "grad_norm": 60.19828111344577,
+      "learning_rate": 6.745523182354146e-08,
+      "logits/chosen": -6.695423126220703,
+      "logits/rejected": -7.178382873535156,
+      "logps/chosen": -465.47760009765625,
+      "logps/rejected": -609.17919921875,
+      "loss": 0.4645,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.0548077821731567,
+      "rewards/margins": 0.9832090139389038,
+      "rewards/rejected": -2.0380167961120605,
       "step": 310
     },
     {
+      "epoch": 0.81,
+      "grad_norm": 62.819619859552624,
+      "learning_rate": 5.307300667057049e-08,
+      "logits/chosen": -6.586479187011719,
+      "logits/rejected": -7.047415733337402,
+      "logps/chosen": -449.232421875,
+      "logps/rejected": -559.2984008789062,
+      "loss": 0.4502,
+      "rewards/accuracies": 0.8031250238418579,
+      "rewards/chosen": -0.937958836555481,
+      "rewards/margins": 0.9285039901733398,
+      "rewards/rejected": -1.8664629459381104,
       "step": 320
     },
     {
+      "epoch": 0.84,
+      "grad_norm": 54.74190137372815,
+      "learning_rate": 4.023200224388787e-08,
+      "logits/chosen": -6.525613307952881,
+      "logits/rejected": -7.149096488952637,
+      "logps/chosen": -492.0001525878906,
+      "logps/rejected": -622.4295043945312,
+      "loss": 0.4583,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.126334309577942,
+      "rewards/margins": 1.0052974224090576,
+      "rewards/rejected": -2.131631851196289,
       "step": 330
     },
     {
+      "epoch": 0.86,
+      "grad_norm": 65.41299711527839,
+      "learning_rate": 2.903271681360972e-08,
+      "logits/chosen": -6.488680839538574,
+      "logits/rejected": -7.005003452301025,
+      "logps/chosen": -486.0816955566406,
+      "logps/rejected": -597.4981689453125,
+      "loss": 0.4664,
+      "rewards/accuracies": 0.8031250238418579,
+      "rewards/chosen": -1.010422945022583,
+      "rewards/margins": 1.0139751434326172,
+      "rewards/rejected": -2.0243980884552,
       "step": 340
     },
     {
+      "epoch": 0.89,
+      "grad_norm": 67.03908350203817,
+      "learning_rate": 1.956279997278043e-08,
+      "logits/chosen": -6.695385932922363,
+      "logits/rejected": -7.170092582702637,
+      "logps/chosen": -490.95477294921875,
+      "logps/rejected": -671.6006469726562,
+      "loss": 0.4609,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -1.0624668598175049,
+      "rewards/margins": 1.2378281354904175,
+      "rewards/rejected": -2.300295352935791,
       "step": 350
     },
     {
+      "epoch": 0.91,
+      "grad_norm": 62.41118335177348,
+      "learning_rate": 1.1896366660467171e-08,
+      "logits/chosen": -6.916273593902588,
+      "logits/rejected": -7.29934549331665,
+      "logps/chosen": -442.0613708496094,
+      "logps/rejected": -587.3243408203125,
+      "loss": 0.4614,
+      "rewards/accuracies": 0.753125011920929,
+      "rewards/chosen": -1.0646042823791504,
+      "rewards/margins": 0.939795196056366,
+      "rewards/rejected": -2.004399538040161,
       "step": 360
     },
     {
+      "epoch": 0.94,
+      "grad_norm": 64.20669715502403,
+      "learning_rate": 6.093417111873306e-09,
+      "logits/chosen": -6.631227016448975,
+      "logits/rejected": -7.061822414398193,
+      "logps/chosen": -475.503173828125,
+      "logps/rejected": -603.5335693359375,
+      "loss": 0.4628,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -1.0652824640274048,
+      "rewards/margins": 0.9914292097091675,
+      "rewards/rejected": -2.0567116737365723,
       "step": 370
     },
     {
+      "epoch": 0.96,
+      "grad_norm": 56.2255930339814,
+      "learning_rate": 2.1993672751463576e-09,
+      "logits/chosen": -6.618802070617676,
+      "logits/rejected": -7.291499137878418,
+      "logps/chosen": -474.84222412109375,
+      "logps/rejected": -613.4112548828125,
+      "loss": 0.4616,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -0.9348451495170593,
+      "rewards/margins": 1.0984827280044556,
+      "rewards/rejected": -2.03332781791687,
       "step": 380
     },
     {
       "epoch": 0.99,
+      "grad_norm": 54.17486776663219,
+      "learning_rate": 2.4469337000659897e-10,
+      "logits/chosen": -6.589730739593506,
+      "logits/rejected": -7.092536926269531,
+      "logps/chosen": -502.3226623535156,
+      "logps/rejected": -631.1239013671875,
+      "loss": 0.4561,
+      "rewards/accuracies": 0.753125011920929,
+      "rewards/chosen": -1.0657384395599365,
+      "rewards/margins": 1.0461207628250122,
+      "rewards/rejected": -2.111859083175659,
+      "step": 390
     },
     {
       "epoch": 1.0,
+      "step": 395,
       "total_flos": 0.0,
+      "train_loss": 0.5006634004508392,
+      "train_runtime": 11862.2044,
+      "train_samples_per_second": 8.521,
+      "train_steps_per_second": 0.033
     }
   ],
   "logging_steps": 10,
+  "max_steps": 395,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0fca5a261a54300d1452b13f8cd6d979be181e6f4026bf678536b29a267ee051
 size 6264

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1bc17ed85ca32e2b7092e543ef370bba720c36e2d5e97cfd36bc0e25efa4f1b
 size 6264