Model save

Browse files

Files changed (10) hide show

README.md +12 -12
all_results.json +3 -3
config.json +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
runs/May29_00-48-35_n136-100-194/events.out.tfevents.1716915257.n136-100-194.1004174.0 +2 -2
train_results.json +3 -3
trainer_state.json +413 -983
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -15,15 +15,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.0594
-- Rewards/chosen: -5.1568
-- Rewards/rejected: -5.4496
-- Rewards/accuracies: 0.5625
-- Rewards/margins: 0.2928
-- Logps/rejected: -917.5723
-- Logps/chosen: -895.0606
-- Logits/rejected: -4.8109
-- Logits/chosen: -4.6185
 ## Model description
@@ -60,9 +60,9 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.5292        | 0.26  | 100  | 0.6958          | -1.2149        | -1.3146          | 0.5312             | 0.0997          | -504.0709      | -500.8688    | -3.0075         | -2.9813       |
-| 0.3733        | 0.53  | 200  | 0.9588          | -4.2477        | -4.5339          | 0.5273             | 0.2862          | -826.0007      | -804.1498    | -4.5463         | -4.4070       |
-| 0.3689        | 0.79  | 300  | 1.0594          | -5.1568        | -5.4496          | 0.5625             | 0.2928          | -917.5723      | -895.0606    | -4.8109         | -4.6185       |
 ### Framework versions

 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.1843
+- Rewards/chosen: -5.6098
+- Rewards/rejected: -5.9639
+- Rewards/accuracies: 0.5117
+- Rewards/margins: 0.3541
+- Logps/rejected: -1114.7808
+- Logps/chosen: -951.4574
+- Logits/rejected: -7.9900
+- Logits/chosen: -7.4446
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.4015        | 0.26  | 100  | 0.9856          | -4.3603        | -4.6945          | 0.5273             | 0.3341          | -987.8358      | -826.5081    | -6.7933         | -6.4109       |
+| 0.3649        | 0.53  | 200  | 1.1239          | -4.8760        | -5.1429          | 0.4883             | 0.2669          | -1032.6809     | -878.0756    | -7.6378         | -7.1525       |
+| 0.3506        | 0.79  | 300  | 1.1843          | -5.6098        | -5.9639          | 0.5117             | 0.3541          | -1114.7808     | -951.4574    | -7.9900         | -7.4446       |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.4399322837512537,
-    "train_runtime": 5833.2156,
     "train_samples": 48530,
-    "train_samples_per_second": 8.32,
     "train_steps_per_second": 0.065
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.39733357479830217,
+    "train_runtime": 5845.1464,
     "train_samples": 48530,
+    "train_samples_per_second": 8.303,
     "train_steps_per_second": 0.065
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "/mnt/bn/xuruijie-llm/checkpoints/hh-rlhf/sft_0521/checkpoint-5500/",
   "architectures": [
     "MistralForCausalLM"
   ],

 {
+  "_name_or_path": "/mnt/bn/xuruijie-llm/checkpoints/new_world/v1-ultral",
   "architectures": [
     "MistralForCausalLM"
   ],

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fdc060d7c5cba351eb050605badb077cae80ee41348189754f56e91a13bf4c06
 size 4943178720

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0448d3619348a37bb87330d8a16f03f2db67a5e69f6d423351f4de49ba701b4
 size 4943178720

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dae2ed2013519d5a8e0064d100d4202f05d63cb1f9af0f17f77c58e7d46478f2
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:0afb427ab7948f6418557c415a2087f26e4a2bcf506844122d917521dfff33e5
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6dad5acbe5dbb357fe68df873176da530b0380b90dcff8829bc2e871ca38f1ca
 size 4540532728

 version https://git-lfs.github.com/spec/v1
+oid sha256:a88ed491b35c8995c182b2bbbff2fb9fb8eab8e0c1d499eee5dfc7d7e795619f
 size 4540532728

runs/May29_00-48-35_n136-100-194/events.out.tfevents.1716915257.n136-100-194.1004174.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3276903ea48ed720254dc322a355a5c64b631ef57032d6ff7cc877935c0cef62
-size 28248

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ae0e5f7c711b9eb4df161831dead31f4a5f4e24c11dec46a6894b2cd1129f93
+size 33418

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.4399322837512537,
-    "train_runtime": 5833.2156,
     "train_samples": 48530,
-    "train_samples_per_second": 8.32,
     "train_steps_per_second": 0.065
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.39733357479830217,
+    "train_runtime": 5845.1464,
     "train_samples": 48530,
+    "train_samples_per_second": 8.303,
     "train_steps_per_second": 0.065
 }

trainer_state.json CHANGED Viewed

@@ -10,12 +10,12 @@
   "log_history": [
     {
       "epoch": 0.0,
-      "grad_norm": 32.10821322863283,
       "learning_rate": 1.3157894736842104e-08,
-      "logits/chosen": -2.219799041748047,
-      "logits/rejected": -2.229109525680542,
-      "logps/chosen": -269.856201171875,
-      "logps/rejected": -192.3697509765625,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
@@ -23,1190 +23,620 @@
       "rewards/rejected": 0.0,
       "step": 1
     },
-    {
-      "epoch": 0.01,
-      "grad_norm": 35.006735982686784,
-      "learning_rate": 6.578947368421052e-08,
-      "logits/chosen": -2.276287078857422,
-      "logits/rejected": -2.2080204486846924,
-      "logps/chosen": -283.5397644042969,
-      "logps/rejected": -208.59442138671875,
-      "loss": 0.6931,
-      "rewards/accuracies": 0.40625,
-      "rewards/chosen": 0.0013411559630185366,
-      "rewards/margins": 0.00017823810048867017,
-      "rewards/rejected": 0.0011629178188741207,
-      "step": 5
-    },
     {
       "epoch": 0.03,
-      "grad_norm": 36.439618208906154,
       "learning_rate": 1.3157894736842104e-07,
-      "logits/chosen": -2.3274893760681152,
-      "logits/rejected": -2.2322466373443604,
-      "logps/chosen": -286.6865539550781,
-      "logps/rejected": -206.5416717529297,
-      "loss": 0.6926,
-      "rewards/accuracies": 0.48750001192092896,
-      "rewards/chosen": 0.00261278566904366,
-      "rewards/margins": -3.606556128943339e-05,
-      "rewards/rejected": 0.0026488511357456446,
       "step": 10
     },
-    {
-      "epoch": 0.04,
-      "grad_norm": 34.873528802219326,
-      "learning_rate": 1.9736842105263157e-07,
-      "logits/chosen": -2.3293230533599854,
-      "logits/rejected": -2.2996506690979004,
-      "logps/chosen": -289.71771240234375,
-      "logps/rejected": -237.6280059814453,
-      "loss": 0.6906,
-      "rewards/accuracies": 0.612500011920929,
-      "rewards/chosen": 0.017419874668121338,
-      "rewards/margins": 0.004653422627598047,
-      "rewards/rejected": 0.012766450643539429,
-      "step": 15
-    },
     {
       "epoch": 0.05,
-      "grad_norm": 31.898185632963774,
       "learning_rate": 2.631578947368421e-07,
-      "logits/chosen": -2.3196263313293457,
-      "logits/rejected": -2.2592759132385254,
-      "logps/chosen": -263.24908447265625,
-      "logps/rejected": -202.05458068847656,
-      "loss": 0.6857,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": 0.05536944791674614,
-      "rewards/margins": 0.01851554773747921,
-      "rewards/rejected": 0.03685389831662178,
       "step": 20
     },
-    {
-      "epoch": 0.07,
-      "grad_norm": 28.076450357377052,
-      "learning_rate": 3.2894736842105264e-07,
-      "logits/chosen": -2.3921802043914795,
-      "logits/rejected": -2.377410650253296,
-      "logps/chosen": -260.9800720214844,
-      "logps/rejected": -214.38821411132812,
-      "loss": 0.6763,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": 0.13004128634929657,
-      "rewards/margins": 0.03864985704421997,
-      "rewards/rejected": 0.0913914293050766,
-      "step": 25
-    },
     {
       "epoch": 0.08,
-      "grad_norm": 25.341140024963043,
       "learning_rate": 3.9473684210526315e-07,
-      "logits/chosen": -2.477496385574341,
-      "logits/rejected": -2.506354808807373,
-      "logps/chosen": -255.5835723876953,
-      "logps/rejected": -223.4532470703125,
-      "loss": 0.6664,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": 0.2109464406967163,
-      "rewards/margins": 0.04907592386007309,
-      "rewards/rejected": 0.16187050938606262,
       "step": 30
     },
-    {
-      "epoch": 0.09,
-      "grad_norm": 23.40327238126855,
-      "learning_rate": 4.6052631578947365e-07,
-      "logits/chosen": -2.6838037967681885,
-      "logits/rejected": -2.6064510345458984,
-      "logps/chosen": -272.02825927734375,
-      "logps/rejected": -207.57565307617188,
-      "loss": 0.6576,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": 0.3294451832771301,
-      "rewards/margins": 0.12016526609659195,
-      "rewards/rejected": 0.20927992463111877,
-      "step": 35
-    },
     {
       "epoch": 0.11,
-      "grad_norm": 21.272616898577162,
       "learning_rate": 4.999575626062319e-07,
-      "logits/chosen": -2.747399091720581,
-      "logits/rejected": -2.7062249183654785,
-      "logps/chosen": -249.28085327148438,
-      "logps/rejected": -202.8720245361328,
-      "loss": 0.6504,
-      "rewards/accuracies": 0.6625000238418579,
-      "rewards/chosen": 0.3287069499492645,
-      "rewards/margins": 0.0975252240896225,
-      "rewards/rejected": 0.23118171095848083,
       "step": 40
     },
-    {
-      "epoch": 0.12,
-      "grad_norm": 18.3841620762551,
-      "learning_rate": 4.994803073715569e-07,
-      "logits/chosen": -2.788217067718506,
-      "logits/rejected": -2.736720561981201,
-      "logps/chosen": -260.8193359375,
-      "logps/rejected": -202.5912322998047,
-      "loss": 0.6444,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": 0.4205988049507141,
-      "rewards/margins": 0.14394915103912354,
-      "rewards/rejected": 0.2766496539115906,
-      "step": 45
-    },
     {
       "epoch": 0.13,
-      "grad_norm": 18.656759383093647,
       "learning_rate": 4.984737660598186e-07,
-      "logits/chosen": -2.8456408977508545,
-      "logits/rejected": -2.7947795391082764,
-      "logps/chosen": -223.0256805419922,
-      "logps/rejected": -197.88247680664062,
-      "loss": 0.6469,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": 0.3571344316005707,
-      "rewards/margins": 0.09834496676921844,
-      "rewards/rejected": 0.2587894797325134,
       "step": 50
     },
-    {
-      "epoch": 0.14,
-      "grad_norm": 20.93264303618464,
-      "learning_rate": 4.969400741032999e-07,
-      "logits/chosen": -2.8368711471557617,
-      "logits/rejected": -2.8192451000213623,
-      "logps/chosen": -234.53515625,
-      "logps/rejected": -199.7665252685547,
-      "loss": 0.6341,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": 0.33271390199661255,
-      "rewards/margins": 0.14281830191612244,
-      "rewards/rejected": 0.18989557027816772,
-      "step": 55
-    },
     {
       "epoch": 0.16,
-      "grad_norm": 19.192901766300064,
       "learning_rate": 4.948824853131236e-07,
-      "logits/chosen": -2.8852925300598145,
-      "logits/rejected": -2.859867572784424,
-      "logps/chosen": -253.8678741455078,
-      "logps/rejected": -212.1206512451172,
-      "loss": 0.6257,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": 0.3522695302963257,
-      "rewards/margins": 0.1734958440065384,
-      "rewards/rejected": 0.1787737011909485,
       "step": 60
     },
-    {
-      "epoch": 0.17,
-      "grad_norm": 19.6177452377838,
-      "learning_rate": 4.923053649761152e-07,
-      "logits/chosen": -2.8169569969177246,
-      "logits/rejected": -2.7849762439727783,
-      "logps/chosen": -244.50808715820312,
-      "logps/rejected": -201.7557830810547,
-      "loss": 0.6149,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": 0.35878387093544006,
-      "rewards/margins": 0.19476714730262756,
-      "rewards/rejected": 0.1640167087316513,
-      "step": 65
-    },
     {
       "epoch": 0.18,
-      "grad_norm": 20.424079652700506,
       "learning_rate": 4.892141805936084e-07,
-      "logits/chosen": -2.789267063140869,
-      "logits/rejected": -2.73822283744812,
-      "logps/chosen": -250.8653564453125,
-      "logps/rejected": -224.6582794189453,
-      "loss": 0.6149,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": 0.4033736288547516,
-      "rewards/margins": 0.23386640846729279,
-      "rewards/rejected": 0.1695072501897812,
       "step": 70
     },
-    {
-      "epoch": 0.2,
-      "grad_norm": 25.663818502097516,
-      "learning_rate": 4.856154902818431e-07,
-      "logits/chosen": -2.8126118183135986,
-      "logits/rejected": -2.7708253860473633,
-      "logps/chosen": -229.9053955078125,
-      "logps/rejected": -206.87258911132812,
-      "loss": 0.6004,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": 0.2887989580631256,
-      "rewards/margins": 0.22907009720802307,
-      "rewards/rejected": 0.05972885340452194,
-      "step": 75
-    },
     {
       "epoch": 0.21,
-      "grad_norm": 24.00962454367728,
       "learning_rate": 4.81516928858564e-07,
-      "logits/chosen": -2.7702012062072754,
-      "logits/rejected": -2.7202858924865723,
-      "logps/chosen": -271.06317138671875,
-      "logps/rejected": -220.15475463867188,
-      "loss": 0.5964,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": 0.3578353524208069,
-      "rewards/margins": 0.31964898109436035,
-      "rewards/rejected": 0.03818630054593086,
-      "step": 80
-    },
-    {
-      "epoch": 0.22,
-      "grad_norm": 26.200013285180134,
-      "learning_rate": 4.769271916453385e-07,
-      "logits/chosen": -2.817336320877075,
-      "logits/rejected": -2.7950100898742676,
-      "logps/chosen": -257.9813537597656,
-      "logps/rejected": -234.77108764648438,
-      "loss": 0.5692,
       "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": 0.16794440150260925,
-      "rewards/margins": 0.3747493624687195,
-      "rewards/rejected": -0.20680496096611023,
-      "step": 85
     },
     {
       "epoch": 0.24,
-      "grad_norm": 31.71282371862922,
       "learning_rate": 4.7185601601995784e-07,
-      "logits/chosen": -2.8321759700775146,
-      "logits/rejected": -2.8417580127716064,
-      "logps/chosen": -252.80313110351562,
-      "logps/rejected": -233.3778839111328,
-      "loss": 0.5452,
-      "rewards/accuracies": 0.8999999761581421,
-      "rewards/chosen": 0.17818805575370789,
-      "rewards/margins": 0.4816998839378357,
-      "rewards/rejected": -0.3035118579864502,
       "step": 90
     },
-    {
-      "epoch": 0.25,
-      "grad_norm": 30.203747907953968,
-      "learning_rate": 4.6631416075805886e-07,
-      "logits/chosen": -2.9183051586151123,
-      "logits/rejected": -2.8942832946777344,
-      "logps/chosen": -292.6710510253906,
-      "logps/rejected": -278.3623962402344,
-      "loss": 0.5293,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": 0.0014784678351134062,
-      "rewards/margins": 0.45240503549575806,
-      "rewards/rejected": -0.4509265422821045,
-      "step": 95
-    },
     {
       "epoch": 0.26,
-      "grad_norm": 35.20356531841964,
       "learning_rate": 4.603133832077953e-07,
-      "logits/chosen": -3.0372838973999023,
-      "logits/rejected": -3.03391432762146,
-      "logps/chosen": -264.54412841796875,
-      "logps/rejected": -271.9236755371094,
-      "loss": 0.5292,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -0.24657364189624786,
-      "rewards/margins": 0.4146839678287506,
-      "rewards/rejected": -0.6612575650215149,
       "step": 100
     },
     {
       "epoch": 0.26,
-      "eval_logits/chosen": -2.981271743774414,
-      "eval_logits/rejected": -3.007460117340088,
-      "eval_logps/chosen": -500.8688049316406,
-      "eval_logps/rejected": -504.0709228515625,
-      "eval_loss": 0.6958277821540833,
-      "eval_rewards/accuracies": 0.53125,
-      "eval_rewards/chosen": -1.2149137258529663,
-      "eval_rewards/margins": 0.09968078136444092,
-      "eval_rewards/rejected": -1.3145945072174072,
-      "eval_runtime": 97.6692,
-      "eval_samples_per_second": 20.477,
       "eval_steps_per_second": 0.328,
       "step": 100
     },
-    {
-      "epoch": 0.28,
-      "grad_norm": 35.37658079116714,
-      "learning_rate": 4.538664143459818e-07,
-      "logits/chosen": -3.1525657176971436,
-      "logits/rejected": -3.170300245285034,
-      "logps/chosen": -301.29736328125,
-      "logps/rejected": -306.07171630859375,
-      "loss": 0.4875,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -0.40715986490249634,
-      "rewards/margins": 0.6011335849761963,
-      "rewards/rejected": -1.0082933902740479,
-      "step": 105
-    },
     {
       "epoch": 0.29,
-      "grad_norm": 44.5542186040465,
       "learning_rate": 4.4698693176863316e-07,
-      "logits/chosen": -3.1490285396575928,
-      "logits/rejected": -3.167726993560791,
-      "logps/chosen": -326.18792724609375,
-      "logps/rejected": -354.35784912109375,
-      "loss": 0.4645,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -0.6683047413825989,
-      "rewards/margins": 0.806756854057312,
-      "rewards/rejected": -1.4750616550445557,
-      "step": 110
-    },
-    {
-      "epoch": 0.3,
-      "grad_norm": 46.11054779372386,
-      "learning_rate": 4.396895306731977e-07,
-      "logits/chosen": -3.2922375202178955,
-      "logits/rejected": -3.3002562522888184,
-      "logps/chosen": -316.46331787109375,
-      "logps/rejected": -344.7227783203125,
-      "loss": 0.478,
       "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -0.5892685651779175,
-      "rewards/margins": 0.8242443203926086,
-      "rewards/rejected": -1.413512945175171,
-      "step": 115
     },
     {
       "epoch": 0.32,
-      "grad_norm": 39.587491646799435,
       "learning_rate": 4.319896928940505e-07,
-      "logits/chosen": -3.4349207878112793,
-      "logits/rejected": -3.4556515216827393,
-      "logps/chosen": -430.2960510253906,
-      "logps/rejected": -467.32061767578125,
-      "loss": 0.4502,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.621132254600525,
-      "rewards/margins": 0.7838995456695557,
-      "rewards/rejected": -2.405031681060791,
       "step": 120
     },
-    {
-      "epoch": 0.33,
-      "grad_norm": 36.84462226750656,
-      "learning_rate": 4.2390375405693723e-07,
-      "logits/chosen": -3.474997043609619,
-      "logits/rejected": -3.5272536277770996,
-      "logps/chosen": -415.80438232421875,
-      "logps/rejected": -468.0596618652344,
-      "loss": 0.4422,
-      "rewards/accuracies": 0.762499988079071,
-      "rewards/chosen": -1.5106348991394043,
-      "rewards/margins": 1.0294691324234009,
-      "rewards/rejected": -2.5401039123535156,
-      "step": 125
-    },
     {
       "epoch": 0.34,
-      "grad_norm": 47.09166107339635,
       "learning_rate": 4.1544886892205354e-07,
-      "logits/chosen": -3.5425872802734375,
-      "logits/rejected": -3.5473670959472656,
-      "logps/chosen": -377.5634765625,
-      "logps/rejected": -425.98016357421875,
-      "loss": 0.4589,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -0.8434383273124695,
-      "rewards/margins": 0.9450035095214844,
-      "rewards/rejected": -1.7884416580200195,
       "step": 130
     },
-    {
-      "epoch": 0.36,
-      "grad_norm": 49.77750455648269,
-      "learning_rate": 4.0664297498928534e-07,
-      "logits/chosen": -3.6749653816223145,
-      "logits/rejected": -3.6941752433776855,
-      "logps/chosen": -392.3956604003906,
-      "logps/rejected": -454.9180603027344,
-      "loss": 0.4261,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -1.5022857189178467,
-      "rewards/margins": 1.0955121517181396,
-      "rewards/rejected": -2.5977978706359863,
-      "step": 135
-    },
     {
       "epoch": 0.37,
-      "grad_norm": 49.72958773280421,
       "learning_rate": 3.975047544428254e-07,
-      "logits/chosen": -3.7381629943847656,
-      "logits/rejected": -3.768315076828003,
-      "logps/chosen": -459.23455810546875,
-      "logps/rejected": -531.2666625976562,
-      "loss": 0.4262,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -1.8736200332641602,
-      "rewards/margins": 1.138641119003296,
-      "rewards/rejected": -3.012261152267456,
       "step": 140
     },
-    {
-      "epoch": 0.38,
-      "grad_norm": 37.39808184046548,
-      "learning_rate": 3.880535945158997e-07,
-      "logits/chosen": -3.7747676372528076,
-      "logits/rejected": -3.7997519969940186,
-      "logps/chosen": -367.59576416015625,
-      "logps/rejected": -449.857177734375,
-      "loss": 0.4127,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.2651011943817139,
-      "rewards/margins": 1.1386528015136719,
-      "rewards/rejected": -2.403754234313965,
-      "step": 145
-    },
     {
       "epoch": 0.4,
-      "grad_norm": 47.294132664555036,
       "learning_rate": 3.78309546359696e-07,
-      "logits/chosen": -3.9040164947509766,
-      "logits/rejected": -3.91438627243042,
-      "logps/chosen": -410.07159423828125,
-      "logps/rejected": -498.1920471191406,
-      "loss": 0.4235,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -1.4813024997711182,
-      "rewards/margins": 1.1341646909713745,
-      "rewards/rejected": -2.6154673099517822,
       "step": 150
     },
-    {
-      "epoch": 0.41,
-      "grad_norm": 40.77943292899045,
-      "learning_rate": 3.6829328250375227e-07,
-      "logits/chosen": -3.932398557662964,
-      "logits/rejected": -4.020986080169678,
-      "logps/chosen": -427.6490783691406,
-      "logps/rejected": -508.22930908203125,
-      "loss": 0.3809,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -1.581094741821289,
-      "rewards/margins": 1.3298404216766357,
-      "rewards/rejected": -2.910935401916504,
-      "step": 155
-    },
     {
       "epoch": 0.42,
-      "grad_norm": 41.2026716936047,
       "learning_rate": 3.580260529980584e-07,
-      "logits/chosen": -4.01393461227417,
-      "logits/rejected": -4.080017566680908,
-      "logps/chosen": -387.573974609375,
-      "logps/rejected": -487.1441345214844,
-      "loss": 0.3859,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.2360130548477173,
-      "rewards/margins": 1.409085988998413,
-      "rewards/rejected": -2.64509916305542,
       "step": 160
     },
-    {
-      "epoch": 0.43,
-      "grad_norm": 40.85253910181408,
-      "learning_rate": 3.475296403299163e-07,
-      "logits/chosen": -4.092155456542969,
-      "logits/rejected": -4.100491523742676,
-      "logps/chosen": -388.4344482421875,
-      "logps/rejected": -494.84771728515625,
-      "loss": 0.391,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -1.4383682012557983,
-      "rewards/margins": 1.5076179504394531,
-      "rewards/rejected": -2.945986032485962,
-      "step": 165
-    },
     {
       "epoch": 0.45,
-      "grad_norm": 43.630879623871635,
       "learning_rate": 3.36826313211205e-07,
-      "logits/chosen": -4.23541784286499,
-      "logits/rejected": -4.378731727600098,
-      "logps/chosen": -423.3770446777344,
-      "logps/rejected": -521.7530517578125,
-      "loss": 0.3784,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.7406959533691406,
-      "rewards/margins": 1.5629594326019287,
-      "rewards/rejected": -3.3036551475524902,
       "step": 170
     },
-    {
-      "epoch": 0.46,
-      "grad_norm": 40.910837008073884,
-      "learning_rate": 3.259387793340943e-07,
-      "logits/chosen": -4.390842437744141,
-      "logits/rejected": -4.466560363769531,
-      "logps/chosen": -482.41748046875,
-      "logps/rejected": -587.3478393554688,
-      "loss": 0.3845,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -2.141714096069336,
-      "rewards/margins": 1.4235177040100098,
-      "rewards/rejected": -3.5652313232421875,
-      "step": 175
-    },
     {
       "epoch": 0.47,
-      "grad_norm": 43.846997204513016,
       "learning_rate": 3.14890137195437e-07,
-      "logits/chosen": -4.389448642730713,
-      "logits/rejected": -4.424112319946289,
-      "logps/chosen": -481.9625549316406,
-      "logps/rejected": -567.7194213867188,
-      "loss": 0.3682,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -2.1195263862609863,
-      "rewards/margins": 1.2820372581481934,
-      "rewards/rejected": -3.4015636444091797,
       "step": 180
     },
-    {
-      "epoch": 0.49,
-      "grad_norm": 48.89695189111101,
-      "learning_rate": 3.0370382709204883e-07,
-      "logits/chosen": -4.416136264801025,
-      "logits/rejected": -4.519248962402344,
-      "logps/chosen": -472.10931396484375,
-      "logps/rejected": -609.0546264648438,
-      "loss": 0.3879,
-      "rewards/accuracies": 0.887499988079071,
-      "rewards/chosen": -1.9735286235809326,
-      "rewards/margins": 1.7880016565322876,
-      "rewards/rejected": -3.7615303993225098,
-      "step": 185
-    },
     {
       "epoch": 0.5,
-      "grad_norm": 49.97288424600573,
       "learning_rate": 2.9240358139084013e-07,
-      "logits/chosen": -4.548556804656982,
-      "logits/rejected": -4.62185001373291,
-      "logps/chosen": -421.85052490234375,
-      "logps/rejected": -534.3924560546875,
-      "loss": 0.3824,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -1.734278917312622,
-      "rewards/margins": 1.5305709838867188,
-      "rewards/rejected": -3.264849901199341,
       "step": 190
     },
-    {
-      "epoch": 0.51,
-      "grad_norm": 42.794361716855846,
-      "learning_rate": 2.810133741793052e-07,
-      "logits/chosen": -4.521183490753174,
-      "logits/rejected": -4.65042781829834,
-      "logps/chosen": -472.19500732421875,
-      "logps/rejected": -594.0242309570312,
-      "loss": 0.3875,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -2.0321810245513916,
-      "rewards/margins": 1.7259247303009033,
-      "rewards/rejected": -3.758105516433716,
-      "step": 195
-    },
     {
       "epoch": 0.53,
-      "grad_norm": 43.28984360773978,
       "learning_rate": 2.695573704031885e-07,
-      "logits/chosen": -4.522828102111816,
-      "logits/rejected": -4.58953332901001,
-      "logps/chosen": -470.6817321777344,
-      "logps/rejected": -592.047119140625,
-      "loss": 0.3733,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -1.8410589694976807,
-      "rewards/margins": 1.6147441864013672,
-      "rewards/rejected": -3.4558029174804688,
       "step": 200
     },
     {
       "epoch": 0.53,
-      "eval_logits/chosen": -4.407002925872803,
-      "eval_logits/rejected": -4.5463128089904785,
-      "eval_logps/chosen": -804.1498413085938,
-      "eval_logps/rejected": -826.000732421875,
-      "eval_loss": 0.9587702751159668,
-      "eval_rewards/accuracies": 0.52734375,
-      "eval_rewards/chosen": -4.247724533081055,
-      "eval_rewards/margins": 0.28616809844970703,
-      "eval_rewards/rejected": -4.53389310836792,
-      "eval_runtime": 97.528,
-      "eval_samples_per_second": 20.507,
-      "eval_steps_per_second": 0.328,
       "step": 200
     },
-    {
-      "epoch": 0.54,
-      "grad_norm": 45.90321806356986,
-      "learning_rate": 2.580598745992342e-07,
-      "logits/chosen": -4.592051029205322,
-      "logits/rejected": -4.729592800140381,
-      "logps/chosen": -462.078857421875,
-      "logps/rejected": -578.6028442382812,
-      "loss": 0.3683,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -1.6925300359725952,
-      "rewards/margins": 1.7680349349975586,
-      "rewards/rejected": -3.4605648517608643,
-      "step": 205
-    },
     {
       "epoch": 0.55,
-      "grad_norm": 45.69561704557737,
       "learning_rate": 2.465452793317865e-07,
-      "logits/chosen": -4.680180549621582,
-      "logits/rejected": -4.785167694091797,
-      "logps/chosen": -477.2386779785156,
-      "logps/rejected": -609.8983154296875,
-      "loss": 0.3534,
-      "rewards/accuracies": 0.7749999761581421,
-      "rewards/chosen": -1.8637679815292358,
-      "rewards/margins": 1.7234246730804443,
-      "rewards/rejected": -3.587193012237549,
       "step": 210
     },
-    {
-      "epoch": 0.57,
-      "grad_norm": 50.566593421325194,
-      "learning_rate": 2.3503801344263344e-07,
-      "logits/chosen": -4.860222339630127,
-      "logits/rejected": -4.944591045379639,
-      "logps/chosen": -456.22357177734375,
-      "logps/rejected": -573.6387939453125,
-      "loss": 0.3712,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -2.1773338317871094,
-      "rewards/margins": 1.6265901327133179,
-      "rewards/rejected": -3.8039238452911377,
-      "step": 215
-    },
     {
       "epoch": 0.58,
-      "grad_norm": 49.14997910435826,
       "learning_rate": 2.2356249022388789e-07,
-      "logits/chosen": -4.710982322692871,
-      "logits/rejected": -4.878017425537109,
-      "logps/chosen": -468.77978515625,
-      "logps/rejected": -580.1436157226562,
-      "loss": 0.3706,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -1.8084490299224854,
-      "rewards/margins": 1.884009599685669,
-      "rewards/rejected": -3.6924586296081543,
       "step": 220
     },
-    {
-      "epoch": 0.59,
-      "grad_norm": 48.71640334228914,
-      "learning_rate": 2.121430556238559e-07,
-      "logits/chosen": -4.8175554275512695,
-      "logits/rejected": -4.996689319610596,
-      "logps/chosen": -471.17132568359375,
-      "logps/rejected": -604.3876342773438,
-      "loss": 0.3386,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -2.008169412612915,
-      "rewards/margins": 1.8934684991836548,
-      "rewards/rejected": -3.9016380310058594,
-      "step": 225
-    },
     {
       "epoch": 0.61,
-      "grad_norm": 39.742825593785554,
       "learning_rate": 2.0080393659578038e-07,
-      "logits/chosen": -4.740202903747559,
-      "logits/rejected": -5.004001617431641,
-      "logps/chosen": -513.0294189453125,
-      "logps/rejected": -656.8961181640625,
-      "loss": 0.3492,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -2.400604248046875,
-      "rewards/margins": 2.0355873107910156,
-      "rewards/rejected": -4.436191558837891,
       "step": 230
     },
-    {
-      "epoch": 0.62,
-      "grad_norm": 50.20217799621439,
-      "learning_rate": 1.895691896990388e-07,
-      "logits/chosen": -4.822530269622803,
-      "logits/rejected": -4.9560699462890625,
-      "logps/chosen": -474.0023498535156,
-      "logps/rejected": -579.5379638671875,
-      "loss": 0.3354,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -2.1355338096618652,
-      "rewards/margins": 1.5200008153915405,
-      "rewards/rejected": -3.655534267425537,
-      "step": 235
-    },
     {
       "epoch": 0.63,
-      "grad_norm": 43.0245343621866,
       "learning_rate": 1.7846265006183976e-07,
-      "logits/chosen": -4.6783013343811035,
-      "logits/rejected": -4.8442277908325195,
-      "logps/chosen": -524.712158203125,
-      "logps/rejected": -632.6328125,
-      "loss": 0.3455,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -2.490675687789917,
-      "rewards/margins": 1.6402429342269897,
-      "rewards/rejected": -4.130918979644775,
       "step": 240
     },
-    {
-      "epoch": 0.65,
-      "grad_norm": 50.41005236551354,
-      "learning_rate": 1.6750788081369948e-07,
-      "logits/chosen": -4.760382175445557,
-      "logits/rejected": -4.9731292724609375,
-      "logps/chosen": -475.59765625,
-      "logps/rejected": -638.8780517578125,
-      "loss": 0.3533,
-      "rewards/accuracies": 0.887499988079071,
-      "rewards/chosen": -2.0123469829559326,
-      "rewards/margins": 2.291203737258911,
-      "rewards/rejected": -4.303550720214844,
-      "step": 245
-    },
     {
       "epoch": 0.66,
-      "grad_norm": 41.2044329360216,
       "learning_rate": 1.5672812309497722e-07,
-      "logits/chosen": -4.802388668060303,
-      "logits/rejected": -4.928206443786621,
-      "logps/chosen": -410.943115234375,
-      "logps/rejected": -523.5797119140625,
-      "loss": 0.3523,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -1.6920316219329834,
-      "rewards/margins": 1.4624649286270142,
-      "rewards/rejected": -3.154496669769287,
       "step": 250
     },
-    {
-      "epoch": 0.67,
-      "grad_norm": 44.69671736661672,
-      "learning_rate": 1.461462467495284e-07,
-      "logits/chosen": -4.758819580078125,
-      "logits/rejected": -4.947306156158447,
-      "logps/chosen": -495.4164123535156,
-      "logps/rejected": -593.2689208984375,
-      "loss": 0.3703,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -2.218562602996826,
-      "rewards/margins": 1.439822793006897,
-      "rewards/rejected": -3.6583850383758545,
-      "step": 255
-    },
     {
       "epoch": 0.69,
-      "grad_norm": 47.815462029236265,
       "learning_rate": 1.357847018050843e-07,
-      "logits/chosen": -4.747325420379639,
-      "logits/rejected": -4.958649158477783,
-      "logps/chosen": -592.2781372070312,
-      "logps/rejected": -758.1558837890625,
-      "loss": 0.3513,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": -2.605052947998047,
-      "rewards/margins": 2.2088265419006348,
-      "rewards/rejected": -4.81387996673584,
       "step": 260
     },
-    {
-      "epoch": 0.7,
-      "grad_norm": 49.07485622430381,
-      "learning_rate": 1.2566547084429324e-07,
-      "logits/chosen": -4.789057731628418,
-      "logits/rejected": -5.023972988128662,
-      "logps/chosen": -472.7372131347656,
-      "logps/rejected": -615.0753784179688,
-      "loss": 0.3591,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -2.2092373371124268,
-      "rewards/margins": 1.8947007656097412,
-      "rewards/rejected": -4.103938579559326,
-      "step": 265
-    },
     {
       "epoch": 0.71,
-      "grad_norm": 45.44279309151153,
       "learning_rate": 1.1581002236747328e-07,
-      "logits/chosen": -4.7014241218566895,
-      "logits/rejected": -4.898508548736572,
-      "logps/chosen": -470.0,
-      "logps/rejected": -624.503662109375,
-      "loss": 0.368,
-      "rewards/accuracies": 0.887499988079071,
-      "rewards/chosen": -2.254678249359131,
-      "rewards/margins": 2.110576868057251,
-      "rewards/rejected": -4.365254878997803,
       "step": 270
     },
-    {
-      "epoch": 0.72,
-      "grad_norm": 53.087469451573526,
-      "learning_rate": 1.062392652460177e-07,
-      "logits/chosen": -4.696314811706543,
-      "logits/rejected": -4.83748197555542,
-      "logps/chosen": -505.9961853027344,
-      "logps/rejected": -626.0050048828125,
-      "loss": 0.3245,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -1.9974615573883057,
-      "rewards/margins": 1.828150987625122,
-      "rewards/rejected": -3.8256123065948486,
-      "step": 275
-    },
     {
       "epoch": 0.74,
-      "grad_norm": 41.5564187525106,
       "learning_rate": 9.697350436308427e-08,
-      "logits/chosen": -4.737555027008057,
-      "logits/rejected": -4.948160648345947,
-      "logps/chosen": -507.66607666015625,
-      "logps/rejected": -594.7119750976562,
-      "loss": 0.3584,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -2.3149771690368652,
-      "rewards/margins": 1.4441829919815063,
-      "rewards/rejected": -3.759159803390503,
       "step": 280
     },
-    {
-      "epoch": 0.75,
-      "grad_norm": 44.45010163032659,
-      "learning_rate": 8.803239753567829e-08,
-      "logits/chosen": -4.868664741516113,
-      "logits/rejected": -4.975742340087891,
-      "logps/chosen": -469.70263671875,
-      "logps/rejected": -589.5235595703125,
-      "loss": 0.3498,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": -2.1795949935913086,
-      "rewards/margins": 1.7358201742172241,
-      "rewards/rejected": -3.9154155254364014,
-      "step": 285
-    },
     {
       "epoch": 0.76,
-      "grad_norm": 38.027371906598745,
       "learning_rate": 7.943491380952188e-08,
-      "logits/chosen": -4.954745292663574,
-      "logits/rejected": -5.065755844116211,
-      "logps/chosen": -429.4737243652344,
-      "logps/rejected": -571.6141967773438,
-      "loss": 0.3285,
       "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -1.8640539646148682,
-      "rewards/margins": 1.8129631280899048,
-      "rewards/rejected": -3.6770172119140625,
       "step": 290
     },
-    {
-      "epoch": 0.78,
-      "grad_norm": 47.705363932547336,
-      "learning_rate": 7.119929321518875e-08,
-      "logits/chosen": -4.735751152038574,
-      "logits/rejected": -5.044283866882324,
-      "logps/chosen": -445.70367431640625,
-      "logps/rejected": -583.5177612304688,
-      "loss": 0.3436,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -1.9234256744384766,
-      "rewards/margins": 1.9092767238616943,
-      "rewards/rejected": -3.832702159881592,
-      "step": 295
-    },
     {
       "epoch": 0.79,
-      "grad_norm": 52.02157401864257,
       "learning_rate": 6.334300807088508e-08,
-      "logits/chosen": -4.835855007171631,
-      "logits/rejected": -5.021653652191162,
-      "logps/chosen": -518.7296142578125,
-      "logps/rejected": -639.1578369140625,
-      "loss": 0.3689,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -2.530418634414673,
-      "rewards/margins": 1.8332151174545288,
-      "rewards/rejected": -4.363633155822754,
       "step": 300
     },
     {
       "epoch": 0.79,
-      "eval_logits/chosen": -4.618500709533691,
-      "eval_logits/rejected": -4.810915946960449,
-      "eval_logps/chosen": -895.0606079101562,
-      "eval_logps/rejected": -917.572265625,
-      "eval_loss": 1.0593960285186768,
-      "eval_rewards/accuracies": 0.5625,
-      "eval_rewards/chosen": -5.156832218170166,
-      "eval_rewards/margins": 0.2927757203578949,
-      "eval_rewards/rejected": -5.449607849121094,
-      "eval_runtime": 97.5523,
-      "eval_samples_per_second": 20.502,
-      "eval_steps_per_second": 0.328,
       "step": 300
     },
-    {
-      "epoch": 0.8,
-      "grad_norm": 50.197907161154795,
-      "learning_rate": 5.588272591397336e-08,
-      "logits/chosen": -4.786068916320801,
-      "logits/rejected": -4.9945068359375,
-      "logps/chosen": -485.31280517578125,
-      "logps/rejected": -626.9613647460938,
-      "loss": 0.3457,
-      "rewards/accuracies": 0.824999988079071,
-      "rewards/chosen": -2.227161169052124,
-      "rewards/margins": 2.0316004753112793,
-      "rewards/rejected": -4.258761405944824,
-      "step": 305
-    },
     {
       "epoch": 0.82,
-      "grad_norm": 48.34581690217935,
       "learning_rate": 4.8834274139883084e-08,
-      "logits/chosen": -4.855401039123535,
-      "logits/rejected": -5.10861873626709,
-      "logps/chosen": -469.53704833984375,
-      "logps/rejected": -616.6036376953125,
-      "loss": 0.3427,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -2.20617413520813,
-      "rewards/margins": 1.9504497051239014,
-      "rewards/rejected": -4.156623840332031,
       "step": 310
     },
-    {
-      "epoch": 0.83,
-      "grad_norm": 43.92355028448363,
-      "learning_rate": 4.221260642342786e-08,
-      "logits/chosen": -4.848982810974121,
-      "logits/rejected": -4.972110271453857,
-      "logps/chosen": -502.3720703125,
-      "logps/rejected": -609.923828125,
-      "loss": 0.3357,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -2.262599229812622,
-      "rewards/margins": 1.6350996494293213,
-      "rewards/rejected": -3.8976986408233643,
-      "step": 315
-    },
     {
       "epoch": 0.84,
-      "grad_norm": 48.906535443168416,
       "learning_rate": 3.60317709937693e-08,
-      "logits/chosen": -4.723662853240967,
-      "logits/rejected": -4.999013900756836,
-      "logps/chosen": -511.27691650390625,
-      "logps/rejected": -656.3660888671875,
-      "loss": 0.361,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": -2.2201476097106934,
-      "rewards/margins": 2.0478897094726562,
-      "rewards/rejected": -4.26803731918335,
       "step": 320
     },
-    {
-      "epoch": 0.86,
-      "grad_norm": 38.024316440823085,
-      "learning_rate": 3.030488083033273e-08,
-      "logits/chosen": -4.8308892250061035,
-      "logits/rejected": -5.002086162567139,
-      "logps/chosen": -500.25579833984375,
-      "logps/rejected": -703.7189331054688,
-      "loss": 0.3434,
-      "rewards/accuracies": 0.8999999761581421,
-      "rewards/chosen": -2.2706263065338135,
-      "rewards/margins": 2.5099949836730957,
-      "rewards/rejected": -4.780620574951172,
-      "step": 325
-    },
     {
       "epoch": 0.87,
-      "grad_norm": 46.39394071999461,
       "learning_rate": 2.5044085842905683e-08,
-      "logits/chosen": -4.880900859832764,
-      "logits/rejected": -5.102107048034668,
-      "logps/chosen": -522.2579345703125,
-      "logps/rejected": -679.2675170898438,
-      "loss": 0.375,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": -2.569988965988159,
-      "rewards/margins": 2.0331876277923584,
-      "rewards/rejected": -4.603176593780518,
       "step": 330
     },
-    {
-      "epoch": 0.88,
-      "grad_norm": 44.94685644229088,
-      "learning_rate": 2.0260547094942348e-08,
-      "logits/chosen": -4.779486656188965,
-      "logits/rejected": -4.989696502685547,
-      "logps/chosen": -506.99920654296875,
-      "logps/rejected": -654.0205688476562,
-      "loss": 0.3649,
-      "rewards/accuracies": 0.8500000238418579,
-      "rewards/chosen": -2.142956495285034,
-      "rewards/margins": 2.1117589473724365,
-      "rewards/rejected": -4.254715919494629,
-      "step": 335
-    },
     {
       "epoch": 0.9,
-      "grad_norm": 44.46821814832556,
       "learning_rate": 1.5964413124758493e-08,
-      "logits/chosen": -4.752711296081543,
-      "logits/rejected": -4.939455986022949,
-      "logps/chosen": -438.1668395996094,
-      "logps/rejected": -598.4129028320312,
-      "loss": 0.3357,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -1.8868913650512695,
-      "rewards/margins": 1.9845082759857178,
-      "rewards/rejected": -3.8714001178741455,
       "step": 340
     },
-    {
-      "epoch": 0.91,
-      "grad_norm": 49.902887693125585,
-      "learning_rate": 1.2164798414854071e-08,
-      "logits/chosen": -4.861344814300537,
-      "logits/rejected": -4.92690896987915,
-      "logps/chosen": -514.7852783203125,
-      "logps/rejected": -692.4171142578125,
-      "loss": 0.3343,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -2.289367437362671,
-      "rewards/margins": 2.1290056705474854,
-      "rewards/rejected": -4.418373107910156,
-      "step": 345
-    },
     {
       "epoch": 0.92,
-      "grad_norm": 46.82416143070829,
       "learning_rate": 8.869764055041501e-09,
-      "logits/chosen": -4.845822811126709,
-      "logits/rejected": -5.040514945983887,
-      "logps/chosen": -476.73358154296875,
-      "logps/rejected": -638.4616088867188,
-      "loss": 0.3795,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": -2.128450870513916,
-      "rewards/margins": 1.8921457529067993,
-      "rewards/rejected": -4.020596504211426,
       "step": 350
     },
-    {
-      "epoch": 0.94,
-      "grad_norm": 45.59470033908034,
-      "learning_rate": 6.086300640404079e-09,
-      "logits/chosen": -4.7604827880859375,
-      "logits/rejected": -4.900928020477295,
-      "logps/chosen": -530.9966430664062,
-      "logps/rejected": -647.1216430664062,
-      "loss": 0.3474,
-      "rewards/accuracies": 0.737500011920929,
-      "rewards/chosen": -2.3973419666290283,
-      "rewards/margins": 1.63766610622406,
-      "rewards/rejected": -4.035007953643799,
-      "step": 355
-    },
     {
       "epoch": 0.95,
-      "grad_norm": 38.33546651783018,
       "learning_rate": 3.82031344036729e-09,
-      "logits/chosen": -4.72461462020874,
-      "logits/rejected": -4.975947380065918,
-      "logps/chosen": -490.10650634765625,
-      "logps/rejected": -617.1689453125,
-      "loss": 0.3241,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -2.2612645626068115,
-      "rewards/margins": 1.7519699335098267,
-      "rewards/rejected": -4.013234615325928,
       "step": 360
     },
-    {
-      "epoch": 0.96,
-      "grad_norm": 48.183739221855284,
-      "learning_rate": 2.0766098703477173e-09,
-      "logits/chosen": -4.829585552215576,
-      "logits/rejected": -5.007233619689941,
-      "logps/chosen": -458.9842834472656,
-      "logps/rejected": -589.1207275390625,
-      "loss": 0.3698,
-      "rewards/accuracies": 0.800000011920929,
-      "rewards/chosen": -1.9293123483657837,
-      "rewards/margins": 1.888193130493164,
-      "rewards/rejected": -3.8175055980682373,
-      "step": 365
-    },
     {
       "epoch": 0.97,
-      "grad_norm": 47.43892343620843,
       "learning_rate": 8.588892925590063e-10,
-      "logits/chosen": -4.886306285858154,
-      "logits/rejected": -5.221497535705566,
-      "logps/chosen": -480.17462158203125,
-      "logps/rejected": -637.3043823242188,
-      "loss": 0.3276,
-      "rewards/accuracies": 0.862500011920929,
-      "rewards/chosen": -2.0167715549468994,
-      "rewards/margins": 2.319883346557617,
-      "rewards/rejected": -4.3366546630859375,
       "step": 370
     },
-    {
-      "epoch": 0.99,
-      "grad_norm": 48.471497735173386,
-      "learning_rate": 1.6973516761317752e-10,
-      "logits/chosen": -4.912912845611572,
-      "logits/rejected": -5.170907020568848,
-      "logps/chosen": -459.01531982421875,
-      "logps/rejected": -576.1976318359375,
-      "loss": 0.3505,
-      "rewards/accuracies": 0.8374999761581421,
-      "rewards/chosen": -2.2589094638824463,
-      "rewards/margins": 1.6588354110717773,
-      "rewards/rejected": -3.9177448749542236,
-      "step": 375
-    },
     {
       "epoch": 1.0,
       "step": 379,
       "total_flos": 0.0,
-      "train_loss": 0.4399322837512537,
-      "train_runtime": 5833.2156,
-      "train_samples_per_second": 8.32,
       "train_steps_per_second": 0.065
     }
   ],
-  "logging_steps": 5,
   "max_steps": 379,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,

   "log_history": [
     {
       "epoch": 0.0,
+      "grad_norm": 34.01362102288599,
       "learning_rate": 1.3157894736842104e-08,
+      "logits/chosen": -4.685327529907227,
+      "logits/rejected": -4.87608528137207,
+      "logps/chosen": -207.7137451171875,
+      "logps/rejected": -145.5098114013672,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/rejected": 0.0,
       "step": 1
     },
     {
       "epoch": 0.03,
+      "grad_norm": 33.835137410082986,
       "learning_rate": 1.3157894736842104e-07,
+      "logits/chosen": -4.499408721923828,
+      "logits/rejected": -4.84108829498291,
+      "logps/chosen": -223.5843048095703,
+      "logps/rejected": -160.73016357421875,
+      "loss": 0.6929,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": 0.0008713232818990946,
+      "rewards/margins": 3.9665635995334014e-05,
+      "rewards/rejected": 0.000831657787784934,
       "step": 10
     },
     {
       "epoch": 0.05,
+      "grad_norm": 32.9122864599857,
       "learning_rate": 2.631578947368421e-07,
+      "logits/chosen": -4.521907806396484,
+      "logits/rejected": -4.8204779624938965,
+      "logps/chosen": -220.248779296875,
+      "logps/rejected": -173.30508422851562,
+      "loss": 0.6818,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": 0.01710951328277588,
+      "rewards/margins": 0.023774703964591026,
+      "rewards/rejected": -0.006665193475782871,
       "step": 20
     },
     {
       "epoch": 0.08,
+      "grad_norm": 32.91997500077958,
       "learning_rate": 3.9473684210526315e-07,
+      "logits/chosen": -4.713895320892334,
+      "logits/rejected": -5.012445449829102,
+      "logps/chosen": -223.3787841796875,
+      "logps/rejected": -201.9126434326172,
+      "loss": 0.6294,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.047253355383872986,
+      "rewards/margins": 0.1270204484462738,
+      "rewards/rejected": -0.1742737889289856,
       "step": 30
     },
     {
       "epoch": 0.11,
+      "grad_norm": 44.205273980146465,
       "learning_rate": 4.999575626062319e-07,
+      "logits/chosen": -4.862967491149902,
+      "logits/rejected": -5.199351787567139,
+      "logps/chosen": -284.15850830078125,
+      "logps/rejected": -260.1568298339844,
+      "loss": 0.5878,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.5039564371109009,
+      "rewards/margins": 0.3390721082687378,
+      "rewards/rejected": -0.8430284261703491,
       "step": 40
     },
     {
       "epoch": 0.13,
+      "grad_norm": 33.79573625552293,
       "learning_rate": 4.984737660598186e-07,
+      "logits/chosen": -4.860326766967773,
+      "logits/rejected": -5.1770920753479,
+      "logps/chosen": -287.49212646484375,
+      "logps/rejected": -275.1466979980469,
+      "loss": 0.544,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.6591841578483582,
+      "rewards/margins": 0.3825286030769348,
+      "rewards/rejected": -1.0417125225067139,
       "step": 50
     },
     {
       "epoch": 0.16,
+      "grad_norm": 37.5548220875479,
       "learning_rate": 4.948824853131236e-07,
+      "logits/chosen": -5.250467777252197,
+      "logits/rejected": -5.646960258483887,
+      "logps/chosen": -355.8065185546875,
+      "logps/rejected": -370.16064453125,
+      "loss": 0.4873,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.3389923572540283,
+      "rewards/margins": 0.6164921522140503,
+      "rewards/rejected": -1.955484390258789,
       "step": 60
     },
     {
       "epoch": 0.18,
+      "grad_norm": 40.80845104625175,
       "learning_rate": 4.892141805936084e-07,
+      "logits/chosen": -5.506089687347412,
+      "logits/rejected": -5.9388532638549805,
+      "logps/chosen": -373.0067443847656,
+      "logps/rejected": -409.2164001464844,
+      "loss": 0.4619,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -1.4274970293045044,
+      "rewards/margins": 0.8630696535110474,
+      "rewards/rejected": -2.290566921234131,
       "step": 70
     },
     {
       "epoch": 0.21,
+      "grad_norm": 62.51614299706751,
       "learning_rate": 4.81516928858564e-07,
+      "logits/chosen": -5.957489967346191,
+      "logits/rejected": -6.362034797668457,
+      "logps/chosen": -431.8949279785156,
+      "logps/rejected": -484.7469177246094,
+      "loss": 0.4382,
       "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -2.0529427528381348,
+      "rewards/margins": 1.0657070875167847,
+      "rewards/rejected": -3.118650197982788,
+      "step": 80
     },
     {
       "epoch": 0.24,
+      "grad_norm": 42.64563417225672,
       "learning_rate": 4.7185601601995784e-07,
+      "logits/chosen": -5.974350929260254,
+      "logits/rejected": -6.67104959487915,
+      "logps/chosen": -387.2274475097656,
+      "logps/rejected": -464.65826416015625,
+      "loss": 0.4236,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -1.6722873449325562,
+      "rewards/margins": 1.3039813041687012,
+      "rewards/rejected": -2.976268768310547,
       "step": 90
     },
     {
       "epoch": 0.26,
+      "grad_norm": 49.657859383445725,
       "learning_rate": 4.603133832077953e-07,
+      "logits/chosen": -6.59436559677124,
+      "logits/rejected": -7.055686950683594,
+      "logps/chosen": -443.9141540527344,
+      "logps/rejected": -517.8334350585938,
+      "loss": 0.4015,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -2.304152011871338,
+      "rewards/margins": 1.163777232170105,
+      "rewards/rejected": -3.4679291248321533,
       "step": 100
     },
     {
       "epoch": 0.26,
+      "eval_logits/chosen": -6.410887718200684,
+      "eval_logits/rejected": -6.793334007263184,
+      "eval_logps/chosen": -826.5081176757812,
+      "eval_logps/rejected": -987.8357543945312,
+      "eval_loss": 0.9856035113334656,
+      "eval_rewards/accuracies": 0.52734375,
+      "eval_rewards/chosen": -4.360336780548096,
+      "eval_rewards/margins": 0.3341439962387085,
+      "eval_rewards/rejected": -4.694480895996094,
+      "eval_runtime": 97.5721,
+      "eval_samples_per_second": 20.498,
       "eval_steps_per_second": 0.328,
       "step": 100
     },
     {
       "epoch": 0.29,
+      "grad_norm": 59.660602657641974,
       "learning_rate": 4.4698693176863316e-07,
+      "logits/chosen": -6.508014678955078,
+      "logits/rejected": -6.995993137359619,
+      "logps/chosen": -467.217041015625,
+      "logps/rejected": -571.2991943359375,
+      "loss": 0.3652,
       "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -2.5293219089508057,
+      "rewards/margins": 1.5391861200332642,
+      "rewards/rejected": -4.068508148193359,
+      "step": 110
     },
     {
       "epoch": 0.32,
+      "grad_norm": 48.65436374701769,
       "learning_rate": 4.319896928940505e-07,
+      "logits/chosen": -6.631407737731934,
+      "logits/rejected": -7.224958896636963,
+      "logps/chosen": -449.9879455566406,
+      "logps/rejected": -551.552734375,
+      "loss": 0.3856,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -2.370181083679199,
+      "rewards/margins": 1.3927323818206787,
+      "rewards/rejected": -3.762913465499878,
       "step": 120
     },
     {
       "epoch": 0.34,
+      "grad_norm": 41.65961698696447,
       "learning_rate": 4.1544886892205354e-07,
+      "logits/chosen": -6.516014099121094,
+      "logits/rejected": -7.032981872558594,
+      "logps/chosen": -490.3934020996094,
+      "logps/rejected": -610.3671264648438,
+      "loss": 0.3736,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -2.659696578979492,
+      "rewards/margins": 1.6181414127349854,
+      "rewards/rejected": -4.277838230133057,
       "step": 130
     },
     {
       "epoch": 0.37,
+      "grad_norm": 61.060769075088814,
       "learning_rate": 3.975047544428254e-07,
+      "logits/chosen": -6.8892974853515625,
+      "logits/rejected": -7.428150177001953,
+      "logps/chosen": -479.0992736816406,
+      "logps/rejected": -578.5732421875,
+      "loss": 0.3918,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -2.728147506713867,
+      "rewards/margins": 1.3954027891159058,
+      "rewards/rejected": -4.123549938201904,
       "step": 140
     },
     {
       "epoch": 0.4,
+      "grad_norm": 40.0921041292044,
       "learning_rate": 3.78309546359696e-07,
+      "logits/chosen": -7.085695743560791,
+      "logits/rejected": -7.593710422515869,
+      "logps/chosen": -485.8174743652344,
+      "logps/rejected": -611.1568603515625,
+      "loss": 0.3821,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -2.8462297916412354,
+      "rewards/margins": 1.527190089225769,
+      "rewards/rejected": -4.373419761657715,
       "step": 150
     },
     {
       "epoch": 0.42,
+      "grad_norm": 45.94809301945095,
       "learning_rate": 3.580260529980584e-07,
+      "logits/chosen": -6.79840087890625,
+      "logits/rejected": -7.57172155380249,
+      "logps/chosen": -476.08197021484375,
+      "logps/rejected": -613.65576171875,
+      "loss": 0.3533,
+      "rewards/accuracies": 0.8062499761581421,
+      "rewards/chosen": -2.6100144386291504,
+      "rewards/margins": 1.7850373983383179,
+      "rewards/rejected": -4.3950514793396,
       "step": 160
     },
     {
       "epoch": 0.45,
+      "grad_norm": 49.925985141071024,
       "learning_rate": 3.36826313211205e-07,
+      "logits/chosen": -7.27915096282959,
+      "logits/rejected": -7.999810695648193,
+      "logps/chosen": -464.27606201171875,
+      "logps/rejected": -618.3897705078125,
+      "loss": 0.3586,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -2.638946056365967,
+      "rewards/margins": 1.9340379238128662,
+      "rewards/rejected": -4.572983741760254,
       "step": 170
     },
     {
       "epoch": 0.47,
+      "grad_norm": 49.77263247276722,
       "learning_rate": 3.14890137195437e-07,
+      "logits/chosen": -7.062252998352051,
+      "logits/rejected": -7.757845878601074,
+      "logps/chosen": -499.0604553222656,
+      "logps/rejected": -631.4205322265625,
+      "loss": 0.35,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -2.841132640838623,
+      "rewards/margins": 1.6729885339736938,
+      "rewards/rejected": -4.514122009277344,
       "step": 180
     },
     {
       "epoch": 0.5,
+      "grad_norm": 47.32333832777734,
       "learning_rate": 2.9240358139084013e-07,
+      "logits/chosen": -7.432755947113037,
+      "logits/rejected": -8.177480697631836,
+      "logps/chosen": -571.7742919921875,
+      "logps/rejected": -753.3114013671875,
+      "loss": 0.3584,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -3.5975048542022705,
+      "rewards/margins": 2.1865601539611816,
+      "rewards/rejected": -5.784065246582031,
       "step": 190
     },
     {
       "epoch": 0.53,
+      "grad_norm": 47.64189353399637,
       "learning_rate": 2.695573704031885e-07,
+      "logits/chosen": -6.939781188964844,
+      "logits/rejected": -7.71111536026001,
+      "logps/chosen": -500.54449462890625,
+      "logps/rejected": -651.9711303710938,
+      "loss": 0.3649,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -2.752312421798706,
+      "rewards/margins": 1.9267911911010742,
+      "rewards/rejected": -4.679104328155518,
       "step": 200
     },
     {
       "epoch": 0.53,
+      "eval_logits/chosen": -7.152472496032715,
+      "eval_logits/rejected": -7.637792110443115,
+      "eval_logps/chosen": -878.0755615234375,
+      "eval_logps/rejected": -1032.680908203125,
+      "eval_loss": 1.1239182949066162,
+      "eval_rewards/accuracies": 0.48828125,
+      "eval_rewards/chosen": -4.876009941101074,
+      "eval_rewards/margins": 0.26692283153533936,
+      "eval_rewards/rejected": -5.142932891845703,
+      "eval_runtime": 97.9349,
+      "eval_samples_per_second": 20.422,
+      "eval_steps_per_second": 0.327,
       "step": 200
     },
     {
       "epoch": 0.55,
+      "grad_norm": 54.30113996467665,
       "learning_rate": 2.465452793317865e-07,
+      "logits/chosen": -6.918679237365723,
+      "logits/rejected": -7.81919002532959,
+      "logps/chosen": -490.4891662597656,
+      "logps/rejected": -645.8287353515625,
+      "loss": 0.351,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -2.56154727935791,
+      "rewards/margins": 1.9791193008422852,
+      "rewards/rejected": -4.5406670570373535,
       "step": 210
     },
     {
       "epoch": 0.58,
+      "grad_norm": 48.87773515687126,
       "learning_rate": 2.2356249022388789e-07,
+      "logits/chosen": -7.1236982345581055,
+      "logits/rejected": -8.037015914916992,
+      "logps/chosen": -493.3589782714844,
+      "logps/rejected": -644.3180541992188,
+      "loss": 0.3503,
+      "rewards/accuracies": 0.8812500238418579,
+      "rewards/chosen": -2.7893471717834473,
+      "rewards/margins": 2.016085386276245,
+      "rewards/rejected": -4.805432319641113,
       "step": 220
     },
     {
       "epoch": 0.61,
+      "grad_norm": 42.654084351174774,
       "learning_rate": 2.0080393659578038e-07,
+      "logits/chosen": -7.341279029846191,
+      "logits/rejected": -8.349458694458008,
+      "logps/chosen": -546.9940795898438,
+      "logps/rejected": -735.5299072265625,
+      "loss": 0.3336,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -3.2596652507781982,
+      "rewards/margins": 2.3632309436798096,
+      "rewards/rejected": -5.622895240783691,
       "step": 230
     },
     {
       "epoch": 0.63,
+      "grad_norm": 48.836991831948275,
       "learning_rate": 1.7846265006183976e-07,
+      "logits/chosen": -7.382364749908447,
+      "logits/rejected": -8.096385955810547,
+      "logps/chosen": -559.1055908203125,
+      "logps/rejected": -690.3636474609375,
+      "loss": 0.3239,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -3.478092670440674,
+      "rewards/margins": 1.7500022649765015,
+      "rewards/rejected": -5.228094577789307,
       "step": 240
     },
     {
       "epoch": 0.66,
+      "grad_norm": 41.88272757196894,
       "learning_rate": 1.5672812309497722e-07,
+      "logits/chosen": -7.3642730712890625,
+      "logits/rejected": -8.137662887573242,
+      "logps/chosen": -481.7484436035156,
+      "logps/rejected": -658.2447509765625,
+      "loss": 0.3435,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -2.742130756378174,
+      "rewards/margins": 2.204786777496338,
+      "rewards/rejected": -4.946917533874512,
       "step": 250
     },
     {
       "epoch": 0.69,
+      "grad_norm": 42.22161557256122,
       "learning_rate": 1.357847018050843e-07,
+      "logits/chosen": -7.285035133361816,
+      "logits/rejected": -8.04423999786377,
+      "logps/chosen": -495.21929931640625,
+      "logps/rejected": -637.4512939453125,
+      "loss": 0.3575,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -2.5677530765533447,
+      "rewards/margins": 1.859423041343689,
+      "rewards/rejected": -4.427175521850586,
       "step": 260
     },
     {
       "epoch": 0.71,
+      "grad_norm": 36.62148112990462,
       "learning_rate": 1.1581002236747328e-07,
+      "logits/chosen": -7.350560188293457,
+      "logits/rejected": -8.334383964538574,
+      "logps/chosen": -470.9756774902344,
+      "logps/rejected": -644.9085083007812,
+      "loss": 0.3419,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -2.7616236209869385,
+      "rewards/margins": 2.1581368446350098,
+      "rewards/rejected": -4.919760704040527,
       "step": 270
     },
     {
       "epoch": 0.74,
+      "grad_norm": 42.46981787888043,
       "learning_rate": 9.697350436308427e-08,
+      "logits/chosen": -7.353733062744141,
+      "logits/rejected": -8.123218536376953,
+      "logps/chosen": -547.2511596679688,
+      "logps/rejected": -669.4581298828125,
+      "loss": 0.3277,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -3.1215298175811768,
+      "rewards/margins": 1.7408149242401123,
+      "rewards/rejected": -4.862344264984131,
       "step": 280
     },
     {
       "epoch": 0.76,
+      "grad_norm": 45.06982020026593,
       "learning_rate": 7.943491380952188e-08,
+      "logits/chosen": -7.6978254318237305,
+      "logits/rejected": -8.468889236450195,
+      "logps/chosen": -488.8667907714844,
+      "logps/rejected": -652.3041381835938,
+      "loss": 0.3357,
       "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -2.835703134536743,
+      "rewards/margins": 2.056410789489746,
+      "rewards/rejected": -4.89211368560791,
       "step": 290
     },
     {
       "epoch": 0.79,
+      "grad_norm": 50.46942762667779,
       "learning_rate": 6.334300807088508e-08,
+      "logits/chosen": -7.3240485191345215,
+      "logits/rejected": -8.329621315002441,
+      "logps/chosen": -509.5638122558594,
+      "logps/rejected": -673.7567749023438,
+      "loss": 0.3506,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -3.0604350566864014,
+      "rewards/margins": 2.1173126697540283,
+      "rewards/rejected": -5.1777472496032715,
       "step": 300
     },
     {
       "epoch": 0.79,
+      "eval_logits/chosen": -7.444587707519531,
+      "eval_logits/rejected": -7.9900360107421875,
+      "eval_logps/chosen": -951.4573974609375,
+      "eval_logps/rejected": -1114.78076171875,
+      "eval_loss": 1.1842519044876099,
+      "eval_rewards/accuracies": 0.51171875,
+      "eval_rewards/chosen": -5.609828948974609,
+      "eval_rewards/margins": 0.35410135984420776,
+      "eval_rewards/rejected": -5.963930606842041,
+      "eval_runtime": 97.9073,
+      "eval_samples_per_second": 20.427,
+      "eval_steps_per_second": 0.327,
       "step": 300
     },
     {
       "epoch": 0.82,
+      "grad_norm": 45.51913834484837,
       "learning_rate": 4.8834274139883084e-08,
+      "logits/chosen": -7.380696773529053,
+      "logits/rejected": -8.350247383117676,
+      "logps/chosen": -504.37054443359375,
+      "logps/rejected": -678.6265869140625,
+      "loss": 0.3248,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -2.946779727935791,
+      "rewards/margins": 2.2168285846710205,
+      "rewards/rejected": -5.163609027862549,
       "step": 310
     },
     {
       "epoch": 0.84,
+      "grad_norm": 53.031113784661194,
       "learning_rate": 3.60317709937693e-08,
+      "logits/chosen": -7.483295440673828,
+      "logits/rejected": -8.33633804321289,
+      "logps/chosen": -519.6754150390625,
+      "logps/rejected": -667.0064697265625,
+      "loss": 0.334,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -2.902660369873047,
+      "rewards/margins": 2.0172414779663086,
+      "rewards/rejected": -4.919901371002197,
       "step": 320
     },
     {
       "epoch": 0.87,
+      "grad_norm": 41.68995945520798,
       "learning_rate": 2.5044085842905683e-08,
+      "logits/chosen": -7.596086025238037,
+      "logits/rejected": -8.42108154296875,
+      "logps/chosen": -542.1593627929688,
+      "logps/rejected": -761.1915893554688,
+      "loss": 0.3439,
+      "rewards/accuracies": 0.9312499761581421,
+      "rewards/chosen": -3.237351894378662,
+      "rewards/margins": 2.630371332168579,
+      "rewards/rejected": -5.867722988128662,
       "step": 330
     },
     {
       "epoch": 0.9,
+      "grad_norm": 44.38600213815557,
       "learning_rate": 1.5964413124758493e-08,
+      "logits/chosen": -7.379315376281738,
+      "logits/rejected": -8.234747886657715,
+      "logps/chosen": -516.7742919921875,
+      "logps/rejected": -690.0197143554688,
+      "loss": 0.3394,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -2.9615204334259033,
+      "rewards/margins": 2.160275936126709,
+      "rewards/rejected": -5.121796607971191,
       "step": 340
     },
     {
       "epoch": 0.92,
+      "grad_norm": 49.890826040889124,
       "learning_rate": 8.869764055041501e-09,
+      "logits/chosen": -7.525488376617432,
+      "logits/rejected": -8.198974609375,
+      "logps/chosen": -535.8231201171875,
+      "logps/rejected": -737.1505737304688,
+      "loss": 0.3403,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -3.1437525749206543,
+      "rewards/margins": 2.3052563667297363,
+      "rewards/rejected": -5.449008941650391,
       "step": 350
     },
     {
       "epoch": 0.95,
+      "grad_norm": 41.28866479778979,
       "learning_rate": 3.82031344036729e-09,
+      "logits/chosen": -7.295458793640137,
+      "logits/rejected": -8.147361755371094,
+      "logps/chosen": -541.268798828125,
+      "logps/rejected": -692.4953002929688,
+      "loss": 0.3191,
+      "rewards/accuracies": 0.8187500238418579,
+      "rewards/chosen": -3.197694778442383,
+      "rewards/margins": 1.9286365509033203,
+      "rewards/rejected": -5.126331329345703,
       "step": 360
     },
     {
       "epoch": 0.97,
+      "grad_norm": 56.54843526627352,
       "learning_rate": 8.588892925590063e-10,
+      "logits/chosen": -7.414445400238037,
+      "logits/rejected": -8.447690963745117,
+      "logps/chosen": -499.84197998046875,
+      "logps/rejected": -670.2615966796875,
+      "loss": 0.3342,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -2.8063206672668457,
+      "rewards/margins": 2.2892918586730957,
+      "rewards/rejected": -5.0956130027771,
       "step": 370
     },
     {
       "epoch": 1.0,
       "step": 379,
       "total_flos": 0.0,
+      "train_loss": 0.39733357479830217,
+      "train_runtime": 5845.1464,
+      "train_samples_per_second": 8.303,
       "train_steps_per_second": 0.065
     }
   ],
+  "logging_steps": 10,
   "max_steps": 379,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a8f2cc464d4b770ce3bbadf1ed05784c3d52b8d2d804db4724e09087c1384f2
 size 6264

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c6ef97f0ae5fdc0c432ac82567593d35a0af306147fdde011f9f421bccdc5eb
 size 6264