cat-searcher commited on Jul 17

Commit

b3e3fde

•

1 Parent(s): 689f398

Training in progress, epoch 32, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step6311/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6311/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6311/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6311/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6311/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6311/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6311/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6311/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6311/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6311/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6311/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6311/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6311/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6311/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6311/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6311/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +302 -2

last-checkpoint/global_step6311/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b1638964301fb436493919c9fca6ca0b24757bffcb3ab3631c4318b6d2c5c8da
+size 2506176112

last-checkpoint/global_step6311/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b5e67296286fe1995c5e46e13fe58ea336b5760742373cd74308f087993422e9
+size 2506176112

last-checkpoint/global_step6311/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3533e6d8ea544fc4ac3fea983acae782fc11c435392c67fd45efbba66afe7076
+size 2506176112

last-checkpoint/global_step6311/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4c3852775e4256033ec3bbb1ed5e12a1ab01d36b2e7c7dfa237a1096da618a7c
+size 2506176112

last-checkpoint/global_step6311/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f72ffbe1117371c6d0b90a927c2bd5e0ca456a7c586cc30dfe0092af8d9ecb16
+size 2506176112

last-checkpoint/global_step6311/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:537bbcb71f2ca58a96edea530f6b5f05ed36f594640ad73ba45da2c4ba63a4ac
+size 2506176112

last-checkpoint/global_step6311/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c714754e6c8f8ef3f81965b74c1d37905a2dcd11a4942468b05dada83c63829e
+size 2506176112

last-checkpoint/global_step6311/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d0800d4f8b21fa8588dc1d10c8c2a4f8f3f905343d12a9ae3a6fca9ba22f61e
+size 2506176112

last-checkpoint/global_step6311/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af698d0c6a7367349e9bb5f732a10dbe3e65bd62e6f7c19dceaa8c7eb53d63f1
+size 85570

last-checkpoint/global_step6311/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:858e5e94768ad6f67b1fb3868dd116f4d8883c9770589981d581b40df4a97098
+size 85506

last-checkpoint/global_step6311/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d203316b3f06902043bcb35792974b70921fce39bb38b45cd7cd2e8559d7b3d
+size 85506

last-checkpoint/global_step6311/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dcc85a051658c2e2cf8843f05040e6207f3a9824e6eb392914d967306e1cc2d7
+size 85506

last-checkpoint/global_step6311/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff794e200e434a6beb015ae1d4143bf6d1148d6c47b39da39e72e337662878a2
+size 85506

last-checkpoint/global_step6311/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ffb9529a96a97431f16deb193473953e218d01c6f842bdfcfa6f37707a22cc88
+size 85506

last-checkpoint/global_step6311/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:faa1b1523feff7fa82521ad7403b9e750238f0dc56ba883bfe6bd9a5cb05a21b
+size 85506

last-checkpoint/global_step6311/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2372cf41d29fbbd2d4204983371bbdc350d5ee42cc07209ffbeea2c756d98ff0
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step6113~~


1	+ global_step6311

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a98e86a0252e0053a50f39ee5da1bc91fc6cc770c00bdf4879a07beb1bfb774
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a4166953b305647bfe20e1bbeb15a19c28014fe214420eadf6709470c2313a3
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90d998420cc3a03c1798986731cd33f00d6a7cd27ade984be3af7b6e9ba76532
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:60ab1e0ab13e8465a7f0033de41b00c3ef85f0686c27f26ccedd41583cf589de
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ac3887e0b6e47ee941f0099109d55fe8c4958125034b41513ac29b0a09c9e86
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:af2aa29a1a0077819b6e6c9858b2870298aef9379363892f7f4a488e66c5bd38
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de0272654fc4c603ac86d1e7e8bda566a95de507f7e48193f810ed9d664b308b
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:291da2a884d82312ccaa711af98beaa52d4f41499984405613bb21b5148565a2
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09a612c5aff75737f917d89b930ca876fddca4236d73b7c4e2122a374a8c7279
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1bbb7042adc0fc2a1ac7bf08c10090a51f5d0491c80cb36a3e5f1380294d890
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15d130c7a2df3aa45929d007a20cc7aee23015b41b9d24357c85880be9954c25
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:70f0dc59a31366ea078c9fd119c2fc25b442df27e88be4fecef8251ec325566a
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c0852f2ccb050a5008bb4e71f4b3a6ea8b845e136589936cf10d03133438507
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:26207c8fd2f08c67b253e0d4b8b67c73971a41b870b2d0d9e52e1388c89513b5
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cad3ab70f668806214a1537af9f7d2fc6de4401f7eec2f544f9059052862cb5
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac396bf6594a215db06382f8b0dfcb2360c2c6b1a95d8150fec6afd800852574
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57dc573e9fb6a6cc583ada6a4737e432c792b6361f3eb47de697d69b75f09d21
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2edf36543f3b923b139f3541d6d94d5a2d50de85da08b18fa6867198430e57c
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c46a2fd5508f6b24b7fd294db0c5ae6e928c7174f4e3caeeeeca276dd88690c5
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f96eea372344884b68478842af038d9832fda66fa5d46d28035e601a7834efd4
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12fdc5d527314ffb69c899c4aaadd4582bc4cb2067e14fecb7c5f8dd01262d7f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ac6a779be83142d0fb2f1a0e7950874d368e5e14f0bcab557da3d6573142406
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 30.99746835443038,
   "eval_steps": 100,
-  "global_step": 6113,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9187,6 +9187,306 @@
       "rewards/margins": 0.5498504042625427,
       "rewards/rejected": -0.34040600061416626,
       "step": 6110
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 32.0,
   "eval_steps": 100,
+  "global_step": 6311,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.5498504042625427,
       "rewards/rejected": -0.34040600061416626,
       "step": 6110
+    },
+    {
+      "epoch": 31.03291139240506,
+      "grad_norm": 111295.73044950665,
+      "learning_rate": 7.615167659041052e-08,
+      "logits/chosen": -0.7748550772666931,
+      "logits/rejected": -0.973538875579834,
+      "logps/chosen": -31.6827335357666,
+      "logps/rejected": -594.8641357421875,
+      "loss": 11721.4203,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20987281203269958,
+      "rewards/margins": 0.5614258050918579,
+      "rewards/rejected": -0.3515530228614807,
+      "step": 6120
+    },
+    {
+      "epoch": 31.083544303797467,
+      "grad_norm": 132943.3056647964,
+      "learning_rate": 7.536822312754621e-08,
+      "logits/chosen": -2.017181396484375,
+      "logits/rejected": -1.8383163213729858,
+      "logps/chosen": -32.51802062988281,
+      "logps/rejected": -609.6942138671875,
+      "loss": 12392.7875,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.22407253086566925,
+      "rewards/margins": 0.582473874092102,
+      "rewards/rejected": -0.3584012985229492,
+      "step": 6130
+    },
+    {
+      "epoch": 31.134177215189872,
+      "grad_norm": 174931.96319021285,
+      "learning_rate": 7.45847696646819e-08,
+      "logits/chosen": -0.5535727143287659,
+      "logits/rejected": 0.6218046545982361,
+      "logps/chosen": -26.1910457611084,
+      "logps/rejected": -551.5840454101562,
+      "loss": 11699.3109,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20296287536621094,
+      "rewards/margins": 0.5298973917961121,
+      "rewards/rejected": -0.3269345760345459,
+      "step": 6140
+    },
+    {
+      "epoch": 31.184810126582278,
+      "grad_norm": 168688.32644125135,
+      "learning_rate": 7.380131620181761e-08,
+      "logits/chosen": -1.008988618850708,
+      "logits/rejected": -0.2778696119785309,
+      "logps/chosen": -33.33096694946289,
+      "logps/rejected": -607.976806640625,
+      "loss": 11916.4016,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.21690383553504944,
+      "rewards/margins": 0.5754967331886292,
+      "rewards/rejected": -0.3585929274559021,
+      "step": 6150
+    },
+    {
+      "epoch": 31.235443037974683,
+      "grad_norm": 94661.132576451,
+      "learning_rate": 7.30178627389533e-08,
+      "logits/chosen": -3.0997250080108643,
+      "logits/rejected": -2.1219401359558105,
+      "logps/chosen": -27.209686279296875,
+      "logps/rejected": -589.7662353515625,
+      "loss": 12111.9188,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.21759450435638428,
+      "rewards/margins": 0.5674911737442017,
+      "rewards/rejected": -0.3498966693878174,
+      "step": 6160
+    },
+    {
+      "epoch": 31.28607594936709,
+      "grad_norm": 129537.98682999605,
+      "learning_rate": 7.2234409276089e-08,
+      "logits/chosen": -2.1777210235595703,
+      "logits/rejected": -2.1664652824401855,
+      "logps/chosen": -29.21515464782715,
+      "logps/rejected": -575.5145263671875,
+      "loss": 12396.4562,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20168697834014893,
+      "rewards/margins": 0.5468615293502808,
+      "rewards/rejected": -0.3451746106147766,
+      "step": 6170
+    },
+    {
+      "epoch": 31.336708860759494,
+      "grad_norm": 146320.37748909468,
+      "learning_rate": 7.145095581322469e-08,
+      "logits/chosen": -0.37119048833847046,
+      "logits/rejected": -0.12678974866867065,
+      "logps/chosen": -27.464313507080078,
+      "logps/rejected": -583.199462890625,
+      "loss": 12035.1789,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20687448978424072,
+      "rewards/margins": 0.5559764504432678,
+      "rewards/rejected": -0.3491020202636719,
+      "step": 6180
+    },
+    {
+      "epoch": 31.3873417721519,
+      "grad_norm": 123464.43072965978,
+      "learning_rate": 7.066750235036038e-08,
+      "logits/chosen": -1.114485740661621,
+      "logits/rejected": -0.36546590924263,
+      "logps/chosen": -24.96463394165039,
+      "logps/rejected": -573.1627197265625,
+      "loss": 12102.0078,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2025957852602005,
+      "rewards/margins": 0.5483575463294983,
+      "rewards/rejected": -0.3457617163658142,
+      "step": 6190
+    },
+    {
+      "epoch": 31.437974683544304,
+      "grad_norm": 182155.23164206932,
+      "learning_rate": 6.988404888749608e-08,
+      "logits/chosen": -1.7520939111709595,
+      "logits/rejected": -1.4854246377944946,
+      "logps/chosen": -29.002777099609375,
+      "logps/rejected": -592.4381713867188,
+      "loss": 11423.6828,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2187313735485077,
+      "rewards/margins": 0.5657260417938232,
+      "rewards/rejected": -0.34699463844299316,
+      "step": 6200
+    },
+    {
+      "epoch": 31.48860759493671,
+      "grad_norm": 148737.16455364344,
+      "learning_rate": 6.910059542463177e-08,
+      "logits/chosen": 0.025389552116394043,
+      "logits/rejected": -0.27969443798065186,
+      "logps/chosen": -17.67035675048828,
+      "logps/rejected": -546.9998168945312,
+      "loss": 11498.325,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.19227565824985504,
+      "rewards/margins": 0.5237180590629578,
+      "rewards/rejected": -0.33144229650497437,
+      "step": 6210
+    },
+    {
+      "epoch": 31.539240506329115,
+      "grad_norm": 186784.06647045226,
+      "learning_rate": 6.831714196176746e-08,
+      "logits/chosen": -3.0769848823547363,
+      "logits/rejected": -2.87144136428833,
+      "logps/chosen": -25.640066146850586,
+      "logps/rejected": -605.6832885742188,
+      "loss": 11701.2086,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.21926145255565643,
+      "rewards/margins": 0.5798953771591187,
+      "rewards/rejected": -0.3606340289115906,
+      "step": 6220
+    },
+    {
+      "epoch": 31.58987341772152,
+      "grad_norm": 108314.28535819704,
+      "learning_rate": 6.753368849890315e-08,
+      "logits/chosen": -0.5384847521781921,
+      "logits/rejected": -0.6974294781684875,
+      "logps/chosen": -26.830814361572266,
+      "logps/rejected": -587.5255126953125,
+      "loss": 11231.8016,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.20746394991874695,
+      "rewards/margins": 0.557998776435852,
+      "rewards/rejected": -0.3505348265171051,
+      "step": 6230
+    },
+    {
+      "epoch": 31.640506329113926,
+      "grad_norm": 197387.20948770002,
+      "learning_rate": 6.675023503603886e-08,
+      "logits/chosen": -0.6654781103134155,
+      "logits/rejected": -1.1572941541671753,
+      "logps/chosen": -27.918231964111328,
+      "logps/rejected": -592.8441162109375,
+      "loss": 11850.0031,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.21056847274303436,
+      "rewards/margins": 0.5671868920326233,
+      "rewards/rejected": -0.3566184341907501,
+      "step": 6240
+    },
+    {
+      "epoch": 31.691139240506327,
+      "grad_norm": 178129.00858003844,
+      "learning_rate": 6.596678157317455e-08,
+      "logits/chosen": 0.17990253865718842,
+      "logits/rejected": 0.15132752060890198,
+      "logps/chosen": -26.486125946044922,
+      "logps/rejected": -577.5296020507812,
+      "loss": 12025.9992,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1961621642112732,
+      "rewards/margins": 0.5460348725318909,
+      "rewards/rejected": -0.34987273812294006,
+      "step": 6250
+    },
+    {
+      "epoch": 31.741772151898733,
+      "grad_norm": 113204.1607298857,
+      "learning_rate": 6.518332811031025e-08,
+      "logits/chosen": -0.7701491117477417,
+      "logits/rejected": -0.5652084946632385,
+      "logps/chosen": -30.580230712890625,
+      "logps/rejected": -575.9344482421875,
+      "loss": 12611.7422,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20266905426979065,
+      "rewards/margins": 0.5443531274795532,
+      "rewards/rejected": -0.34168410301208496,
+      "step": 6260
+    },
+    {
+      "epoch": 31.792405063291138,
+      "grad_norm": 170084.77349090017,
+      "learning_rate": 6.439987464744594e-08,
+      "logits/chosen": 0.8593052625656128,
+      "logits/rejected": 1.1197197437286377,
+      "logps/chosen": -26.577016830444336,
+      "logps/rejected": -555.6820068359375,
+      "loss": 12234.5422,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.19716337323188782,
+      "rewards/margins": 0.5328342318534851,
+      "rewards/rejected": -0.33567091822624207,
+      "step": 6270
+    },
+    {
+      "epoch": 31.843037974683543,
+      "grad_norm": 235274.58346107465,
+      "learning_rate": 6.361642118458163e-08,
+      "logits/chosen": -1.7307960987091064,
+      "logits/rejected": -1.3535115718841553,
+      "logps/chosen": -23.92806625366211,
+      "logps/rejected": -565.2352294921875,
+      "loss": 12517.5156,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.2007029801607132,
+      "rewards/margins": 0.5428507924079895,
+      "rewards/rejected": -0.3421478271484375,
+      "step": 6280
+    },
+    {
+      "epoch": 31.89367088607595,
+      "grad_norm": 190203.888446938,
+      "learning_rate": 6.283296772171732e-08,
+      "logits/chosen": -0.9662951231002808,
+      "logits/rejected": -0.45983943343162537,
+      "logps/chosen": -26.488794326782227,
+      "logps/rejected": -565.1602783203125,
+      "loss": 12050.4156,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20456723868846893,
+      "rewards/margins": 0.5392366051673889,
+      "rewards/rejected": -0.3346693515777588,
+      "step": 6290
+    },
+    {
+      "epoch": 31.944303797468354,
+      "grad_norm": 169175.47682307824,
+      "learning_rate": 6.204951425885302e-08,
+      "logits/chosen": -1.9982364177703857,
+      "logits/rejected": -1.282958745956421,
+      "logps/chosen": -25.263113021850586,
+      "logps/rejected": -584.7576293945312,
+      "loss": 11806.3297,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20914848148822784,
+      "rewards/margins": 0.5613822937011719,
+      "rewards/rejected": -0.35223376750946045,
+      "step": 6300
+    },
+    {
+      "epoch": 31.99493670886076,
+      "grad_norm": 142938.702725119,
+      "learning_rate": 6.126606079598871e-08,
+      "logits/chosen": -2.084618091583252,
+      "logits/rejected": -1.6745023727416992,
+      "logps/chosen": -24.918956756591797,
+      "logps/rejected": -603.4859619140625,
+      "loss": 12022.5133,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.21575181186199188,
+      "rewards/margins": 0.5819977521896362,
+      "rewards/rejected": -0.36624595522880554,
+      "step": 6310
     }
   ],
   "logging_steps": 10,