cat-searcher commited on Jul 17

Commit

ec5f551

•

1 Parent(s): cb82dde

Training in progress, epoch 28, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step5521/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5521/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5521/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5521/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5521/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5521/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5521/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5521/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5521/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5521/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5521/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5521/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5521/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5521/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5521/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5521/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +302 -2

last-checkpoint/global_step5521/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eeb574e73c858813a928ff498dcd92efcd52d39bf6be93eb19f482e11a521d46
+size 2506176112

last-checkpoint/global_step5521/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab8e88ff3e1e0d27d0f652203c6c8b5a774c4bf0d489719cc7fc6e9de2bb46e3
+size 2506176112

last-checkpoint/global_step5521/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d3fb30080c8bf6107859398c3b1e15ac6ac4565566849c964afcb6f354ea1ae5
+size 2506176112

last-checkpoint/global_step5521/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:35da7feb29692b199d80e67730abb3983caef4e1b0382cf78d411d246196f9d9
+size 2506176112

last-checkpoint/global_step5521/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:591123dfe28879cbe098dd6659b52eaae80c7bb2771ec06d6a603b62bc63fe74
+size 2506176112

last-checkpoint/global_step5521/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e642641e957b049f6002a70fb88a66fc527f94b80a7cd78722a8dd7875d89216
+size 2506176112

last-checkpoint/global_step5521/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8368bffa1785b2545bc93fc7f883c6b08555d632fc450f6d98baf24aeb7087e
+size 2506176112

last-checkpoint/global_step5521/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db3fd9da9c40302bee2f82faaf6129307040541c2bf197edb02c875734a4cc4e
+size 2506176112

last-checkpoint/global_step5521/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff0d15d674a1437beca49a16157757d5b4baf26599e5166ebed4540b1a7332e2
+size 85570

last-checkpoint/global_step5521/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2affdfc29fcb3d39a58b25db9a58d2a0625bfe72f9991c515efa1f965b7fe8e7
+size 85506

last-checkpoint/global_step5521/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c43225a1f5e98e8c5e00bffee1e9bfe34bcffd0cf304e1ca11f1e5b9996a51ac
+size 85506

last-checkpoint/global_step5521/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7356cccf7500d912fc837459640a05ccf3bb6a90b783e55b70e69002bd44e7fb
+size 85506

last-checkpoint/global_step5521/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:afdc283d704de0c72ee00ca73a9a7e7d1a1476f4ee3267871f8c87791768ab0f
+size 85506

last-checkpoint/global_step5521/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ceb8cc949be997c8ca9a59cb0ce35e0178d2683d8c9003245cb86046f76d968f
+size 85506

last-checkpoint/global_step5521/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be11c9817cfbbf742d8f6d97cd03a3c9ca846924fe4c3d497537572d49aebeae
+size 85506

last-checkpoint/global_step5521/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:744b41b26aaa23988bf6b5023d6e71f632a5c5d64c7b6d8b845694193ec91bed
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step5323~~


1	+ global_step5521

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48e3dca496abe618138acc972547a2585aebd68888a0188157e082fac3e57ec8
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:49f4a9ae06898314b6bbf8ad9fca6ca16dea158bd29ecc0506863d601b8345f4
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37ec3ac44a0c33cccc1363b0aaa3a4e381f89d397a266fbd331b9600bb0caba6
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:4832308f86af667638feea3c3365de459978e8c0f49e3d367cf4d5379875a12f
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c49abc3bdedbec1fc8e1028ef422150f19ee7470d7b542e1ad8869fc044d2af
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:038329a940174c7998542fe9a3c903ee0c21d0a2351959a1cb53ac9af3988f89
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df12ca4106ff0831785a55b5da88f6c86f6f67bd3d09b2dced4f20b539b14f72
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc2eb62cd1e31d2c95a28eaadd97a496b27751983378626efc3ee2a53ae743ff
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05fc0786faff729a3a1582f98b806b68d4f0b76aebb25cbad4431b73176b11c1
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c76f1ee6b7bfb2e7a6ca68f028fe40297bc56fa8287959be7a51545af2a824b
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3117e1218a2dd3f7f8c516a840af48f6b93660d852cca124269f78c21f8577c
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e4716e0a98e24ecef0261fa45d53aa531ce14f99b4992682e0257f7c483a80d
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdaa30c82476bf6a65e4eb9ca2ae7b95f1b38f41a6f5b2f1cbdda9af86a4a7a0
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:732644bf9682f11fe70f041a2575d5822769847a3b56320e6cfdbd3914eb98f9
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09cdde6931807139efa184e8a98108b74bb05730bc511336966b254b68dc93ee
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3d90978ff8f9057d8587ec1258de11f4d5531805002e65d952f5725b93f51be
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a2268136932c55b3857d38c7cf3fc4bd3cdad532c156b9addebc6d26374374a
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a013a277003a33e8bb2418ae66c1488282f502fc920260b5fc9f337843415ab2
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:56cd9a502015b79e0ab94c92a04bd96c99aaf79ef8d64bf81d81eb702c10c2a8
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:b9f8887e423cbfbb140f966733dae63123515ed5345b3e075eb892b0646282c8
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdf59f6709e5846ccbaea01389f6f540264ed11dfc9a9817626a436b27c277a6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2d39cfa3808e402183de5c305fcd5a81f2c9ffede37076a3856931095792cc0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 26.99746835443038,
   "eval_steps": 100,
-  "global_step": 5323,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8002,6 +8002,306 @@
       "rewards/margins": 0.5666243433952332,
       "rewards/rejected": -0.3455334007740021,
       "step": 5320
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 28.0,
   "eval_steps": 100,
+  "global_step": 5521,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.5666243433952332,
       "rewards/rejected": -0.3455334007740021,
       "step": 5320
+    },
+    {
+      "epoch": 27.03291139240506,
+      "grad_norm": 306486.1159229183,
+      "learning_rate": 1.380445001566907e-07,
+      "logits/chosen": -0.2942148447036743,
+      "logits/rejected": 0.29008275270462036,
+      "logps/chosen": -28.0673770904541,
+      "logps/rejected": -591.0224609375,
+      "loss": 12393.8094,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.21129322052001953,
+      "rewards/margins": 0.562667965888977,
+      "rewards/rejected": -0.35137468576431274,
+      "step": 5330
+    },
+    {
+      "epoch": 27.083544303797467,
+      "grad_norm": 291301.0379049935,
+      "learning_rate": 1.3726104669382637e-07,
+      "logits/chosen": -0.04897233098745346,
+      "logits/rejected": 0.2625051736831665,
+      "logps/chosen": -28.288782119750977,
+      "logps/rejected": -600.4498291015625,
+      "loss": 12295.5109,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20883643627166748,
+      "rewards/margins": 0.5699074864387512,
+      "rewards/rejected": -0.36107105016708374,
+      "step": 5340
+    },
+    {
+      "epoch": 27.134177215189872,
+      "grad_norm": 336826.5711799587,
+      "learning_rate": 1.3647759323096208e-07,
+      "logits/chosen": -3.574831008911133,
+      "logits/rejected": -3.1615543365478516,
+      "logps/chosen": -28.667476654052734,
+      "logps/rejected": -610.046630859375,
+      "loss": 12205.2984,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.21462281048297882,
+      "rewards/margins": 0.5811195373535156,
+      "rewards/rejected": -0.3664968013763428,
+      "step": 5350
+    },
+    {
+      "epoch": 27.184810126582278,
+      "grad_norm": 253108.22870561373,
+      "learning_rate": 1.3569413976809776e-07,
+      "logits/chosen": -1.275773048400879,
+      "logits/rejected": -0.2816539406776428,
+      "logps/chosen": -27.488027572631836,
+      "logps/rejected": -576.04443359375,
+      "loss": 12752.6922,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20755627751350403,
+      "rewards/margins": 0.5584858059883118,
+      "rewards/rejected": -0.35092949867248535,
+      "step": 5360
+    },
+    {
+      "epoch": 27.235443037974683,
+      "grad_norm": 378986.1297500305,
+      "learning_rate": 1.3491068630523347e-07,
+      "logits/chosen": -0.7276864051818848,
+      "logits/rejected": -0.2372014820575714,
+      "logps/chosen": -27.652713775634766,
+      "logps/rejected": -574.1866455078125,
+      "loss": 12491.7875,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.19472074508666992,
+      "rewards/margins": 0.5458452701568604,
+      "rewards/rejected": -0.35112449526786804,
+      "step": 5370
+    },
+    {
+      "epoch": 27.28607594936709,
+      "grad_norm": 355029.2404666128,
+      "learning_rate": 1.3412723284236915e-07,
+      "logits/chosen": 0.03503293916583061,
+      "logits/rejected": 0.09463844448328018,
+      "logps/chosen": -20.01060676574707,
+      "logps/rejected": -571.03369140625,
+      "loss": 12906.6961,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1995813399553299,
+      "rewards/margins": 0.5492128133773804,
+      "rewards/rejected": -0.3496314287185669,
+      "step": 5380
+    },
+    {
+      "epoch": 27.336708860759494,
+      "grad_norm": 174005.9141855672,
+      "learning_rate": 1.3334377937950485e-07,
+      "logits/chosen": -1.0307856798171997,
+      "logits/rejected": -0.8787088394165039,
+      "logps/chosen": -27.538768768310547,
+      "logps/rejected": -584.1838989257812,
+      "loss": 12431.2086,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20768491923809052,
+      "rewards/margins": 0.558754026889801,
+      "rewards/rejected": -0.3510691225528717,
+      "step": 5390
+    },
+    {
+      "epoch": 27.3873417721519,
+      "grad_norm": 333107.0988957162,
+      "learning_rate": 1.3256032591664053e-07,
+      "logits/chosen": 0.49966010451316833,
+      "logits/rejected": 1.4367059469223022,
+      "logps/chosen": -22.20120620727539,
+      "logps/rejected": -573.7286987304688,
+      "loss": 12624.7586,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.19961531460285187,
+      "rewards/margins": 0.5520228743553162,
+      "rewards/rejected": -0.35240763425827026,
+      "step": 5400
+    },
+    {
+      "epoch": 27.437974683544304,
+      "grad_norm": 189125.20245582235,
+      "learning_rate": 1.3177687245377624e-07,
+      "logits/chosen": -0.491058886051178,
+      "logits/rejected": -0.4180983603000641,
+      "logps/chosen": -24.668697357177734,
+      "logps/rejected": -574.7880249023438,
+      "loss": 12818.4906,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.203078955411911,
+      "rewards/margins": 0.5475345849990845,
+      "rewards/rejected": -0.34445568919181824,
+      "step": 5410
+    },
+    {
+      "epoch": 27.48860759493671,
+      "grad_norm": 255453.1741505276,
+      "learning_rate": 1.3099341899091192e-07,
+      "logits/chosen": -1.3983430862426758,
+      "logits/rejected": -1.0761035680770874,
+      "logps/chosen": -28.14908790588379,
+      "logps/rejected": -567.4022216796875,
+      "loss": 12266.7156,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.19684790074825287,
+      "rewards/margins": 0.5404728055000305,
+      "rewards/rejected": -0.34362491965293884,
+      "step": 5420
+    },
+    {
+      "epoch": 27.539240506329115,
+      "grad_norm": 199249.17490991156,
+      "learning_rate": 1.3020996552804765e-07,
+      "logits/chosen": -1.3831968307495117,
+      "logits/rejected": -0.9957733154296875,
+      "logps/chosen": -34.38856887817383,
+      "logps/rejected": -583.5364379882812,
+      "loss": 12353.943,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20319747924804688,
+      "rewards/margins": 0.5525364875793457,
+      "rewards/rejected": -0.34933900833129883,
+      "step": 5430
+    },
+    {
+      "epoch": 27.58987341772152,
+      "grad_norm": 372801.7448533588,
+      "learning_rate": 1.2942651206518333e-07,
+      "logits/chosen": 0.7253493070602417,
+      "logits/rejected": 0.6416251063346863,
+      "logps/chosen": -36.44821548461914,
+      "logps/rejected": -557.3819580078125,
+      "loss": 12762.9742,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.19811172783374786,
+      "rewards/margins": 0.5241624116897583,
+      "rewards/rejected": -0.32605066895484924,
+      "step": 5440
+    },
+    {
+      "epoch": 27.640506329113926,
+      "grad_norm": 250437.30987597498,
+      "learning_rate": 1.2864305860231904e-07,
+      "logits/chosen": -1.6367158889770508,
+      "logits/rejected": -0.9662375450134277,
+      "logps/chosen": -32.858455657958984,
+      "logps/rejected": -566.0185546875,
+      "loss": 13013.8914,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20383331179618835,
+      "rewards/margins": 0.5383815169334412,
+      "rewards/rejected": -0.3345482349395752,
+      "step": 5450
+    },
+    {
+      "epoch": 27.691139240506327,
+      "grad_norm": 395640.3468149828,
+      "learning_rate": 1.2785960513945471e-07,
+      "logits/chosen": -1.0696049928665161,
+      "logits/rejected": -0.7029746770858765,
+      "logps/chosen": -27.334697723388672,
+      "logps/rejected": -572.7042846679688,
+      "loss": 12608.9328,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2039167582988739,
+      "rewards/margins": 0.5491318106651306,
+      "rewards/rejected": -0.3452150225639343,
+      "step": 5460
+    },
+    {
+      "epoch": 27.741772151898733,
+      "grad_norm": 737045.8738711793,
+      "learning_rate": 1.2707615167659042e-07,
+      "logits/chosen": -1.4398880004882812,
+      "logits/rejected": -0.3085852265357971,
+      "logps/chosen": -20.763835906982422,
+      "logps/rejected": -557.7874755859375,
+      "loss": 12662.9484,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20201142132282257,
+      "rewards/margins": 0.5384231209754944,
+      "rewards/rejected": -0.336411714553833,
+      "step": 5470
+    },
+    {
+      "epoch": 27.792405063291138,
+      "grad_norm": 286929.61277431983,
+      "learning_rate": 1.262926982137261e-07,
+      "logits/chosen": -0.6262455582618713,
+      "logits/rejected": -0.4802684783935547,
+      "logps/chosen": -23.99846076965332,
+      "logps/rejected": -575.8038940429688,
+      "loss": 12141.5641,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.19609448313713074,
+      "rewards/margins": 0.551897406578064,
+      "rewards/rejected": -0.355802983045578,
+      "step": 5480
+    },
+    {
+      "epoch": 27.843037974683543,
+      "grad_norm": 749583.0814867924,
+      "learning_rate": 1.255092447508618e-07,
+      "logits/chosen": -1.7006927728652954,
+      "logits/rejected": -1.0466101169586182,
+      "logps/chosen": -29.710596084594727,
+      "logps/rejected": -591.6888427734375,
+      "loss": 12764.4375,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20634475350379944,
+      "rewards/margins": 0.5570266842842102,
+      "rewards/rejected": -0.3506819009780884,
+      "step": 5490
+    },
+    {
+      "epoch": 27.89367088607595,
+      "grad_norm": 380933.42642122327,
+      "learning_rate": 1.2472579128799749e-07,
+      "logits/chosen": -1.4751110076904297,
+      "logits/rejected": -0.9937122464179993,
+      "logps/chosen": -34.70015335083008,
+      "logps/rejected": -571.9727172851562,
+      "loss": 12012.7281,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.2022305727005005,
+      "rewards/margins": 0.5379850268363953,
+      "rewards/rejected": -0.3357544541358948,
+      "step": 5500
+    },
+    {
+      "epoch": 27.944303797468354,
+      "grad_norm": 258509.47313842815,
+      "learning_rate": 1.2394233782513317e-07,
+      "logits/chosen": -1.372650384902954,
+      "logits/rejected": -1.0075037479400635,
+      "logps/chosen": -35.64197540283203,
+      "logps/rejected": -593.0923461914062,
+      "loss": 11889.8898,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2117808610200882,
+      "rewards/margins": 0.5591001510620117,
+      "rewards/rejected": -0.34731921553611755,
+      "step": 5510
+    },
+    {
+      "epoch": 27.99493670886076,
+      "grad_norm": 208938.2840249938,
+      "learning_rate": 1.2315888436226887e-07,
+      "logits/chosen": -2.1264805793762207,
+      "logits/rejected": -1.4703245162963867,
+      "logps/chosen": -32.981266021728516,
+      "logps/rejected": -597.6434936523438,
+      "loss": 12257.6922,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.21187356114387512,
+      "rewards/margins": 0.5627579689025879,
+      "rewards/rejected": -0.3508843779563904,
+      "step": 5520
     }
   ],
   "logging_steps": 10,