cat-searcher commited on Jul 17

Commit

39281e8

•

1 Parent(s): d679692

Training in progress, epoch 30, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step6113/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6113/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6113/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6113/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6113/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6113/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6113/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6113/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6113/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6113/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6113/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6113/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6113/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6113/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6113/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6113/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +302 -2

last-checkpoint/global_step6113/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0499858123b31f7a4204d087c039e8726dc6ad4603df074753febcc04419561a
+size 2506176112

last-checkpoint/global_step6113/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e72e84707d58bb67c0db60989f9c153473ac467cba53022b78d75a841fd9ab53
+size 2506176112

last-checkpoint/global_step6113/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fdf672e0ab53201eff10260483f20107ede551a0770ffa18e03d8cf6f9fa4bb8
+size 2506176112

last-checkpoint/global_step6113/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e65dea90b6ebad258ebeb2480617854af6fb764c69f32a09290d8098b409ffa
+size 2506176112

last-checkpoint/global_step6113/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac88c49031eafd7094a57d19a07adcfab7e8035bf8f4fce77718cd7ad6881af9
+size 2506176112

last-checkpoint/global_step6113/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c04cd0d89bc49c2d22736060318f6bd9a096c0bb6aa02df4860ea10b269624c
+size 2506176112

last-checkpoint/global_step6113/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d6d7ca8d8feae576757708b7a34c4018a12ee540735d04c0c8c1b3de1489bf4
+size 2506176112

last-checkpoint/global_step6113/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b84296edebd96febb1ac999c83a53f11cf291da4cbe9d06d3d2c319e1eabd737
+size 2506176112

last-checkpoint/global_step6113/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:561724fd38716552727a57affc0c5d116f64c8e53da7c31f5b707480dfd32bb9
+size 85570

last-checkpoint/global_step6113/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8064a387c0abdcce514d00b06b69a41e661ce183e377f111f476ca71082d97f
+size 85506

last-checkpoint/global_step6113/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0191b2ffba6a0b1a7fca25147384ea4b659723c25754ef7916d3cd7d62aa692b
+size 85506

last-checkpoint/global_step6113/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:66690d8256e090f00ce5ead20a2bde13e0e3ed458334da20baf9b28dcc486813
+size 85506

last-checkpoint/global_step6113/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df4ee2a67dc3236ef4d1dd231d6108de62d9c6c7105ddf2d1dc172d972f4a138
+size 85506

last-checkpoint/global_step6113/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:38355ae4214f9d9d2b1a486a99713a7ab23cdb8f2d880e01fbe59be80673fff1
+size 85506

last-checkpoint/global_step6113/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:96454f7b3634ce62258c7197cf4b4befbf6c5f3323c69fd38b68cab2b2a39bd1
+size 85506

last-checkpoint/global_step6113/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e95f4cf5fdb61c35b72378382a3517094d3e980be021c62c73e593c994774f6f
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step5916~~


1	+ global_step6113

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d3b3ba3d73fcfe06684964aa6a0da80302158d0b45234f7473a31d0a8f86d45
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a98e86a0252e0053a50f39ee5da1bc91fc6cc770c00bdf4879a07beb1bfb774
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d86e8e9eec87ad0431303407e43b154a156dec7fa7e56ad78330489a8ac89828
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:90d998420cc3a03c1798986731cd33f00d6a7cd27ade984be3af7b6e9ba76532
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c6c5e7528cb919bf0e448095ef87b2e21b836859cd72ece77237cb822e78f88
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ac3887e0b6e47ee941f0099109d55fe8c4958125034b41513ac29b0a09c9e86
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3be13484e2a524a3f5e79f3e726fd41b0876252a9d0898131fc1ccf0d86f6a8
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:de0272654fc4c603ac86d1e7e8bda566a95de507f7e48193f810ed9d664b308b
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f070bbb32dc96a08f76f5f85c2e01ae98d5e4d16dd18623bfab6b4b54e1d03c4
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:09a612c5aff75737f917d89b930ca876fddca4236d73b7c4e2122a374a8c7279
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f43d659c0909b37d66f4502f36b99850e3f553b6e2fb3ac13de4a060aa1cdc1
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:15d130c7a2df3aa45929d007a20cc7aee23015b41b9d24357c85880be9954c25
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c80a51e24107d3bf93a1e4d903f42d6626efe1c5b8bd714f393fb93f840c5ce2
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c0852f2ccb050a5008bb4e71f4b3a6ea8b845e136589936cf10d03133438507
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e624a5e2e5c07e8e80b5d066ec132b4a872761dcba6d77f7386705eb95f67228
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:3cad3ab70f668806214a1537af9f7d2fc6de4401f7eec2f544f9059052862cb5
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc47fa553a7e6a70b45be521b98449ef920fe0d39f6cf85ae50b9a45d6c9da85
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:57dc573e9fb6a6cc583ada6a4737e432c792b6361f3eb47de697d69b75f09d21
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8a0e7009351aac3c555f7946c515a64baa2d14aa4706e4a371e0c2df02b5a90
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:c46a2fd5508f6b24b7fd294db0c5ae6e928c7174f4e3caeeeeca276dd88690c5
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db6ce75ecc7db03a363686e05ba8e98d2588fcd56e7f730c69ff2320b79e2de2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:12fdc5d527314ffb69c899c4aaadd4582bc4cb2067e14fecb7c5f8dd01262d7f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 30.0,
   "eval_steps": 100,
-  "global_step": 5916,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8887,6 +8887,306 @@
       "rewards/margins": 0.5534237027168274,
       "rewards/rejected": -0.34499144554138184,
       "step": 5910
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 30.99746835443038,
   "eval_steps": 100,
+  "global_step": 6113,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.5534237027168274,
       "rewards/rejected": -0.34499144554138184,
       "step": 5910
+    },
+    {
+      "epoch": 30.020253164556962,
+      "grad_norm": 218071.18905642498,
+      "learning_rate": 9.182074584769664e-08,
+      "logits/chosen": -0.20139971375465393,
+      "logits/rejected": 0.6374796628952026,
+      "logps/chosen": -36.04420852661133,
+      "logps/rejected": -585.3655395507812,
+      "loss": 12139.8164,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20962996780872345,
+      "rewards/margins": 0.5547569394111633,
+      "rewards/rejected": -0.3451269865036011,
+      "step": 5920
+    },
+    {
+      "epoch": 30.070886075949367,
+      "grad_norm": 199502.22634833233,
+      "learning_rate": 9.103729238483233e-08,
+      "logits/chosen": -0.5093935132026672,
+      "logits/rejected": -0.9036226272583008,
+      "logps/chosen": -32.292423248291016,
+      "logps/rejected": -584.6748046875,
+      "loss": 11463.5555,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20751234889030457,
+      "rewards/margins": 0.5532687902450562,
+      "rewards/rejected": -0.345756471157074,
+      "step": 5930
+    },
+    {
+      "epoch": 30.121518987341773,
+      "grad_norm": 164683.94241544002,
+      "learning_rate": 9.025383892196802e-08,
+      "logits/chosen": -1.2027417421340942,
+      "logits/rejected": -0.21418258547782898,
+      "logps/chosen": -38.00572967529297,
+      "logps/rejected": -542.5321044921875,
+      "loss": 12248.6938,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.1922551691532135,
+      "rewards/margins": 0.5097079277038574,
+      "rewards/rejected": -0.3174527585506439,
+      "step": 5940
+    },
+    {
+      "epoch": 30.172151898734178,
+      "grad_norm": 209885.7696817789,
+      "learning_rate": 8.947038545910373e-08,
+      "logits/chosen": -0.5836046934127808,
+      "logits/rejected": -0.049278389662504196,
+      "logps/chosen": -26.44875144958496,
+      "logps/rejected": -577.2633056640625,
+      "loss": 11882.8156,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2028985321521759,
+      "rewards/margins": 0.548152506351471,
+      "rewards/rejected": -0.34525397419929504,
+      "step": 5950
+    },
+    {
+      "epoch": 30.222784810126583,
+      "grad_norm": 116064.20956709805,
+      "learning_rate": 8.868693199623942e-08,
+      "logits/chosen": -0.3441212773323059,
+      "logits/rejected": 0.3469446897506714,
+      "logps/chosen": -29.866031646728516,
+      "logps/rejected": -576.8469848632812,
+      "loss": 11899.9906,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20657262206077576,
+      "rewards/margins": 0.5527979731559753,
+      "rewards/rejected": -0.3462253212928772,
+      "step": 5960
+    },
+    {
+      "epoch": 30.27341772151899,
+      "grad_norm": 213446.8577722312,
+      "learning_rate": 8.790347853337511e-08,
+      "logits/chosen": -1.195245623588562,
+      "logits/rejected": -1.5595389604568481,
+      "logps/chosen": -26.48971939086914,
+      "logps/rejected": -562.9793090820312,
+      "loss": 12288.4188,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.19797027111053467,
+      "rewards/margins": 0.5365854501724243,
+      "rewards/rejected": -0.3386152386665344,
+      "step": 5970
+    },
+    {
+      "epoch": 30.324050632911394,
+      "grad_norm": 150392.6550831942,
+      "learning_rate": 8.712002507051081e-08,
+      "logits/chosen": -0.636971116065979,
+      "logits/rejected": -0.8326961398124695,
+      "logps/chosen": -31.82355308532715,
+      "logps/rejected": -572.6309814453125,
+      "loss": 11735.9594,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.20741339027881622,
+      "rewards/margins": 0.5429075360298157,
+      "rewards/rejected": -0.33549413084983826,
+      "step": 5980
+    },
+    {
+      "epoch": 30.374683544303796,
+      "grad_norm": 248873.00017903763,
+      "learning_rate": 8.63365716076465e-08,
+      "logits/chosen": -0.8763412237167358,
+      "logits/rejected": -0.38471752405166626,
+      "logps/chosen": -33.753509521484375,
+      "logps/rejected": -577.4928588867188,
+      "loss": 11981.0336,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.20298103988170624,
+      "rewards/margins": 0.5445905923843384,
+      "rewards/rejected": -0.34160953760147095,
+      "step": 5990
+    },
+    {
+      "epoch": 30.4253164556962,
+      "grad_norm": 247123.70966936232,
+      "learning_rate": 8.555311814478219e-08,
+      "logits/chosen": -1.4638581275939941,
+      "logits/rejected": -1.6560137271881104,
+      "logps/chosen": -27.02420425415039,
+      "logps/rejected": -579.2672119140625,
+      "loss": 12743.5711,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20767991244792938,
+      "rewards/margins": 0.5485936403274536,
+      "rewards/rejected": -0.3409137427806854,
+      "step": 6000
+    },
+    {
+      "epoch": 30.475949367088607,
+      "grad_norm": 152247.200364489,
+      "learning_rate": 8.476966468191789e-08,
+      "logits/chosen": -1.2626516819000244,
+      "logits/rejected": -1.3656198978424072,
+      "logps/chosen": -30.586597442626953,
+      "logps/rejected": -564.9951782226562,
+      "loss": 12138.7328,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.19354796409606934,
+      "rewards/margins": 0.5365390181541443,
+      "rewards/rejected": -0.34299105405807495,
+      "step": 6010
+    },
+    {
+      "epoch": 30.526582278481012,
+      "grad_norm": 153551.3953399981,
+      "learning_rate": 8.398621121905358e-08,
+      "logits/chosen": -0.8625293970108032,
+      "logits/rejected": -1.6173267364501953,
+      "logps/chosen": -23.908416748046875,
+      "logps/rejected": -591.5709228515625,
+      "loss": 12247.5672,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2063622921705246,
+      "rewards/margins": 0.5622067451477051,
+      "rewards/rejected": -0.3558444678783417,
+      "step": 6020
+    },
+    {
+      "epoch": 30.577215189873417,
+      "grad_norm": 247558.34356145174,
+      "learning_rate": 8.320275775618927e-08,
+      "logits/chosen": -0.6456829309463501,
+      "logits/rejected": -0.25254157185554504,
+      "logps/chosen": -30.65958023071289,
+      "logps/rejected": -572.8914794921875,
+      "loss": 11907.7406,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20363232493400574,
+      "rewards/margins": 0.5450500845909119,
+      "rewards/rejected": -0.34141772985458374,
+      "step": 6030
+    },
+    {
+      "epoch": 30.627848101265823,
+      "grad_norm": 162045.80468301394,
+      "learning_rate": 8.241930429332496e-08,
+      "logits/chosen": 0.5193571448326111,
+      "logits/rejected": 1.0150249004364014,
+      "logps/chosen": -21.961605072021484,
+      "logps/rejected": -586.28369140625,
+      "loss": 11870.2594,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20082764327526093,
+      "rewards/margins": 0.5631116032600403,
+      "rewards/rejected": -0.36228394508361816,
+      "step": 6040
+    },
+    {
+      "epoch": 30.678481012658228,
+      "grad_norm": 183677.73161043233,
+      "learning_rate": 8.163585083046067e-08,
+      "logits/chosen": -2.2690348625183105,
+      "logits/rejected": -1.8725353479385376,
+      "logps/chosen": -34.20100021362305,
+      "logps/rejected": -571.948486328125,
+      "loss": 11952.7477,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.2089938223361969,
+      "rewards/margins": 0.542193591594696,
+      "rewards/rejected": -0.33319979906082153,
+      "step": 6050
+    },
+    {
+      "epoch": 30.729113924050633,
+      "grad_norm": 206299.51509471133,
+      "learning_rate": 8.085239736759636e-08,
+      "logits/chosen": -1.8886245489120483,
+      "logits/rejected": -1.428289532661438,
+      "logps/chosen": -33.442771911621094,
+      "logps/rejected": -577.7710571289062,
+      "loss": 12094.3477,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.20627331733703613,
+      "rewards/margins": 0.5446707606315613,
+      "rewards/rejected": -0.3383975028991699,
+      "step": 6060
+    },
+    {
+      "epoch": 30.77974683544304,
+      "grad_norm": 178455.47052363763,
+      "learning_rate": 8.006894390473206e-08,
+      "logits/chosen": -0.9159374237060547,
+      "logits/rejected": -0.5700797438621521,
+      "logps/chosen": -22.003402709960938,
+      "logps/rejected": -588.1246948242188,
+      "loss": 12967.7109,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20624502003192902,
+      "rewards/margins": 0.5602100491523743,
+      "rewards/rejected": -0.35396507382392883,
+      "step": 6070
+    },
+    {
+      "epoch": 30.830379746835444,
+      "grad_norm": 188994.549896938,
+      "learning_rate": 7.928549044186775e-08,
+      "logits/chosen": -2.218046188354492,
+      "logits/rejected": -2.298725128173828,
+      "logps/chosen": -36.601036071777344,
+      "logps/rejected": -578.4909057617188,
+      "loss": 11942.907,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20413891971111298,
+      "rewards/margins": 0.5424162149429321,
+      "rewards/rejected": -0.33827728033065796,
+      "step": 6080
+    },
+    {
+      "epoch": 30.88101265822785,
+      "grad_norm": 226618.0916543629,
+      "learning_rate": 7.850203697900344e-08,
+      "logits/chosen": -0.8958581686019897,
+      "logits/rejected": -0.3350396454334259,
+      "logps/chosen": -27.914409637451172,
+      "logps/rejected": -584.2742919921875,
+      "loss": 12020.4094,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.2059321403503418,
+      "rewards/margins": 0.5559757947921753,
+      "rewards/rejected": -0.3500436246395111,
+      "step": 6090
+    },
+    {
+      "epoch": 30.931645569620255,
+      "grad_norm": 193720.76624447017,
+      "learning_rate": 7.771858351613913e-08,
+      "logits/chosen": -0.13203875720500946,
+      "logits/rejected": -0.22968029975891113,
+      "logps/chosen": -25.164508819580078,
+      "logps/rejected": -573.2855224609375,
+      "loss": 12096.6344,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1958034336566925,
+      "rewards/margins": 0.5465744137763977,
+      "rewards/rejected": -0.3507709503173828,
+      "step": 6100
+    },
+    {
+      "epoch": 30.98227848101266,
+      "grad_norm": 177238.22636435836,
+      "learning_rate": 7.693513005327483e-08,
+      "logits/chosen": -2.0759382247924805,
+      "logits/rejected": -1.4708411693572998,
+      "logps/chosen": -28.522485733032227,
+      "logps/rejected": -573.73681640625,
+      "loss": 12017.775,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20944443345069885,
+      "rewards/margins": 0.5498504042625427,
+      "rewards/rejected": -0.34040600061416626,
+      "step": 6110
     }
   ],
   "logging_steps": 10,