cat-searcher commited on Jul 17, 2024

Commit

1e90ce9

verified ·

1 Parent(s): d066457

Training in progress, epoch 22, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step4533/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4533/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4533/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4533/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4533/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4533/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4533/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4533/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step4533/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step4533/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step4533/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step4533/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step4533/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step4533/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step4533/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step4533/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +302 -2

last-checkpoint/global_step4533/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67fe3bbb691c976edec39fc9edffbb6b2cf820e02c17331efddc8fa4ac7dee36
+size 2506176112

last-checkpoint/global_step4533/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2526a90420c32897527f16232eadadc8198f30539e7b9603db4e3095336a4bac
+size 2506176112

last-checkpoint/global_step4533/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f996c91286c656d7c1d15b4586136bf69bf32b8fe12fcfae3c6230229b575d0
+size 2506176112

last-checkpoint/global_step4533/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01a748747c27beba355539bbe7761cb736a916c3ec59fcb7d13bf0c4de8ebf81
+size 2506176112

last-checkpoint/global_step4533/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6412c6d17d8e7a9916cb406210b3c1c66750e850f003a5d060d9cc96a9c416b2
+size 2506176112

last-checkpoint/global_step4533/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fc696da83cf3e9de2ddb484e0bfba72cab42bd7855b4280d903b74516e38a7b3
+size 2506176112

last-checkpoint/global_step4533/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7db4e8b975b1ebb83514b08dddacfb6f12b9b5cac0438d166f59e6d5dc20147c
+size 2506176112

last-checkpoint/global_step4533/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6181d650cdedc38d18bf685928c50089fad739e9605d67fdc07d4333840594d2
+size 2506176112

last-checkpoint/global_step4533/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aad6cf1e90722aa0bded9997f432975f9ac26246c04c133866fd46a50a3a486f
+size 85570

last-checkpoint/global_step4533/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd4a1345616e6896e2de6e8fcd0ca3739f245412a6f54e02cfeebffb6a198bfb
+size 85506

last-checkpoint/global_step4533/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bdd3016ed6fe1eacc8c1cabc3b7f91cde643ba6e2c010cfbd4178c073605c763
+size 85506

last-checkpoint/global_step4533/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:40298aaeb4130d9e00dbbd161f7627bf1dbcea3137aec363457f42485c0cc4ea
+size 85506

last-checkpoint/global_step4533/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4251ba385bb1157c4aaeead83fb9f7731efc285227f30464563868151c914d6f
+size 85506

last-checkpoint/global_step4533/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9fadbb60dc81290ffb98ff71ce4da2ba824de319edc1a076297ed87cb8c65003
+size 85506

last-checkpoint/global_step4533/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b8149b7336b4255d3b4ec501fa71066f28d3daedfe26d40e2af38a4353fbbc4
+size 85506

last-checkpoint/global_step4533/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c6345bbc9be12cb5ac4a597dbc0740ee29c21bee3e5fd186dc3a3d3abfb4948
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step4336~~


1	+ global_step4533

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da6a4c69beed061f5c9128d0fc377ffac0dd574b2fd31065d9fac99fd04c06f7
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:5749e6ea106dcd62f8a5403e9ab2697a968659c99e52d97cf37770a6dcf0de89
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a92fd02d10813ce3cef6dbcbb14b9a87a8544f0439ddb53aa479c171a1393b3a
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9913d4ed78dfdf1f7884966d3d5a627d1a427e9dfd802c854f7139effd18d42
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ffbd38f2626212a6ee67166039a4e916fc424a3ef78a112b81ecba34404f3d1
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f43f0f70b0dbcc678819df90ae1498097a1a40b141c1b3634f47415b4753e46
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:761cc4f38afe955241d2348fca72dd9656d9ebe889e2a62241d58bd4bc402ab3
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:6fea0bf58d3a4bfd4cd6e77b671fd76d0f08457d71ef115ed0b7a79d932ccecb
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df49e54f3e60ca7b97616f5b3ec776cb88dd34df15356bfe0565e073195eabb5
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:485de881ac346a0d6293f173c620168e2c1c78bb56e9d35b719fe68b9599381c
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a34a02b568d14f0c9040613f420faf5a53edb4c287e30c4c7c5812d2c661932
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb3995c042fb6720f0e6292f2cdbc61899166b759822de9794a63f951332b53d
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbb893a42ae156daa2dddcfcf2ef773c576ec3c274aaf9e5a216bd1d659a190b
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:1dc5d0e51cb62121ef22456f6c04b602c2ee63280f1aa9215b5f6ca9ffd945a1
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b966d4dca42c479a7d82dd6ce6a32209ee7e19048adffff6ca6d5cbfafe89c52
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:aaf6f7a95413d841f5781a52bd24e6916b171c6b1eae7a534a1e53e4a4d75dda
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfdec22eeccd05416d2a00acd09a775df394351b2aa4e3b1d32df8f7f4a8b07f
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8b59e0c70f333ceeb5e4b4cd778af69cd56a780cd649d81f2b1589c1edb774f
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89e852c764f530a6e44842564809b78387dfa34f7ec6fcece34742866c5d452e
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab4acc6cc8c266eed2b1e03455904bdc72f90eae6636da6366d4a9d998a1c278
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a4a381db01b95441bf8a0f5bad46ab9935674f44c9e22dc758217b09cacfca8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9d43ad6dc2ceca1f9dc036c87b7f18db786223a3aca759dd3644262f6faf9977
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 22.0,
   "eval_steps": 100,
-  "global_step": 4336,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6517,6 +6517,306 @@
       "rewards/margins": 0.5605840086936951,
       "rewards/rejected": -0.35054340958595276,
       "step": 4330
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 22.99746835443038,
   "eval_steps": 100,
+  "global_step": 4533,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.5605840086936951,
       "rewards/rejected": -0.35054340958595276,
       "step": 4330
+    },
+    {
+      "epoch": 22.020253164556962,
+      "grad_norm": 844000.7864919893,
+      "learning_rate": 2.1560639298025696e-07,
+      "logits/chosen": -0.2103087455034256,
+      "logits/rejected": 0.07530391216278076,
+      "logps/chosen": -30.565990447998047,
+      "logps/rejected": -547.0203857421875,
+      "loss": 14383.6906,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1880597323179245,
+      "rewards/margins": 0.5152319073677063,
+      "rewards/rejected": -0.3271721601486206,
+      "step": 4340
+    },
+    {
+      "epoch": 22.070886075949367,
+      "grad_norm": 597784.613899612,
+      "learning_rate": 2.1482293951739267e-07,
+      "logits/chosen": -0.721124529838562,
+      "logits/rejected": -0.21510323882102966,
+      "logps/chosen": -37.94996643066406,
+      "logps/rejected": -587.461181640625,
+      "loss": 13822.8656,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.19957685470581055,
+      "rewards/margins": 0.5496448278427124,
+      "rewards/rejected": -0.3500679135322571,
+      "step": 4350
+    },
+    {
+      "epoch": 22.121518987341773,
+      "grad_norm": 468430.91971069,
+      "learning_rate": 2.1403948605452835e-07,
+      "logits/chosen": -1.418505072593689,
+      "logits/rejected": -0.8604210019111633,
+      "logps/chosen": -38.54343795776367,
+      "logps/rejected": -585.6038818359375,
+      "loss": 13499.3969,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.2021259367465973,
+      "rewards/margins": 0.5458530187606812,
+      "rewards/rejected": -0.34372708201408386,
+      "step": 4360
+    },
+    {
+      "epoch": 22.172151898734178,
+      "grad_norm": 838303.6265575557,
+      "learning_rate": 2.1325603259166405e-07,
+      "logits/chosen": -0.013787698931992054,
+      "logits/rejected": -0.22224357724189758,
+      "logps/chosen": -33.32988357543945,
+      "logps/rejected": -576.55224609375,
+      "loss": 13816.5812,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1937212496995926,
+      "rewards/margins": 0.5373150110244751,
+      "rewards/rejected": -0.3435937762260437,
+      "step": 4370
+    },
+    {
+      "epoch": 22.222784810126583,
+      "grad_norm": 524213.07765733794,
+      "learning_rate": 2.1247257912879973e-07,
+      "logits/chosen": 0.3687540888786316,
+      "logits/rejected": 0.8078397512435913,
+      "logps/chosen": -38.822872161865234,
+      "logps/rejected": -553.8123168945312,
+      "loss": 12435.0875,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.18458959460258484,
+      "rewards/margins": 0.5130779147148132,
+      "rewards/rejected": -0.32848840951919556,
+      "step": 4380
+    },
+    {
+      "epoch": 22.27341772151899,
+      "grad_norm": 476932.283051178,
+      "learning_rate": 2.1168912566593544e-07,
+      "logits/chosen": 0.6524232029914856,
+      "logits/rejected": 0.6763177514076233,
+      "logps/chosen": -41.4456901550293,
+      "logps/rejected": -586.055419921875,
+      "loss": 14132.7062,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.20029637217521667,
+      "rewards/margins": 0.5451359152793884,
+      "rewards/rejected": -0.34483957290649414,
+      "step": 4390
+    },
+    {
+      "epoch": 22.324050632911394,
+      "grad_norm": 568972.1382617814,
+      "learning_rate": 2.1090567220307112e-07,
+      "logits/chosen": -0.3675435781478882,
+      "logits/rejected": 0.2508888840675354,
+      "logps/chosen": -37.127281188964844,
+      "logps/rejected": -571.7310180664062,
+      "loss": 13226.8641,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.19992589950561523,
+      "rewards/margins": 0.5378109812736511,
+      "rewards/rejected": -0.33788514137268066,
+      "step": 4400
+    },
+    {
+      "epoch": 22.374683544303796,
+      "grad_norm": 549953.3378298564,
+      "learning_rate": 2.1012221874020682e-07,
+      "logits/chosen": -0.3316110372543335,
+      "logits/rejected": 0.12318412959575653,
+      "logps/chosen": -45.176429748535156,
+      "logps/rejected": -601.1099243164062,
+      "loss": 13357.3594,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2056044340133667,
+      "rewards/margins": 0.5584502220153809,
+      "rewards/rejected": -0.35284581780433655,
+      "step": 4410
+    },
+    {
+      "epoch": 22.4253164556962,
+      "grad_norm": 487398.89046152594,
+      "learning_rate": 2.093387652773425e-07,
+      "logits/chosen": -1.0198824405670166,
+      "logits/rejected": -0.21292218565940857,
+      "logps/chosen": -36.835960388183594,
+      "logps/rejected": -577.4632568359375,
+      "loss": 13915.3031,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20356829464435577,
+      "rewards/margins": 0.543707013130188,
+      "rewards/rejected": -0.3401387631893158,
+      "step": 4420
+    },
+    {
+      "epoch": 22.475949367088607,
+      "grad_norm": 477361.2573301333,
+      "learning_rate": 2.085553118144782e-07,
+      "logits/chosen": 0.3704206943511963,
+      "logits/rejected": 0.693733811378479,
+      "logps/chosen": -46.64609146118164,
+      "logps/rejected": -594.5731811523438,
+      "loss": 13106.9359,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20661070942878723,
+      "rewards/margins": 0.5531338453292847,
+      "rewards/rejected": -0.34652310609817505,
+      "step": 4430
+    },
+    {
+      "epoch": 22.526582278481012,
+      "grad_norm": 597606.9724370906,
+      "learning_rate": 2.077718583516139e-07,
+      "logits/chosen": -0.6012102365493774,
+      "logits/rejected": -0.6212292909622192,
+      "logps/chosen": -36.24720001220703,
+      "logps/rejected": -570.0081787109375,
+      "loss": 13390.8625,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20318233966827393,
+      "rewards/margins": 0.5344886779785156,
+      "rewards/rejected": -0.3313063085079193,
+      "step": 4440
+    },
+    {
+      "epoch": 22.577215189873417,
+      "grad_norm": 469529.248927815,
+      "learning_rate": 2.069884048887496e-07,
+      "logits/chosen": -0.041382573544979095,
+      "logits/rejected": 0.7878470420837402,
+      "logps/chosen": -43.38654708862305,
+      "logps/rejected": -568.7279052734375,
+      "loss": 13333.4188,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.19029700756072998,
+      "rewards/margins": 0.5311275124549866,
+      "rewards/rejected": -0.3408304750919342,
+      "step": 4450
+    },
+    {
+      "epoch": 22.627848101265823,
+      "grad_norm": 402623.00766789017,
+      "learning_rate": 2.0620495142588527e-07,
+      "logits/chosen": -0.8500850796699524,
+      "logits/rejected": 0.10065221786499023,
+      "logps/chosen": -31.52435302734375,
+      "logps/rejected": -562.478271484375,
+      "loss": 13787.8797,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1997881382703781,
+      "rewards/margins": 0.5369755029678345,
+      "rewards/rejected": -0.33718740940093994,
+      "step": 4460
+    },
+    {
+      "epoch": 22.678481012658228,
+      "grad_norm": 373755.1797101064,
+      "learning_rate": 2.05421497963021e-07,
+      "logits/chosen": -1.3291960954666138,
+      "logits/rejected": -1.2023630142211914,
+      "logps/chosen": -34.12505340576172,
+      "logps/rejected": -600.3700561523438,
+      "loss": 13297.9406,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20627860724925995,
+      "rewards/margins": 0.5676389336585999,
+      "rewards/rejected": -0.3613602817058563,
+      "step": 4470
+    },
+    {
+      "epoch": 22.729113924050633,
+      "grad_norm": 402761.92027776636,
+      "learning_rate": 2.0463804450015669e-07,
+      "logits/chosen": -1.5893421173095703,
+      "logits/rejected": -1.3823096752166748,
+      "logps/chosen": -30.61318588256836,
+      "logps/rejected": -584.5267944335938,
+      "loss": 14326.1875,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20079275965690613,
+      "rewards/margins": 0.5540488958358765,
+      "rewards/rejected": -0.35325610637664795,
+      "step": 4480
+    },
+    {
+      "epoch": 22.77974683544304,
+      "grad_norm": 547067.5872175789,
+      "learning_rate": 2.038545910372924e-07,
+      "logits/chosen": 0.4800703525543213,
+      "logits/rejected": 1.4792516231536865,
+      "logps/chosen": -27.049495697021484,
+      "logps/rejected": -563.0673217773438,
+      "loss": 14447.3891,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.19703736901283264,
+      "rewards/margins": 0.5409034490585327,
+      "rewards/rejected": -0.3438660502433777,
+      "step": 4490
+    },
+    {
+      "epoch": 22.830379746835444,
+      "grad_norm": 672757.480231201,
+      "learning_rate": 2.0307113757442807e-07,
+      "logits/chosen": 0.13832028210163116,
+      "logits/rejected": 0.6534411907196045,
+      "logps/chosen": -48.682350158691406,
+      "logps/rejected": -608.1444091796875,
+      "loss": 13146.0031,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20029571652412415,
+      "rewards/margins": 0.5563368797302246,
+      "rewards/rejected": -0.35604116320610046,
+      "step": 4500
+    },
+    {
+      "epoch": 22.88101265822785,
+      "grad_norm": 369986.02432868385,
+      "learning_rate": 2.0228768411156378e-07,
+      "logits/chosen": -1.8307338953018188,
+      "logits/rejected": -1.2095929384231567,
+      "logps/chosen": -45.19769287109375,
+      "logps/rejected": -578.0750122070312,
+      "loss": 14329.1656,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1950627863407135,
+      "rewards/margins": 0.5377144813537598,
+      "rewards/rejected": -0.3426516652107239,
+      "step": 4510
+    },
+    {
+      "epoch": 22.931645569620255,
+      "grad_norm": 699107.7543808775,
+      "learning_rate": 2.0150423064869946e-07,
+      "logits/chosen": -0.08685462176799774,
+      "logits/rejected": 0.9019424319267273,
+      "logps/chosen": -45.735721588134766,
+      "logps/rejected": -577.2432861328125,
+      "loss": 13698.3734,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.19573049247264862,
+      "rewards/margins": 0.5354525446891785,
+      "rewards/rejected": -0.33972200751304626,
+      "step": 4520
+    },
+    {
+      "epoch": 22.98227848101266,
+      "grad_norm": 406293.788277243,
+      "learning_rate": 2.0072077718583516e-07,
+      "logits/chosen": -0.8599483370780945,
+      "logits/rejected": 0.11351003497838974,
+      "logps/chosen": -26.267419815063477,
+      "logps/rejected": -555.6368408203125,
+      "loss": 13659.9219,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.19417151808738708,
+      "rewards/margins": 0.5340765714645386,
+      "rewards/rejected": -0.3399050235748291,
+      "step": 4530
     }
   ],
   "logging_steps": 10,