cat-searcher commited on Jul 17

Commit

751615c

•

1 Parent(s): 6c3748b

Training in progress, epoch 26, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step5323/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5323/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5323/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5323/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5323/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5323/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5323/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5323/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5323/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5323/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5323/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5323/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5323/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5323/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5323/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5323/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +302 -2

last-checkpoint/global_step5323/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c45275e2a07c3fe2dc76fe6e73907bebea1979e93eb54798352d7b941cf43860
+size 2506176112

last-checkpoint/global_step5323/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:486f46a74f1844e305cc361999065e96a7130393dfebec4b0094877765872ebc
+size 2506176112

last-checkpoint/global_step5323/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9630faa6d05689defa38b0245a3f615a6c13341e19512728467a7e6575fede34
+size 2506176112

last-checkpoint/global_step5323/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8fa91b706403340f1aaefec6e03fdb9606f4a8f84a75804e9e367829c295894
+size 2506176112

last-checkpoint/global_step5323/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81d00ca697e99f080ab9958e2463d29675f6ed93f730eda018d9cd52e86ef7c8
+size 2506176112

last-checkpoint/global_step5323/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db1b65a00e71fbce09d38576aacce4e8c9153cab3f83e4cf23541a510e9a745d
+size 2506176112

last-checkpoint/global_step5323/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bdd9716daeac1afa3df409fdfeb053de9f6f4b7bbceb88edc67bb46fd92e0dc3
+size 2506176112

last-checkpoint/global_step5323/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70645d8170cbe47f99afdcbbb9279d5ae0713fcad4b1bd7153c7daa8a37c2bfe
+size 2506176112

last-checkpoint/global_step5323/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:99a3c57f997def78498996acd45f3920b4af0cb94fbc24f587cdf28bc39b9457
+size 85570

last-checkpoint/global_step5323/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:edc24fd6f74ecfb84bbc3c6dab05a7aae1274f2e9ad47abe5493c3e123553731
+size 85506

last-checkpoint/global_step5323/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7f1287a2d2a99286d11b9540bc49204134273c167db0a9d6edeaa44fa332572
+size 85506

last-checkpoint/global_step5323/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd2a202c58b8057221047d6237bc1f5ced77610d3f7c878014e2f8943c790e1c
+size 85506

last-checkpoint/global_step5323/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0047739a53f9cb0ef0b3055e1f63b9653f9b1ba899d37ed3957acd4e26e82e4c
+size 85506

last-checkpoint/global_step5323/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:24287a46a8f00f6e19d80c35a7b42b0aa65577e16a1b2b6768ab05f7fd9fe8ba
+size 85506

last-checkpoint/global_step5323/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d925e1f0f3cd831f0c87388c06efee756b87131f09b06b7b8071a926f1eceb94
+size 85506

last-checkpoint/global_step5323/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0af10b4e61e9e339c2ad41dbbee15d3e6bdf0944539c59256058631fe81b49bd
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step5126~~


1	+ global_step5323

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab3b8a6a1f14b87eddcd6889e77ca358471e584db04f6d14f50ce0ca4a94e8e2
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:48e3dca496abe618138acc972547a2585aebd68888a0188157e082fac3e57ec8
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e312815d6589c577d3a29d19ba5e8956d7c9080646ba7b35c3708e364eb8f55
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:37ec3ac44a0c33cccc1363b0aaa3a4e381f89d397a266fbd331b9600bb0caba6
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9dd0b885528e55ec25b01a487faef7810481e858198ac24b76aedb3688770c06
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c49abc3bdedbec1fc8e1028ef422150f19ee7470d7b542e1ad8869fc044d2af
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a451e60f451c0ed06e4b0d619be9f7981c5af29ba16d797996e102e4d1fd7514
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:df12ca4106ff0831785a55b5da88f6c86f6f67bd3d09b2dced4f20b539b14f72
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff4027794d1d9c71e13291169d32d384e8f6078c931f43db354471cbc57d8639
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:05fc0786faff729a3a1582f98b806b68d4f0b76aebb25cbad4431b73176b11c1
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40925f5ac9883b8dfe22197d58f18429503331adeff91ce58e72d56b5094171a
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3117e1218a2dd3f7f8c516a840af48f6b93660d852cca124269f78c21f8577c
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0890e080f98bcfb81036d2db959cc45209e8c2f67a0dccde184473488395153
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdaa30c82476bf6a65e4eb9ca2ae7b95f1b38f41a6f5b2f1cbdda9af86a4a7a0
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8e4b714cb76d14f84bc59d5d9ba706908caddc95de8f17bfbeb87cbce486cb3
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:09cdde6931807139efa184e8a98108b74bb05730bc511336966b254b68dc93ee
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5c095f0a000582673860ef2dcfa50f1ba3d6bf9b31cb0a66349b60d581ecbe3
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a2268136932c55b3857d38c7cf3fc4bd3cdad532c156b9addebc6d26374374a
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e625b7623f260d65cb1001beba6e4d0df9ed61b3f496d3e767f280a6b73cde8
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:56cd9a502015b79e0ab94c92a04bd96c99aaf79ef8d64bf81d81eb702c10c2a8
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d2a6611856f3b4f599b410c5f2fa04b4cd6d782a4bd921f15735728fc381869d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdf59f6709e5846ccbaea01389f6f540264ed11dfc9a9817626a436b27c277a6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 26.0,
   "eval_steps": 100,
-  "global_step": 5126,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7702,6 +7702,306 @@
       "rewards/margins": 0.5664650797843933,
       "rewards/rejected": -0.3456335663795471,
       "step": 5120
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 26.99746835443038,
   "eval_steps": 100,
+  "global_step": 5323,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.5664650797843933,
       "rewards/rejected": -0.3456335663795471,
       "step": 5120
+    },
+    {
+      "epoch": 26.020253164556962,
+      "grad_norm": 437459.9001544906,
+      "learning_rate": 1.537135694139768e-07,
+      "logits/chosen": -1.4238073825836182,
+      "logits/rejected": -1.5467934608459473,
+      "logps/chosen": -32.6416015625,
+      "logps/rejected": -585.3292236328125,
+      "loss": 12902.432,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.2033694088459015,
+      "rewards/margins": 0.5521097779273987,
+      "rewards/rejected": -0.3487403094768524,
+      "step": 5130
+    },
+    {
+      "epoch": 26.070886075949367,
+      "grad_norm": 461726.55326627713,
+      "learning_rate": 1.529301159511125e-07,
+      "logits/chosen": -1.0017569065093994,
+      "logits/rejected": -0.677699089050293,
+      "logps/chosen": -33.68021011352539,
+      "logps/rejected": -586.3854370117188,
+      "loss": 12206.9266,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20325596630573273,
+      "rewards/margins": 0.5559948682785034,
+      "rewards/rejected": -0.35273900628089905,
+      "step": 5140
+    },
+    {
+      "epoch": 26.121518987341773,
+      "grad_norm": 223445.63437535468,
+      "learning_rate": 1.521466624882482e-07,
+      "logits/chosen": -1.4141124486923218,
+      "logits/rejected": -0.6017986536026001,
+      "logps/chosen": -29.84651756286621,
+      "logps/rejected": -580.4603271484375,
+      "loss": 12104.9586,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20142440497875214,
+      "rewards/margins": 0.5523154139518738,
+      "rewards/rejected": -0.35089102387428284,
+      "step": 5150
+    },
+    {
+      "epoch": 26.172151898734178,
+      "grad_norm": 232119.6879833388,
+      "learning_rate": 1.5136320902538388e-07,
+      "logits/chosen": -0.7647647857666016,
+      "logits/rejected": -0.6229702830314636,
+      "logps/chosen": -34.456138610839844,
+      "logps/rejected": -574.6653442382812,
+      "loss": 12524.6094,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.2094695270061493,
+      "rewards/margins": 0.539394199848175,
+      "rewards/rejected": -0.32992464303970337,
+      "step": 5160
+    },
+    {
+      "epoch": 26.222784810126583,
+      "grad_norm": 478076.71264027077,
+      "learning_rate": 1.5057975556251958e-07,
+      "logits/chosen": -2.230821132659912,
+      "logits/rejected": -2.297372579574585,
+      "logps/chosen": -29.98971176147461,
+      "logps/rejected": -588.6803588867188,
+      "loss": 12188.2758,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.21123230457305908,
+      "rewards/margins": 0.5585904121398926,
+      "rewards/rejected": -0.3473580479621887,
+      "step": 5170
+    },
+    {
+      "epoch": 26.27341772151899,
+      "grad_norm": 287477.38205394626,
+      "learning_rate": 1.4979630209965526e-07,
+      "logits/chosen": 0.2648393511772156,
+      "logits/rejected": 1.2140284776687622,
+      "logps/chosen": -26.058353424072266,
+      "logps/rejected": -575.137939453125,
+      "loss": 13004.7297,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20219556987285614,
+      "rewards/margins": 0.5560811758041382,
+      "rewards/rejected": -0.35388559103012085,
+      "step": 5180
+    },
+    {
+      "epoch": 26.324050632911394,
+      "grad_norm": 448400.95809014083,
+      "learning_rate": 1.4901284863679097e-07,
+      "logits/chosen": -0.47244685888290405,
+      "logits/rejected": 0.34987983107566833,
+      "logps/chosen": -47.41560745239258,
+      "logps/rejected": -588.7420654296875,
+      "loss": 12302.9594,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20305314660072327,
+      "rewards/margins": 0.5488015413284302,
+      "rewards/rejected": -0.3457483947277069,
+      "step": 5190
+    },
+    {
+      "epoch": 26.374683544303796,
+      "grad_norm": 290914.6200870196,
+      "learning_rate": 1.4822939517392665e-07,
+      "logits/chosen": -1.5243618488311768,
+      "logits/rejected": -0.6017967462539673,
+      "logps/chosen": -33.99588394165039,
+      "logps/rejected": -590.6222534179688,
+      "loss": 12878.768,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20388083159923553,
+      "rewards/margins": 0.5592610836029053,
+      "rewards/rejected": -0.35538023710250854,
+      "step": 5200
+    },
+    {
+      "epoch": 26.4253164556962,
+      "grad_norm": 715122.6528862711,
+      "learning_rate": 1.4744594171106235e-07,
+      "logits/chosen": -1.3308216333389282,
+      "logits/rejected": -1.0356947183609009,
+      "logps/chosen": -29.031147003173828,
+      "logps/rejected": -595.821533203125,
+      "loss": 12466.6016,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.212965726852417,
+      "rewards/margins": 0.5688080191612244,
+      "rewards/rejected": -0.3558422923088074,
+      "step": 5210
+    },
+    {
+      "epoch": 26.475949367088607,
+      "grad_norm": 266006.16874610144,
+      "learning_rate": 1.4666248824819803e-07,
+      "logits/chosen": -0.2248738706111908,
+      "logits/rejected": 0.37806427478790283,
+      "logps/chosen": -35.31621551513672,
+      "logps/rejected": -578.3462524414062,
+      "loss": 12517.1375,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20571331679821014,
+      "rewards/margins": 0.5493656396865845,
+      "rewards/rejected": -0.3436523675918579,
+      "step": 5220
+    },
+    {
+      "epoch": 26.526582278481012,
+      "grad_norm": 296131.0633758982,
+      "learning_rate": 1.4587903478533377e-07,
+      "logits/chosen": -3.198024272918701,
+      "logits/rejected": -2.1562371253967285,
+      "logps/chosen": -24.365009307861328,
+      "logps/rejected": -589.4319458007812,
+      "loss": 12258.343,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2150738686323166,
+      "rewards/margins": 0.5671111345291138,
+      "rewards/rejected": -0.352037250995636,
+      "step": 5230
+    },
+    {
+      "epoch": 26.577215189873417,
+      "grad_norm": 310894.2430575026,
+      "learning_rate": 1.4509558132246945e-07,
+      "logits/chosen": 1.5686824321746826,
+      "logits/rejected": 1.7765287160873413,
+      "logps/chosen": -25.171403884887695,
+      "logps/rejected": -559.4937744140625,
+      "loss": 13451.6969,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.18740372359752655,
+      "rewards/margins": 0.5345771312713623,
+      "rewards/rejected": -0.3471735119819641,
+      "step": 5240
+    },
+    {
+      "epoch": 26.627848101265823,
+      "grad_norm": 273385.34239455353,
+      "learning_rate": 1.4431212785960515e-07,
+      "logits/chosen": 0.779743492603302,
+      "logits/rejected": 0.5761479139328003,
+      "logps/chosen": -24.774072647094727,
+      "logps/rejected": -552.44775390625,
+      "loss": 13444.4844,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1935535967350006,
+      "rewards/margins": 0.5272840857505798,
+      "rewards/rejected": -0.3337305188179016,
+      "step": 5250
+    },
+    {
+      "epoch": 26.678481012658228,
+      "grad_norm": 292701.1225306038,
+      "learning_rate": 1.4352867439674083e-07,
+      "logits/chosen": -2.055417060852051,
+      "logits/rejected": -1.5558016300201416,
+      "logps/chosen": -34.77043151855469,
+      "logps/rejected": -578.9781494140625,
+      "loss": 12698.0,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20298035442829132,
+      "rewards/margins": 0.543838381767273,
+      "rewards/rejected": -0.3408580422401428,
+      "step": 5260
+    },
+    {
+      "epoch": 26.729113924050633,
+      "grad_norm": 274251.20733361214,
+      "learning_rate": 1.4274522093387654e-07,
+      "logits/chosen": -0.7560523152351379,
+      "logits/rejected": -0.4179345667362213,
+      "logps/chosen": -35.23884201049805,
+      "logps/rejected": -578.6085815429688,
+      "loss": 12311.3711,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.19854024052619934,
+      "rewards/margins": 0.5389177799224854,
+      "rewards/rejected": -0.3403775095939636,
+      "step": 5270
+    },
+    {
+      "epoch": 26.77974683544304,
+      "grad_norm": 540941.0207588519,
+      "learning_rate": 1.4196176747101222e-07,
+      "logits/chosen": -2.318772792816162,
+      "logits/rejected": -2.123133420944214,
+      "logps/chosen": -32.09846878051758,
+      "logps/rejected": -575.356201171875,
+      "loss": 12401.8453,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.2020426243543625,
+      "rewards/margins": 0.5411572456359863,
+      "rewards/rejected": -0.33911454677581787,
+      "step": 5280
+    },
+    {
+      "epoch": 26.830379746835444,
+      "grad_norm": 441696.9404493494,
+      "learning_rate": 1.4117831400814792e-07,
+      "logits/chosen": -2.1685147285461426,
+      "logits/rejected": -1.5242393016815186,
+      "logps/chosen": -22.024688720703125,
+      "logps/rejected": -543.53076171875,
+      "loss": 13786.8516,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1891135424375534,
+      "rewards/margins": 0.523938775062561,
+      "rewards/rejected": -0.33482515811920166,
+      "step": 5290
+    },
+    {
+      "epoch": 26.88101265822785,
+      "grad_norm": 328168.9416709712,
+      "learning_rate": 1.403948605452836e-07,
+      "logits/chosen": -2.390831708908081,
+      "logits/rejected": -1.6773532629013062,
+      "logps/chosen": -37.75607681274414,
+      "logps/rejected": -572.0828247070312,
+      "loss": 13110.5859,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.20247995853424072,
+      "rewards/margins": 0.539789617061615,
+      "rewards/rejected": -0.33730968832969666,
+      "step": 5300
+    },
+    {
+      "epoch": 26.931645569620255,
+      "grad_norm": 342604.3694047161,
+      "learning_rate": 1.396114070824193e-07,
+      "logits/chosen": -0.8812211751937866,
+      "logits/rejected": -0.7407415509223938,
+      "logps/chosen": -31.870285034179688,
+      "logps/rejected": -576.1883544921875,
+      "loss": 12753.4875,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2047419548034668,
+      "rewards/margins": 0.5459688901901245,
+      "rewards/rejected": -0.3412269353866577,
+      "step": 5310
+    },
+    {
+      "epoch": 26.98227848101266,
+      "grad_norm": 327636.2077886267,
+      "learning_rate": 1.38827953619555e-07,
+      "logits/chosen": -1.1729528903961182,
+      "logits/rejected": -0.7522214651107788,
+      "logps/chosen": -41.73408508300781,
+      "logps/rejected": -603.9337158203125,
+      "loss": 11920.0102,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.22109094262123108,
+      "rewards/margins": 0.5666243433952332,
+      "rewards/rejected": -0.3455334007740021,
+      "step": 5320
     }
   ],
   "logging_steps": 10,