cat-searcher commited on Jul 17, 2024

Commit

81fd0d3

verified ·

1 Parent(s): 4c91759

Training in progress, epoch 26, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step5126/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5126/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5126/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5126/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5126/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5126/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5126/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5126/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5126/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5126/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5126/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5126/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5126/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5126/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5126/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step5126/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +302 -2

last-checkpoint/global_step5126/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1af7760daa4102e118869727094ce0fbf14cf0ed307b27fd7a19ff85ef1ed21a
+size 2506176112

last-checkpoint/global_step5126/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f498a49895cf5e7427cb08addc7237919bba4b494e4662f68bc79562db491a54
+size 2506176112

last-checkpoint/global_step5126/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d45eede1b9dad005d98db27ce0db0913175175b92663cfb4f85bc45dbbd00604
+size 2506176112

last-checkpoint/global_step5126/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d0a86fae62a16d1e788480421c675f660b32f41088a78a07cbb65a4e0e0721e
+size 2506176112

last-checkpoint/global_step5126/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86b033a977f0b9eb6e7524d3438e660be4cc3b071d1627f09f533fada7ecba6f
+size 2506176112

last-checkpoint/global_step5126/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93294787dbeb15413656d5ca75de1498bf9416ab80efbe381f748bf0a5dddb26
+size 2506176112

last-checkpoint/global_step5126/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d64b3b706fcc9670bc87aac98540dfdeb1369cd862a5c7efc91bafd9adb9ddc
+size 2506176112

last-checkpoint/global_step5126/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a41f3667f22c201d6f34a6995bb4c823becbc8bc45386074e697c4c504432fc4
+size 2506176112

last-checkpoint/global_step5126/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8bcb70e44e7823fcf90a769bebf9d9d9c0c233dea2cf642f794df31a267f9758
+size 85570

last-checkpoint/global_step5126/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:793e32b15b99418321ce219dea2352f549f719604f1948e75215f5e62bafd89f
+size 85506

last-checkpoint/global_step5126/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d0cc4a5d3e2a700f6e59eeb9a0579057dfcd2067f6c2f9ea7a773b80af5754cd
+size 85506

last-checkpoint/global_step5126/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d98445b970e33eaa6fc846e2436e367d24db4520657bd50ab1a5b68db45d68b8
+size 85506

last-checkpoint/global_step5126/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db6597a5de591d9c3267ff18a867dbf2c93a54584fea066482d5d0e8de144cc0
+size 85506

last-checkpoint/global_step5126/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b04cc0713b1195e919fe4270b38c3b6768391ade8ecda5dd8cfc4d3c2f70819
+size 85506

last-checkpoint/global_step5126/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74c99032ceba04a67c3ac793f3988d89e77588a122bb311d2d8386335b393870
+size 85506

last-checkpoint/global_step5126/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01a554fb7d11eb9dd4af7f666dbc86ec128b8514437d01f2b93b6201745af5d9
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step4928~~


1	+ global_step5126

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9da2b7dcfa00a88a71ba39f69087d6c106b9fc3502f080f4fdf0c95ba7f0232
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab3b8a6a1f14b87eddcd6889e77ca358471e584db04f6d14f50ce0ca4a94e8e2
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66272c39e510a03fae4a8b8c2051165d69a38abcede58508cbcdf95984247125
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e312815d6589c577d3a29d19ba5e8956d7c9080646ba7b35c3708e364eb8f55
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6118faeaee4fdfaa13ac70fa72cfa116964f5a3b96fac7723d08df58a38b397c
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:9dd0b885528e55ec25b01a487faef7810481e858198ac24b76aedb3688770c06
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4dfa684751cc5b0d0c6c20837671c3f615d1dea15a14f377cd3f328d98685be6
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a451e60f451c0ed06e4b0d619be9f7981c5af29ba16d797996e102e4d1fd7514
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6288d8200e463b5ae8ad06a62ffa8cc379f48c86fd01515a13181f976efa71a
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff4027794d1d9c71e13291169d32d384e8f6078c931f43db354471cbc57d8639
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd3d0484a9201a8efbd51326113ef6b44a0b272cfa40529d39c56a9d67deac8e
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:40925f5ac9883b8dfe22197d58f18429503331adeff91ce58e72d56b5094171a
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:426c6fc3fcaae6fad4fdb83d268d91ed94e3e0e88bed483e185a78e86a9692b3
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0890e080f98bcfb81036d2db959cc45209e8c2f67a0dccde184473488395153
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d089430782ecc3b7446f527601b569a4990fdd9f8d96c18c87dc8d503cbdb70
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8e4b714cb76d14f84bc59d5d9ba706908caddc95de8f17bfbeb87cbce486cb3
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b61f73069ccc96351c7253c2334d20c170e92750457b685c9d79286d288292e9
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5c095f0a000582673860ef2dcfa50f1ba3d6bf9b31cb0a66349b60d581ecbe3
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e70ddcc8f9ba6c0be1ac8d1ba2f06e8a4253e0a843f3a263a85c073416ca948d
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e625b7623f260d65cb1001beba6e4d0df9ed61b3f496d3e767f280a6b73cde8
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc0dea9c7426022052c6904d669ed6537aacbe6f69c00de710577f64daa74c6b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2a6611856f3b4f599b410c5f2fa04b4cd6d782a4bd921f15735728fc381869d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 24.99746835443038,
   "eval_steps": 100,
-  "global_step": 4928,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7402,6 +7402,306 @@
       "rewards/margins": 0.5547462701797485,
       "rewards/rejected": -0.3539626896381378,
       "step": 4920
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 26.0,
   "eval_steps": 100,
+  "global_step": 5126,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.5547462701797485,
       "rewards/rejected": -0.3539626896381378,
       "step": 4920
+    },
+    {
+      "epoch": 25.00759493670886,
+      "grad_norm": 308388.08709269366,
+      "learning_rate": 1.6938263867126293e-07,
+      "logits/chosen": -1.6532137393951416,
+      "logits/rejected": -1.572850227355957,
+      "logps/chosen": -41.12345886230469,
+      "logps/rejected": -613.5958862304688,
+      "loss": 12755.7383,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.21259479224681854,
+      "rewards/margins": 0.5684026479721069,
+      "rewards/rejected": -0.3558078408241272,
+      "step": 4930
+    },
+    {
+      "epoch": 25.058227848101264,
+      "grad_norm": 320761.03886897856,
+      "learning_rate": 1.685991852083986e-07,
+      "logits/chosen": -0.11034099757671356,
+      "logits/rejected": -0.06293153762817383,
+      "logps/chosen": -34.010704040527344,
+      "logps/rejected": -583.318359375,
+      "loss": 13300.3922,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.19742931425571442,
+      "rewards/margins": 0.5516862273216248,
+      "rewards/rejected": -0.35425692796707153,
+      "step": 4940
+    },
+    {
+      "epoch": 25.10886075949367,
+      "grad_norm": 282559.397671993,
+      "learning_rate": 1.6781573174553431e-07,
+      "logits/chosen": 0.5274404883384705,
+      "logits/rejected": 1.2507613897323608,
+      "logps/chosen": -29.299930572509766,
+      "logps/rejected": -554.8450927734375,
+      "loss": 12685.2523,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.19330081343650818,
+      "rewards/margins": 0.5271843671798706,
+      "rewards/rejected": -0.3338836431503296,
+      "step": 4950
+    },
+    {
+      "epoch": 25.159493670886075,
+      "grad_norm": 248533.31024359175,
+      "learning_rate": 1.6703227828267e-07,
+      "logits/chosen": -1.2484452724456787,
+      "logits/rejected": -0.5531445741653442,
+      "logps/chosen": -42.44970703125,
+      "logps/rejected": -591.9672241210938,
+      "loss": 12525.2,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20557789504528046,
+      "rewards/margins": 0.5516069531440735,
+      "rewards/rejected": -0.34602901339530945,
+      "step": 4960
+    },
+    {
+      "epoch": 25.21012658227848,
+      "grad_norm": 365840.3682606488,
+      "learning_rate": 1.662488248198057e-07,
+      "logits/chosen": -1.5047721862792969,
+      "logits/rejected": -1.5158735513687134,
+      "logps/chosen": -31.838958740234375,
+      "logps/rejected": -581.0045166015625,
+      "loss": 13041.882,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.201541468501091,
+      "rewards/margins": 0.5492666959762573,
+      "rewards/rejected": -0.3477252125740051,
+      "step": 4970
+    },
+    {
+      "epoch": 25.260759493670886,
+      "grad_norm": 364119.66442401055,
+      "learning_rate": 1.6546537135694138e-07,
+      "logits/chosen": -2.0333914756774902,
+      "logits/rejected": -2.0420191287994385,
+      "logps/chosen": -33.426788330078125,
+      "logps/rejected": -577.18212890625,
+      "loss": 13218.8875,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20231468975543976,
+      "rewards/margins": 0.5456961989402771,
+      "rewards/rejected": -0.3433815836906433,
+      "step": 4980
+    },
+    {
+      "epoch": 25.31139240506329,
+      "grad_norm": 434691.5380135347,
+      "learning_rate": 1.6468191789407709e-07,
+      "logits/chosen": -0.23437795042991638,
+      "logits/rejected": -0.03313719108700752,
+      "logps/chosen": -33.025386810302734,
+      "logps/rejected": -587.5833740234375,
+      "loss": 12003.9711,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.19747456908226013,
+      "rewards/margins": 0.553167998790741,
+      "rewards/rejected": -0.3556934595108032,
+      "step": 4990
+    },
+    {
+      "epoch": 25.362025316455696,
+      "grad_norm": 257881.6224659914,
+      "learning_rate": 1.6389846443121277e-07,
+      "logits/chosen": 1.229998230934143,
+      "logits/rejected": 1.8426265716552734,
+      "logps/chosen": -31.151538848876953,
+      "logps/rejected": -575.4852905273438,
+      "loss": 13412.7078,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1954251229763031,
+      "rewards/margins": 0.5429095029830933,
+      "rewards/rejected": -0.34748440980911255,
+      "step": 5000
+    },
+    {
+      "epoch": 25.4126582278481,
+      "grad_norm": 425285.73032920854,
+      "learning_rate": 1.6311501096834847e-07,
+      "logits/chosen": -1.241003155708313,
+      "logits/rejected": -0.7176898121833801,
+      "logps/chosen": -31.115795135498047,
+      "logps/rejected": -558.19873046875,
+      "loss": 13301.7094,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.19612053036689758,
+      "rewards/margins": 0.5247890949249268,
+      "rewards/rejected": -0.3286685347557068,
+      "step": 5010
+    },
+    {
+      "epoch": 25.463291139240507,
+      "grad_norm": 372695.4381119174,
+      "learning_rate": 1.6233155750548415e-07,
+      "logits/chosen": -1.8982555866241455,
+      "logits/rejected": -1.494901180267334,
+      "logps/chosen": -28.403858184814453,
+      "logps/rejected": -562.348388671875,
+      "loss": 13093.6797,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.203691765666008,
+      "rewards/margins": 0.5354448556900024,
+      "rewards/rejected": -0.33175310492515564,
+      "step": 5020
+    },
+    {
+      "epoch": 25.513924050632912,
+      "grad_norm": 291137.30920257524,
+      "learning_rate": 1.6154810404261986e-07,
+      "logits/chosen": -0.2861802577972412,
+      "logits/rejected": -0.4479186534881592,
+      "logps/chosen": -23.825702667236328,
+      "logps/rejected": -559.0096435546875,
+      "loss": 12589.4609,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1913156658411026,
+      "rewards/margins": 0.5378258228302002,
+      "rewards/rejected": -0.346510112285614,
+      "step": 5030
+    },
+    {
+      "epoch": 25.564556962025318,
+      "grad_norm": 273297.2570355529,
+      "learning_rate": 1.6076465057975556e-07,
+      "logits/chosen": -2.0077948570251465,
+      "logits/rejected": -1.546903371810913,
+      "logps/chosen": -34.178993225097656,
+      "logps/rejected": -599.1771240234375,
+      "loss": 12277.0906,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20620949566364288,
+      "rewards/margins": 0.5666217803955078,
+      "rewards/rejected": -0.36041226983070374,
+      "step": 5040
+    },
+    {
+      "epoch": 25.615189873417723,
+      "grad_norm": 287331.7702661688,
+      "learning_rate": 1.5998119711689127e-07,
+      "logits/chosen": -0.9829635620117188,
+      "logits/rejected": -0.3811960220336914,
+      "logps/chosen": -32.14269256591797,
+      "logps/rejected": -580.4415283203125,
+      "loss": 12507.3219,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20907440781593323,
+      "rewards/margins": 0.5523373484611511,
+      "rewards/rejected": -0.3432629406452179,
+      "step": 5050
+    },
+    {
+      "epoch": 25.665822784810125,
+      "grad_norm": 896554.0294317787,
+      "learning_rate": 1.5919774365402695e-07,
+      "logits/chosen": -1.3259598016738892,
+      "logits/rejected": -0.9525947570800781,
+      "logps/chosen": -25.666656494140625,
+      "logps/rejected": -573.1832885742188,
+      "loss": 12955.9469,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.19553272426128387,
+      "rewards/margins": 0.5421277284622192,
+      "rewards/rejected": -0.3465949594974518,
+      "step": 5060
+    },
+    {
+      "epoch": 25.71645569620253,
+      "grad_norm": 360559.08966435614,
+      "learning_rate": 1.5841429019116266e-07,
+      "logits/chosen": -2.50518536567688,
+      "logits/rejected": -2.6326870918273926,
+      "logps/chosen": -40.73974609375,
+      "logps/rejected": -598.9993896484375,
+      "loss": 13192.7609,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2110958993434906,
+      "rewards/margins": 0.559829592704773,
+      "rewards/rejected": -0.34873366355895996,
+      "step": 5070
+    },
+    {
+      "epoch": 25.767088607594935,
+      "grad_norm": 354200.8480985467,
+      "learning_rate": 1.5763083672829833e-07,
+      "logits/chosen": 0.24985246360301971,
+      "logits/rejected": 0.11640717834234238,
+      "logps/chosen": -30.384597778320312,
+      "logps/rejected": -595.9378662109375,
+      "loss": 13357.8156,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20246371626853943,
+      "rewards/margins": 0.5666370391845703,
+      "rewards/rejected": -0.3641732633113861,
+      "step": 5080
+    },
+    {
+      "epoch": 25.81772151898734,
+      "grad_norm": 419630.4907858681,
+      "learning_rate": 1.5684738326543404e-07,
+      "logits/chosen": -2.382422924041748,
+      "logits/rejected": -1.6780860424041748,
+      "logps/chosen": -32.89704132080078,
+      "logps/rejected": -596.2845458984375,
+      "loss": 13075.125,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20516617596149445,
+      "rewards/margins": 0.5647061467170715,
+      "rewards/rejected": -0.3595399558544159,
+      "step": 5090
+    },
+    {
+      "epoch": 25.868354430379746,
+      "grad_norm": 239893.19190802056,
+      "learning_rate": 1.5606392980256972e-07,
+      "logits/chosen": -1.5904518365859985,
+      "logits/rejected": -1.162544846534729,
+      "logps/chosen": -29.703998565673828,
+      "logps/rejected": -562.6304321289062,
+      "loss": 12907.7898,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1967582404613495,
+      "rewards/margins": 0.5360093116760254,
+      "rewards/rejected": -0.3392511010169983,
+      "step": 5100
+    },
+    {
+      "epoch": 25.91898734177215,
+      "grad_norm": 2769163.91672907,
+      "learning_rate": 1.5528047633970543e-07,
+      "logits/chosen": -0.4542008936405182,
+      "logits/rejected": 0.3750479519367218,
+      "logps/chosen": -40.263450622558594,
+      "logps/rejected": -569.8021240234375,
+      "loss": 12356.1203,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.19747862219810486,
+      "rewards/margins": 0.5331242680549622,
+      "rewards/rejected": -0.3356456160545349,
+      "step": 5110
+    },
+    {
+      "epoch": 25.969620253164557,
+      "grad_norm": 414959.45582905615,
+      "learning_rate": 1.544970228768411e-07,
+      "logits/chosen": -2.780273914337158,
+      "logits/rejected": -2.477725028991699,
+      "logps/chosen": -34.733909606933594,
+      "logps/rejected": -598.5794677734375,
+      "loss": 12866.1969,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.22083155810832977,
+      "rewards/margins": 0.5664650797843933,
+      "rewards/rejected": -0.3456335663795471,
+      "step": 5120
     }
   ],
   "logging_steps": 10,