cat-searcher commited on Jul 17

Commit

3cb495c

•

1 Parent(s): 4e1ff4b

Training in progress, epoch 16, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step3357/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3357/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3357/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3357/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3357/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3357/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3357/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3357/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3357/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step3357/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step3357/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step3357/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step3357/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step3357/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step3357/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step3357/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +287 -2

last-checkpoint/global_step3357/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:651dfd4d290244a1f1ed25e174745eeda53f83c1afd49bddb222769456acea8e
+size 2506176112

last-checkpoint/global_step3357/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:31f45441c5dddfa9aebb33d35dea7081c3fd19843f93ae43f1316128bcf7ecbd
+size 2506176112

last-checkpoint/global_step3357/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be22b35b5e310d4823197426b1cd8771c316b9b15fbb4942ab377e3613a0ca98
+size 2506176112

last-checkpoint/global_step3357/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:75b51b99bcd90701c6b97516470bcaab959b7e1922605d5890a31d2ba2f4d580
+size 2506176112

last-checkpoint/global_step3357/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aec2a04e08e7e35026b691693353bc8fe5847d81fb99acf19398b7243dee628c
+size 2506176112

last-checkpoint/global_step3357/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c13dfce78f2ac90a9157ad2f0abb21e59d1100da60be9db95d0a1f5336fc8209
+size 2506176112

last-checkpoint/global_step3357/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f14a7f3e1501454fd040e30452a51f1a851474905f426344fd8a832d6508ec23
+size 2506176112

last-checkpoint/global_step3357/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d72714ef0021f7b5e8d8ab77b07e3b29b0beef1ef3cb644ec965dc8a17226688
+size 2506176112

last-checkpoint/global_step3357/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:656172ce79b5ff43fd76cd8ecb27884c941e173e847c11f888c3e98ac9533316
+size 85570

last-checkpoint/global_step3357/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2ef4f048ceb531e6ef19e52e0fbde839db8f8fd1d12ef45f132d6f89f4f0145
+size 85506

last-checkpoint/global_step3357/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b68cedc957959ed2fd5ba36d094b0e6e389a7422983ed8d4c10563a6408e9b40
+size 85506

last-checkpoint/global_step3357/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12d1268fd1df98fe5916753b22e9b23a49b58ee4b9f4ca149196b69e198904cc
+size 85506

last-checkpoint/global_step3357/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6fc46b4ccbddfc0f7c25f583348c5d2cdb40c0392ea8cec3a0925d9d5ed56785
+size 85506

last-checkpoint/global_step3357/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb9afb70ad87e6ce43387783fa59973a4a6904164bf83ddcccd5b7fe0b820ac9
+size 85506

last-checkpoint/global_step3357/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:162023a179a88c571b455c0ab3ea05ad7132b5fe8c517f18e503e04716909aae
+size 85506

last-checkpoint/global_step3357/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52ee316718258920bde55c9660e06cb5c39c6343956d78d173a25f15371fb1f3
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step3160~~


1	+ global_step3357

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8e8cc757116e636d03d7d2362f38003ee7b34b00b1dae4f4914662ad92e7fad
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:3578035697ae915bf8ed319e400346be0b8f4d900849a6d07f0ff9b4c3b1711c
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba27efdeb5b44a8b8136905559c82e77a7f13309db0036dad3e99a470705fb98
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:a652aa698a378ecc5fb4aaee9480c493c9a62c60f4f96b74c9d6698fa2aa8d33
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb7c3bc1248de8b4739437317b988d953fd64a5de9736606d74f9c8277f1b485
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a0c9979566a5d89cb3c766336548670ec6f2291deba1b7ab1764c12d3187b24
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8e571d57a85eb2cdabf3f46c86e446bdb7d26aba8b1467b5e4b5bbe29ad42a7
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:03e36a570d6158fc25d1cf5d9f8f450fc64c5a7683330277f89ff76d5f2fc6cd
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:489e5542988617525a395c45dc83ec6bf25b473812e139122f0a3f3d92f031d0
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4f619cbef4b74f1680d667c8788285a602392e63bdf3760ef3a59ec8864d483
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0cd77682efb711872c5be25e87e87a2726a2e7105422cddd00f04da7be35ca20
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fc037fba93ace1bf7ce01b1a5f7d785698d47b4cc2cedf2300bbf7a41ebf05c
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e44d9e7d535f5fbcd7cfef16ba22d32d5f445aacceba782a05df1f97d47a608a
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ab728c2461d6d1c64f04d7cbfdfcbfa7bd7ad0ef6e19d52458501ee81b27128
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a107290a0d9898930bc6abe369ee246ef7322541985fc2a5320e7775f5ea5c88
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:27530e653ebf5997ae3159cdcde264607e6a6f86b7e3c7a1b3a1e8301cd43d03
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88ab49d56ee4079c2a208376064f825918f070addc8f0c58c5c594265f9e8a78
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1fddaeb1257697bd7c0101abf1ab23f2925d0d9165cd8bddfbd22f8444db2b7
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d15033d06420b17d80db45c89544170faa67833d5a0d9c30a51a38a1102b073
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:942af3734a320fe12a3205a47ca1cdc7d1f0996bfde86c020a35545ccd2fd418
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e02caff31fe06a664e85dd7b31b3300391f1a9f4f3b97aaaec945d54216a88e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:605054ed043f8ba321ca13100ae25afc2296eb67de83d5027f6f7f6d891a4130
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 16.0,
   "eval_steps": 100,
-  "global_step": 3160,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4762,6 +4762,291 @@
       "rewards/margins": 0.5268322825431824,
       "rewards/rejected": -0.34266436100006104,
       "step": 3160
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 16.99746835443038,
   "eval_steps": 100,
+  "global_step": 3357,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.5268322825431824,
       "rewards/rejected": -0.34266436100006104,
       "step": 3160
+    },
+    {
+      "epoch": 16.050632911392405,
+      "grad_norm": 256869.56003810524,
+      "learning_rate": 5.8915700407395795e-08,
+      "logits/chosen": -1.1983295679092407,
+      "logits/rejected": -0.22695603966712952,
+      "logps/chosen": -41.12403106689453,
+      "logps/rejected": -573.8383178710938,
+      "loss": 14636.0719,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1912733018398285,
+      "rewards/margins": 0.5368129014968872,
+      "rewards/rejected": -0.3455396294593811,
+      "step": 3170
+    },
+    {
+      "epoch": 16.10126582278481,
+      "grad_norm": 251620.82775792846,
+      "learning_rate": 5.734879348166719e-08,
+      "logits/chosen": -0.662868082523346,
+      "logits/rejected": 0.3795197606086731,
+      "logps/chosen": -38.75691604614258,
+      "logps/rejected": -555.0902709960938,
+      "loss": 14758.6562,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.1840089112520218,
+      "rewards/margins": 0.5191300511360168,
+      "rewards/rejected": -0.335121214389801,
+      "step": 3180
+    },
+    {
+      "epoch": 16.151898734177216,
+      "grad_norm": 386320.34193101624,
+      "learning_rate": 5.5781886555938573e-08,
+      "logits/chosen": 0.9088973999023438,
+      "logits/rejected": 1.0200951099395752,
+      "logps/chosen": -37.841434478759766,
+      "logps/rejected": -549.9398193359375,
+      "loss": 14645.3125,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.18419453501701355,
+      "rewards/margins": 0.5178717374801636,
+      "rewards/rejected": -0.3336772620677948,
+      "step": 3190
+    },
+    {
+      "epoch": 16.20253164556962,
+      "grad_norm": 323738.56127307797,
+      "learning_rate": 5.421497963020996e-08,
+      "logits/chosen": 1.6748106479644775,
+      "logits/rejected": 1.7903064489364624,
+      "logps/chosen": -43.683780670166016,
+      "logps/rejected": -559.7962036132812,
+      "loss": 14378.5187,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.1856391578912735,
+      "rewards/margins": 0.5182951092720032,
+      "rewards/rejected": -0.3326559364795685,
+      "step": 3200
+    },
+    {
+      "epoch": 16.253164556962027,
+      "grad_norm": 254204.27494940045,
+      "learning_rate": 5.264807270448135e-08,
+      "logits/chosen": -0.028285836800932884,
+      "logits/rejected": 0.47511911392211914,
+      "logps/chosen": -46.74934005737305,
+      "logps/rejected": -582.1607666015625,
+      "loss": 14203.1469,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.19257526099681854,
+      "rewards/margins": 0.5342021584510803,
+      "rewards/rejected": -0.3416268825531006,
+      "step": 3210
+    },
+    {
+      "epoch": 16.303797468354432,
+      "grad_norm": 295536.9430947363,
+      "learning_rate": 5.108116577875274e-08,
+      "logits/chosen": 0.9740939140319824,
+      "logits/rejected": 0.8530548810958862,
+      "logps/chosen": -43.95893478393555,
+      "logps/rejected": -566.3425903320312,
+      "loss": 14617.1531,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.18452490866184235,
+      "rewards/margins": 0.5231844782829285,
+      "rewards/rejected": -0.3386596143245697,
+      "step": 3220
+    },
+    {
+      "epoch": 16.354430379746834,
+      "grad_norm": 228442.89270088554,
+      "learning_rate": 4.951425885302413e-08,
+      "logits/chosen": -0.6641544699668884,
+      "logits/rejected": -0.42437514662742615,
+      "logps/chosen": -42.97655487060547,
+      "logps/rejected": -572.6472778320312,
+      "loss": 14575.375,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.19143202900886536,
+      "rewards/margins": 0.5323026776313782,
+      "rewards/rejected": -0.34087061882019043,
+      "step": 3230
+    },
+    {
+      "epoch": 16.40506329113924,
+      "grad_norm": 280822.1227003712,
+      "learning_rate": 4.7947351927295515e-08,
+      "logits/chosen": 1.1500619649887085,
+      "logits/rejected": 1.5377223491668701,
+      "logps/chosen": -40.756866455078125,
+      "logps/rejected": -555.7669067382812,
+      "loss": 14355.8438,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.18818344175815582,
+      "rewards/margins": 0.5185222029685974,
+      "rewards/rejected": -0.3303387761116028,
+      "step": 3240
+    },
+    {
+      "epoch": 16.455696202531644,
+      "grad_norm": 211726.7404787661,
+      "learning_rate": 4.63804450015669e-08,
+      "logits/chosen": -0.1092449203133583,
+      "logits/rejected": 0.2951999306678772,
+      "logps/chosen": -42.441200256347656,
+      "logps/rejected": -545.1079711914062,
+      "loss": 14375.5266,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.18679597973823547,
+      "rewards/margins": 0.5060458779335022,
+      "rewards/rejected": -0.31924980878829956,
+      "step": 3250
+    },
+    {
+      "epoch": 16.50632911392405,
+      "grad_norm": 356888.551437776,
+      "learning_rate": 4.481353807583829e-08,
+      "logits/chosen": -1.3785438537597656,
+      "logits/rejected": -1.0880242586135864,
+      "logps/chosen": -54.5753288269043,
+      "logps/rejected": -585.0982666015625,
+      "loss": 13676.1484,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.19741004705429077,
+      "rewards/margins": 0.5335227251052856,
+      "rewards/rejected": -0.3361126780509949,
+      "step": 3260
+    },
+    {
+      "epoch": 16.556962025316455,
+      "grad_norm": 364581.3025715214,
+      "learning_rate": 4.324663115010968e-08,
+      "logits/chosen": -0.7049742341041565,
+      "logits/rejected": -0.23324167728424072,
+      "logps/chosen": -51.56848907470703,
+      "logps/rejected": -578.4015502929688,
+      "loss": 14484.6266,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.18512576818466187,
+      "rewards/margins": 0.5236076712608337,
+      "rewards/rejected": -0.3384818732738495,
+      "step": 3270
+    },
+    {
+      "epoch": 16.60759493670886,
+      "grad_norm": 336864.8330615521,
+      "learning_rate": 4.167972422438107e-08,
+      "logits/chosen": -0.9721381068229675,
+      "logits/rejected": -1.1028145551681519,
+      "logps/chosen": -55.94579315185547,
+      "logps/rejected": -583.2372436523438,
+      "loss": 14945.2641,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.19380484521389008,
+      "rewards/margins": 0.5321142673492432,
+      "rewards/rejected": -0.3383094370365143,
+      "step": 3280
+    },
+    {
+      "epoch": 16.658227848101266,
+      "grad_norm": 310564.956837095,
+      "learning_rate": 4.0112817298652456e-08,
+      "logits/chosen": -0.6065518260002136,
+      "logits/rejected": -0.21473164856433868,
+      "logps/chosen": -46.307228088378906,
+      "logps/rejected": -586.7664184570312,
+      "loss": 14667.4531,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.19551894068717957,
+      "rewards/margins": 0.5414855480194092,
+      "rewards/rejected": -0.345966637134552,
+      "step": 3290
+    },
+    {
+      "epoch": 16.70886075949367,
+      "grad_norm": 329301.5108160766,
+      "learning_rate": 3.854591037292385e-08,
+      "logits/chosen": 0.40292587876319885,
+      "logits/rejected": 1.5396214723587036,
+      "logps/chosen": -40.793739318847656,
+      "logps/rejected": -570.8857421875,
+      "loss": 14524.3094,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.18828611075878143,
+      "rewards/margins": 0.5341116189956665,
+      "rewards/rejected": -0.3458254337310791,
+      "step": 3300
+    },
+    {
+      "epoch": 16.759493670886076,
+      "grad_norm": 389871.220870713,
+      "learning_rate": 3.6979003447195234e-08,
+      "logits/chosen": -0.2180454283952713,
+      "logits/rejected": 0.63756263256073,
+      "logps/chosen": -48.842628479003906,
+      "logps/rejected": -596.3530883789062,
+      "loss": 15026.0328,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.19478780031204224,
+      "rewards/margins": 0.5423206090927124,
+      "rewards/rejected": -0.34753280878067017,
+      "step": 3310
+    },
+    {
+      "epoch": 16.810126582278482,
+      "grad_norm": 297091.2945334893,
+      "learning_rate": 3.541209652146662e-08,
+      "logits/chosen": -0.4556306302547455,
+      "logits/rejected": 0.1757240742444992,
+      "logps/chosen": -52.64439010620117,
+      "logps/rejected": -598.89990234375,
+      "loss": 14405.2531,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.19450917840003967,
+      "rewards/margins": 0.5458864569664001,
+      "rewards/rejected": -0.3513772487640381,
+      "step": 3320
+    },
+    {
+      "epoch": 16.860759493670887,
+      "grad_norm": 1094427.122685082,
+      "learning_rate": 3.384518959573801e-08,
+      "logits/chosen": -0.09430136531591415,
+      "logits/rejected": 0.669711709022522,
+      "logps/chosen": -48.170013427734375,
+      "logps/rejected": -584.9744873046875,
+      "loss": 15005.1063,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1912693828344345,
+      "rewards/margins": 0.5353102087974548,
+      "rewards/rejected": -0.34404081106185913,
+      "step": 3330
+    },
+    {
+      "epoch": 16.911392405063292,
+      "grad_norm": 266675.6307359935,
+      "learning_rate": 3.22782826700094e-08,
+      "logits/chosen": -0.09551366418600082,
+      "logits/rejected": -0.07008041441440582,
+      "logps/chosen": -36.88441848754883,
+      "logps/rejected": -568.5509033203125,
+      "loss": 13823.6516,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.18999743461608887,
+      "rewards/margins": 0.5339778661727905,
+      "rewards/rejected": -0.34398046135902405,
+      "step": 3340
+    },
+    {
+      "epoch": 16.962025316455698,
+      "grad_norm": 562034.347414135,
+      "learning_rate": 3.071137574428079e-08,
+      "logits/chosen": 0.6763383746147156,
+      "logits/rejected": 0.4948856830596924,
+      "logps/chosen": -46.25956726074219,
+      "logps/rejected": -565.7184448242188,
+      "loss": 14414.3859,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.18556642532348633,
+      "rewards/margins": 0.5159622430801392,
+      "rewards/rejected": -0.33039581775665283,
+      "step": 3350
     }
   ],
   "logging_steps": 10,