cat-searcher commited on Jul 17

Commit

4afe893

•

1 Parent(s): 28df2c3

Training in progress, epoch 14, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step2765/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2765/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2765/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2765/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2765/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2765/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2765/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2765/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2765/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2765/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2765/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2765/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2765/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2765/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2765/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2765/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +302 -2

last-checkpoint/global_step2765/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5cc6bf9b97a94b90699f45a7fc38d202fb177244c38dbfa6f36c6271cda5ac98
+size 2506176112

last-checkpoint/global_step2765/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2eeef3e3616d377f90d12ea86346472117cc77ecfbe03a66d411aa1ddd074309
+size 2506176112

last-checkpoint/global_step2765/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:28412a24f982a84a28a802cdb61b19b296e9b7c9f9c89785ac5f1eee4a5f6d68
+size 2506176112

last-checkpoint/global_step2765/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:040ce20af60dd7da7e3b33695723be16e615aabf38e4ccffc60ef74d46370115
+size 2506176112

last-checkpoint/global_step2765/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1c3657eea69211a07303c22ef8ed8263791c3ca1ed2c1bd76f7759df03df7b0
+size 2506176112

last-checkpoint/global_step2765/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:825697483c0d8dbaacff033646860487bed6d0841aea89b0ebb37c5e044e33f3
+size 2506176112

last-checkpoint/global_step2765/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:07e3a889dd2c577204f326a307c88e12d2fd0036af5c448e2668e5c2344e60b9
+size 2506176112

last-checkpoint/global_step2765/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:665538142db7bdae0da78f519f68de74bf856090f5be14a5db2ac232dac90866
+size 2506176112

last-checkpoint/global_step2765/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:991c4af0233056577c2d759b974541f3192f0cd0dc222e13ee0454f7746d456a
+size 85570

last-checkpoint/global_step2765/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:560aa971ff7c1f9452683a8ea181cecc727c47c0c053ad3c99c5dc4a3009323c
+size 85506

last-checkpoint/global_step2765/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4b35f8a1cbb50722c530745fc7e51d9d5bd879c6ae1bf2914faf9e7575c5ad3
+size 85506

last-checkpoint/global_step2765/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9f0cd13d71b6e139ffda808e5162d78171b468da3bd5f30c830aa64f68d9a908
+size 85506

last-checkpoint/global_step2765/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a722a8dbc5fc64619032a8f6e56ed05ef49c8507a36d3d4c5add2d009be8d1d
+size 85506

last-checkpoint/global_step2765/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:188f0299e77dc75c4f4dc4a7610a68931ae3788b068f59ce3cd1b428d784e9d8
+size 85506

last-checkpoint/global_step2765/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f7e7d8e3c13d10a4e9c3c7444405fec9aedb115d49a24baf47b10f0bd9a9275
+size 85506

last-checkpoint/global_step2765/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d49eeefae15968f8ea4dcaca071892d22ccb38c4cb923ca8c9bb007d471075be
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step2567~~


1	+ global_step2765

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31a59d02512e22c8fde96ae53ade5fd3efb11b708a7c65545ed6a6a202751a37
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:51554b1b141cb737fe919c7a7d90b054dc54778551653b359782ad641e140b5d
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43b5816e1bbc869b1c3d647caa31746b3c9674dc2e4dd47857a690cd4ee4639b
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:39ccf095d82d77e6ad3b265d9fdc49a86ab3fad18daa92e729265d0f5f3bbb71
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1bec598899f9d59e70c1b4705ce420a1e0a670957b6c8153a589880068ae5a4
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:7891ffa7c7dae99113aa986d67278b52b8c57db55001dc3547a61f24569a34ee
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c60d2348aae518f4c44693db9c9b4b3a3299c556e7f0a86c188b2e4c3e364a7c
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8b92875cb04deec367605433847d1bda444b178b643d2da7ed9aaf738d232b4
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ffe5a79d3bcb4ce033de360bc765e616316e3562aba25887cd85c4adbb935abf
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9f5f3338a05e325b5408a1cd0b6f5e5b10fad05fe479d63f44bec4cf18107d6
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9a9d1f6e22677721841890e6a27855857e6840137650d609eb8e4ac13b71d29
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:1be749fea477a3867d44010631937e0d8f071ca5f9614f9795c92c7fa68833a6
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcac4ff84388a6a4fe3bcae6207c68b2ee5528fb3b6de8cc3588fe1975462aa5
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbc4a5ea4532c621f4c8e9891117b2e597a7f005001e8b4f2a1b4da8c82bf964
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:33fce3cdf5c1b8a8a291e0c73b384e3ad5252640e21e942b44b26b8b0928ffa9
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:480f9fe7dd71b54d915b46162e34b780ba2467d5542115cc809dbca60b394c0e
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:919e675f3bcaf4f3c8ba35cd8debf85aec3bbc3c8e5019b74431e0a314e4d37a
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:c11d982dcd813e82c2d97a5491ce9624cff2dd22e8655ea617ccef1fc1474470
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8bf6479ce82b88efc6a72a8ee512162b3d0ecab972817296d38ab9c448bb8d96
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:73494fac3a001cba7cedd097b97f028d4c1d136ee6709214b0a7fe305e5b9089
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9eb2db72f0e418efa4f13d7448db05b4ce751b00def470d4d8f87d4965bb17c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:136693ea21ecf0b59fde813d184b14a037ef0bca92ae910a6f73169e6198ccb5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 12.99746835443038,
   "eval_steps": 100,
-  "global_step": 2567,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3862,6 +3862,306 @@
       "rewards/margins": 0.5234028100967407,
       "rewards/rejected": -0.3366047739982605,
       "step": 2560
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 14.0,
   "eval_steps": 100,
+  "global_step": 2765,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.5234028100967407,
       "rewards/rejected": -0.3366047739982605,
       "step": 2560
+    },
+    {
+      "epoch": 13.012658227848101,
+      "grad_norm": 335161.21326055715,
+      "learning_rate": 1.529301159511125e-07,
+      "logits/chosen": 0.09210095554590225,
+      "logits/rejected": 0.2885093688964844,
+      "logps/chosen": -52.608367919921875,
+      "logps/rejected": -558.9227294921875,
+      "loss": 15959.725,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.1778368204832077,
+      "rewards/margins": 0.5030940175056458,
+      "rewards/rejected": -0.32525718212127686,
+      "step": 2570
+    },
+    {
+      "epoch": 13.063291139240507,
+      "grad_norm": 771775.1017807113,
+      "learning_rate": 1.5136320902538388e-07,
+      "logits/chosen": -1.3265520334243774,
+      "logits/rejected": -0.9296306371688843,
+      "logps/chosen": -62.875038146972656,
+      "logps/rejected": -560.3228759765625,
+      "loss": 15567.6344,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.18662917613983154,
+      "rewards/margins": 0.49883994460105896,
+      "rewards/rejected": -0.31221073865890503,
+      "step": 2580
+    },
+    {
+      "epoch": 13.113924050632912,
+      "grad_norm": 446168.3148918395,
+      "learning_rate": 1.4979630209965526e-07,
+      "logits/chosen": -0.11115183681249619,
+      "logits/rejected": 0.8431870341300964,
+      "logps/chosen": -46.82927703857422,
+      "logps/rejected": -552.5628051757812,
+      "loss": 16255.3438,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.17291709780693054,
+      "rewards/margins": 0.5057471990585327,
+      "rewards/rejected": -0.3328301012516022,
+      "step": 2590
+    },
+    {
+      "epoch": 13.164556962025316,
+      "grad_norm": 586122.4453174556,
+      "learning_rate": 1.4822939517392665e-07,
+      "logits/chosen": -0.757349967956543,
+      "logits/rejected": 0.037270687520504,
+      "logps/chosen": -55.21142578125,
+      "logps/rejected": -557.4276123046875,
+      "loss": 16720.8172,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.1850253939628601,
+      "rewards/margins": 0.5111584663391113,
+      "rewards/rejected": -0.32613304257392883,
+      "step": 2600
+    },
+    {
+      "epoch": 13.215189873417721,
+      "grad_norm": 420628.2693101698,
+      "learning_rate": 1.4666248824819803e-07,
+      "logits/chosen": -0.11379202455282211,
+      "logits/rejected": -0.11788152158260345,
+      "logps/chosen": -49.00257110595703,
+      "logps/rejected": -576.3326416015625,
+      "loss": 16306.0688,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.18590961396694183,
+      "rewards/margins": 0.5257736444473267,
+      "rewards/rejected": -0.33986401557922363,
+      "step": 2610
+    },
+    {
+      "epoch": 13.265822784810126,
+      "grad_norm": 436219.2086299041,
+      "learning_rate": 1.4509558132246945e-07,
+      "logits/chosen": -0.7918820977210999,
+      "logits/rejected": -0.14419230818748474,
+      "logps/chosen": -56.56486892700195,
+      "logps/rejected": -584.7669677734375,
+      "loss": 16369.2719,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.18918678164482117,
+      "rewards/margins": 0.5305701494216919,
+      "rewards/rejected": -0.3413834273815155,
+      "step": 2620
+    },
+    {
+      "epoch": 13.316455696202532,
+      "grad_norm": 596793.3073449759,
+      "learning_rate": 1.4352867439674083e-07,
+      "logits/chosen": 1.9564087390899658,
+      "logits/rejected": 2.246692180633545,
+      "logps/chosen": -51.851722717285156,
+      "logps/rejected": -548.3530883789062,
+      "loss": 16796.1063,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.18290123343467712,
+      "rewards/margins": 0.4980129599571228,
+      "rewards/rejected": -0.3151116371154785,
+      "step": 2630
+    },
+    {
+      "epoch": 13.367088607594937,
+      "grad_norm": 474733.1664905385,
+      "learning_rate": 1.4196176747101222e-07,
+      "logits/chosen": 0.530455470085144,
+      "logits/rejected": 0.14751790463924408,
+      "logps/chosen": -48.55830001831055,
+      "logps/rejected": -558.3150024414062,
+      "loss": 16144.2906,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.17938682436943054,
+      "rewards/margins": 0.5066471695899963,
+      "rewards/rejected": -0.3272603154182434,
+      "step": 2640
+    },
+    {
+      "epoch": 13.417721518987342,
+      "grad_norm": 1649837.8712191964,
+      "learning_rate": 1.403948605452836e-07,
+      "logits/chosen": -0.03671743720769882,
+      "logits/rejected": 0.7579118013381958,
+      "logps/chosen": -42.065242767333984,
+      "logps/rejected": -554.230224609375,
+      "loss": 16118.8047,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.18058671057224274,
+      "rewards/margins": 0.5129930377006531,
+      "rewards/rejected": -0.3324064016342163,
+      "step": 2650
+    },
+    {
+      "epoch": 13.468354430379748,
+      "grad_norm": 594890.10809389,
+      "learning_rate": 1.38827953619555e-07,
+      "logits/chosen": 0.288557231426239,
+      "logits/rejected": 0.2958771288394928,
+      "logps/chosen": -52.33495330810547,
+      "logps/rejected": -561.2686157226562,
+      "loss": 15733.7453,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1808079034090042,
+      "rewards/margins": 0.5136345028877258,
+      "rewards/rejected": -0.3328266143798828,
+      "step": 2660
+    },
+    {
+      "epoch": 13.518987341772151,
+      "grad_norm": 467820.0894028926,
+      "learning_rate": 1.3726104669382637e-07,
+      "logits/chosen": -0.39889806509017944,
+      "logits/rejected": 0.02098376676440239,
+      "logps/chosen": -53.63391876220703,
+      "logps/rejected": -556.4556884765625,
+      "loss": 15584.0406,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.18383657932281494,
+      "rewards/margins": 0.5030336976051331,
+      "rewards/rejected": -0.3191971182823181,
+      "step": 2670
+    },
+    {
+      "epoch": 13.569620253164556,
+      "grad_norm": 349641.6736805019,
+      "learning_rate": 1.3569413976809776e-07,
+      "logits/chosen": -1.0416258573532104,
+      "logits/rejected": -0.687407374382019,
+      "logps/chosen": -40.50030517578125,
+      "logps/rejected": -560.5548706054688,
+      "loss": 15275.5312,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.18312379717826843,
+      "rewards/margins": 0.5221952199935913,
+      "rewards/rejected": -0.33907145261764526,
+      "step": 2680
+    },
+    {
+      "epoch": 13.620253164556962,
+      "grad_norm": 769040.8085386351,
+      "learning_rate": 1.3412723284236915e-07,
+      "logits/chosen": 1.7483727931976318,
+      "logits/rejected": 2.3238413333892822,
+      "logps/chosen": -49.73235321044922,
+      "logps/rejected": -559.8514404296875,
+      "loss": 16850.175,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.18260039389133453,
+      "rewards/margins": 0.5106431245803833,
+      "rewards/rejected": -0.3280427157878876,
+      "step": 2690
+    },
+    {
+      "epoch": 13.670886075949367,
+      "grad_norm": 459226.17158416886,
+      "learning_rate": 1.3256032591664053e-07,
+      "logits/chosen": -0.2809019684791565,
+      "logits/rejected": 0.43121522665023804,
+      "logps/chosen": -58.69781494140625,
+      "logps/rejected": -588.9169921875,
+      "loss": 15404.6109,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.19193768501281738,
+      "rewards/margins": 0.5343278646469116,
+      "rewards/rejected": -0.34239014983177185,
+      "step": 2700
+    },
+    {
+      "epoch": 13.721518987341772,
+      "grad_norm": 339517.3364374988,
+      "learning_rate": 1.3099341899091192e-07,
+      "logits/chosen": 0.3717317283153534,
+      "logits/rejected": 0.5634896159172058,
+      "logps/chosen": -60.52980422973633,
+      "logps/rejected": -555.2349243164062,
+      "loss": 15341.8219,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 0.17079493403434753,
+      "rewards/margins": 0.489946186542511,
+      "rewards/rejected": -0.31915122270584106,
+      "step": 2710
+    },
+    {
+      "epoch": 13.772151898734178,
+      "grad_norm": 1157921.1375110236,
+      "learning_rate": 1.2942651206518333e-07,
+      "logits/chosen": -1.758825659751892,
+      "logits/rejected": -1.0223956108093262,
+      "logps/chosen": -48.61360549926758,
+      "logps/rejected": -562.5768432617188,
+      "loss": 16196.7625,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.180302232503891,
+      "rewards/margins": 0.5197224020957947,
+      "rewards/rejected": -0.3394201397895813,
+      "step": 2720
+    },
+    {
+      "epoch": 13.822784810126583,
+      "grad_norm": 434777.104877517,
+      "learning_rate": 1.2785960513945471e-07,
+      "logits/chosen": -0.3282082676887512,
+      "logits/rejected": 0.4013535976409912,
+      "logps/chosen": -50.629215240478516,
+      "logps/rejected": -582.4617309570312,
+      "loss": 15710.8641,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.18200094997882843,
+      "rewards/margins": 0.5299168825149536,
+      "rewards/rejected": -0.3479159474372864,
+      "step": 2730
+    },
+    {
+      "epoch": 13.873417721518987,
+      "grad_norm": 677123.1021845904,
+      "learning_rate": 1.262926982137261e-07,
+      "logits/chosen": -0.9533359408378601,
+      "logits/rejected": -0.11374642699956894,
+      "logps/chosen": -50.710845947265625,
+      "logps/rejected": -568.776611328125,
+      "loss": 16490.0469,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.18456825613975525,
+      "rewards/margins": 0.5208636522293091,
+      "rewards/rejected": -0.3362954258918762,
+      "step": 2740
+    },
+    {
+      "epoch": 13.924050632911392,
+      "grad_norm": 608241.5399016802,
+      "learning_rate": 1.2472579128799749e-07,
+      "logits/chosen": -0.009487760253250599,
+      "logits/rejected": 0.5674014091491699,
+      "logps/chosen": -47.34721755981445,
+      "logps/rejected": -558.3707275390625,
+      "loss": 16114.125,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.18486423790454865,
+      "rewards/margins": 0.5096093416213989,
+      "rewards/rejected": -0.3247450888156891,
+      "step": 2750
+    },
+    {
+      "epoch": 13.974683544303797,
+      "grad_norm": 510265.43069577636,
+      "learning_rate": 1.2315888436226887e-07,
+      "logits/chosen": -1.1760886907577515,
+      "logits/rejected": -0.8848980665206909,
+      "logps/chosen": -50.471961975097656,
+      "logps/rejected": -569.0016479492188,
+      "loss": 15240.5234,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1889052391052246,
+      "rewards/margins": 0.5153056383132935,
+      "rewards/rejected": -0.3264002799987793,
+      "step": 2760
     }
   ],
   "logging_steps": 10,