cat-searcher commited on Jul 17, 2024

Commit

dce6179

verified ·

1 Parent(s): 399396f

Training in progress, epoch 10, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step1975/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1975/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1975/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1975/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1975/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1975/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1975/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1975/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1975/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1975/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1975/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1975/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1975/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1975/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1975/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1975/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +302 -2

last-checkpoint/global_step1975/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:158fdf1206d90f3d53f03f6777f5447c221fe532e12194e65242099fcced38a9
+size 2506176112

last-checkpoint/global_step1975/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0b53db3d43333997ca32bd2265f0e5156f413521b14f6bc508cbb8c1d397912
+size 2506176112

last-checkpoint/global_step1975/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c64a6a960abe055f377aa0483a2e5a11f36361d99a16b35615b438b13e05002d
+size 2506176112

last-checkpoint/global_step1975/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e77c45b48df198e8830cac41e3fa4ae2d82371b8230add92f572786522c16015
+size 2506176112

last-checkpoint/global_step1975/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:873839ac5d48ab353d5c1f108475fb9c761d9a9ebbd3fde16efb2c2e32148ac0
+size 2506176112

last-checkpoint/global_step1975/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da894f0661f3a32c85b6eaa7ad8450b5dc5d56952359780e6cf800fd36b0af4d
+size 2506176112

last-checkpoint/global_step1975/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22da807ff37f81b78c17ed1a259ffdb1c99cf8091fe97f3c94919f9276f062e9
+size 2506176112

last-checkpoint/global_step1975/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fcba14ca76d79f8403b081667d13aa806bfeafc24d46c77c9de5de1d637f77d5
+size 2506176112

last-checkpoint/global_step1975/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3cc97a267a53404bed2bf3a9a7faec5240ac22ddd314f8cff203c1db78d59acd
+size 85570

last-checkpoint/global_step1975/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff253423957bacfa2226dc71400a6365a2ffbff5dc196706e9376114e3111f5a
+size 85506

last-checkpoint/global_step1975/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c003a7df9382cf3e24d03806497ae9902f5fc74d7f60ca1560f13a1b4bc39784
+size 85506

last-checkpoint/global_step1975/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:236ef95c4872dd77dd4d0915e6c75048a026a416bd4cbe669d929349ce3c01bd
+size 85506

last-checkpoint/global_step1975/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:714076982acbbe1f5a119e51b1d487088d8527ee90241348b6d3d70622eaee54
+size 85506

last-checkpoint/global_step1975/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5da9fc440771360567a06dfc520423832ac2c8722b1d01f47f09d9bca45e6c3
+size 85506

last-checkpoint/global_step1975/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0f142914c3ce2768ca39f3c543ebb8b4bdb79a3f5406b292c4059e5dc0865f48
+size 85506

last-checkpoint/global_step1975/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:193c38ec1f044177e1edba0e33b4ff754b9e9d8b8599c063f2120e6bd1550365
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1777~~


1	+ global_step1975

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09b755aaa0de9a9d7be5dd7cc1cf82ccedd0ac145120aec2032a624323902370
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7b38d08370373f75d0ead3a8dc90bdfbcde940100178a1e4d8444d44db03c6f
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ef4f1316aa95047dba9bf5e25ec454561d74e6768f37069512a5b410ac5fb8ad
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:258f456567db458691d028339987640e6c33e89da150b386c8f140c34d269bf8
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae9162e03c562553a5d9d13120f544d3c47ea71bb39aa44e18253675e17ed4a4
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb1165242405b17b3d6a8186ae61b13dcb1faa5a54320bebd74ef8d71b964bf7
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4809456871b3a40c8db7e0926a9db11b01149a1d483fb29b16fc69dabaf36c6f
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:562c262916c9997ec644c42fed9655ab28706b74fca20290ca921c4761d6a4b0
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4bb6bcf25ff148b74eea7dd4895fc42e9433538fff5d75f0d2ae6cb0c2fdadf0
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8d40f8118f513299624ded0a9bcf09778b961635615090409394d4f96f928f6
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f00ea04cd1a52c539d9cc948ac8a04676d6b99702acd09149565f781806f63f
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4391f924238a4cb855c4cbdc6d1a14954f785431c75997d05c7a4ee6615dae7
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5571fb2fc1b413792b01ac691c759786855573992bab1d14875faccdaf8c881e
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:be7b19bb9543a16bf9f4cd96466ac581436f63070f5815f3a7ba57980608994f
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59019ba23ead9c15851cb4349397254458ce50ea3c2987090404f4f3842c6d8f
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:97da4a1ede0a3e0f96411cacd5bfdf84d9355198f7aadc9bcb8be41122043f63
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45fdffda57fda4a555da7a5de6fc6ec7324e0dae048b92519af6c4f6a1bc7412
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:544cb6421b975bd5d2b2360a4e666003794e6197ae654d2ad963cd6572a86ede
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62fb2c13e63aba83c4505fae1639f79a33853d8f1bebe20cecb73bf53c8e7c46
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8d6eb32a23f3bef6262bbcb2eda724b2fd6f5e579969aa27c71a5971331722b
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e16985aaf4cce287f446385c2d8f7c8409907ca0803309b7f28917440fa9de11
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8981ddaa6502db230aa8c1752f9e3ae4127b4c9a3bafb82f8ac10be916d022b6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.99746835443038,
   "eval_steps": 100,
-  "global_step": 1777,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2677,6 +2677,306 @@
       "rewards/margins": 0.45180240273475647,
       "rewards/rejected": -0.3077693581581116,
       "step": 1770
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 10.0,
   "eval_steps": 100,
+  "global_step": 1975,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.45180240273475647,
       "rewards/rejected": -0.3077693581581116,
       "step": 1770
+    },
+    {
+      "epoch": 9.012658227848101,
+      "grad_norm": 1042157.0097295721,
+      "learning_rate": 2.767157630836728e-07,
+      "logits/chosen": -2.344456911087036,
+      "logits/rejected": -2.174999713897705,
+      "logps/chosen": -74.14456939697266,
+      "logps/rejected": -549.884033203125,
+      "loss": 22791.725,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.16015887260437012,
+      "rewards/margins": 0.47513628005981445,
+      "rewards/rejected": -0.31497737765312195,
+      "step": 1780
+    },
+    {
+      "epoch": 9.063291139240507,
+      "grad_norm": 1604328.8989550385,
+      "learning_rate": 2.751488561579442e-07,
+      "logits/chosen": -0.4028230607509613,
+      "logits/rejected": -0.017443586140871048,
+      "logps/chosen": -78.17924499511719,
+      "logps/rejected": -555.5220947265625,
+      "loss": 21934.7781,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.161887988448143,
+      "rewards/margins": 0.47605371475219727,
+      "rewards/rejected": -0.3141656517982483,
+      "step": 1790
+    },
+    {
+      "epoch": 9.113924050632912,
+      "grad_norm": 930218.7877013405,
+      "learning_rate": 2.7358194923221564e-07,
+      "logits/chosen": -0.10258030891418457,
+      "logits/rejected": -0.2491408884525299,
+      "logps/chosen": -67.35882568359375,
+      "logps/rejected": -562.8963623046875,
+      "loss": 20609.7047,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1559842973947525,
+      "rewards/margins": 0.4920543134212494,
+      "rewards/rejected": -0.33607012033462524,
+      "step": 1800
+    },
+    {
+      "epoch": 9.164556962025316,
+      "grad_norm": 1965412.9139898522,
+      "learning_rate": 2.72015042306487e-07,
+      "logits/chosen": 0.5992544889450073,
+      "logits/rejected": 0.6971222162246704,
+      "logps/chosen": -68.12413024902344,
+      "logps/rejected": -546.7501220703125,
+      "loss": 21574.0656,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.16274484992027283,
+      "rewards/margins": 0.475511372089386,
+      "rewards/rejected": -0.31276652216911316,
+      "step": 1810
+    },
+    {
+      "epoch": 9.215189873417721,
+      "grad_norm": 1012215.1362345209,
+      "learning_rate": 2.704481353807584e-07,
+      "logits/chosen": -0.252922922372818,
+      "logits/rejected": 0.7370151281356812,
+      "logps/chosen": -68.61247253417969,
+      "logps/rejected": -545.773193359375,
+      "loss": 21584.0,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.15732263028621674,
+      "rewards/margins": 0.47610074281692505,
+      "rewards/rejected": -0.3187780976295471,
+      "step": 1820
+    },
+    {
+      "epoch": 9.265822784810126,
+      "grad_norm": 1317328.2635211374,
+      "learning_rate": 2.6888122845502977e-07,
+      "logits/chosen": -0.5902656316757202,
+      "logits/rejected": -0.200765460729599,
+      "logps/chosen": -72.17051696777344,
+      "logps/rejected": -560.718994140625,
+      "loss": 20662.6562,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.16373535990715027,
+      "rewards/margins": 0.49004659056663513,
+      "rewards/rejected": -0.32631123065948486,
+      "step": 1830
+    },
+    {
+      "epoch": 9.316455696202532,
+      "grad_norm": 1202220.669797323,
+      "learning_rate": 2.673143215293012e-07,
+      "logits/chosen": -0.9152681231498718,
+      "logits/rejected": -0.46515974402427673,
+      "logps/chosen": -71.53898620605469,
+      "logps/rejected": -545.0053100585938,
+      "loss": 22147.6375,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1599002182483673,
+      "rewards/margins": 0.47435054183006287,
+      "rewards/rejected": -0.31445032358169556,
+      "step": 1840
+    },
+    {
+      "epoch": 9.367088607594937,
+      "grad_norm": 858793.4443150639,
+      "learning_rate": 2.6574741460357254e-07,
+      "logits/chosen": 0.8187123537063599,
+      "logits/rejected": 0.9660876393318176,
+      "logps/chosen": -68.53959655761719,
+      "logps/rejected": -533.693603515625,
+      "loss": 22383.2656,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.15871909260749817,
+      "rewards/margins": 0.46780315041542053,
+      "rewards/rejected": -0.30908405780792236,
+      "step": 1850
+    },
+    {
+      "epoch": 9.417721518987342,
+      "grad_norm": 753710.4553891663,
+      "learning_rate": 2.6418050767784395e-07,
+      "logits/chosen": 0.07855646312236786,
+      "logits/rejected": -0.0003270745219197124,
+      "logps/chosen": -71.92098236083984,
+      "logps/rejected": -532.4739990234375,
+      "loss": 22731.7687,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.16191932559013367,
+      "rewards/margins": 0.4635027348995209,
+      "rewards/rejected": -0.3015834391117096,
+      "step": 1860
+    },
+    {
+      "epoch": 9.468354430379748,
+      "grad_norm": 1208088.8106737435,
+      "learning_rate": 2.626136007521153e-07,
+      "logits/chosen": -0.23646318912506104,
+      "logits/rejected": 0.0054475306533277035,
+      "logps/chosen": -66.38209533691406,
+      "logps/rejected": -541.2474365234375,
+      "loss": 22257.4375,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.15835285186767578,
+      "rewards/margins": 0.47471290826797485,
+      "rewards/rejected": -0.3163600265979767,
+      "step": 1870
+    },
+    {
+      "epoch": 9.518987341772151,
+      "grad_norm": 1301078.6439378709,
+      "learning_rate": 2.610466938263867e-07,
+      "logits/chosen": -1.2212382555007935,
+      "logits/rejected": -1.2270792722702026,
+      "logps/chosen": -69.9106674194336,
+      "logps/rejected": -537.7271728515625,
+      "loss": 22528.825,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.15471485257148743,
+      "rewards/margins": 0.46409493684768677,
+      "rewards/rejected": -0.30938002467155457,
+      "step": 1880
+    },
+    {
+      "epoch": 9.569620253164556,
+      "grad_norm": 1146807.5987679055,
+      "learning_rate": 2.594797869006581e-07,
+      "logits/chosen": -1.618896484375,
+      "logits/rejected": -1.3599251508712769,
+      "logps/chosen": -77.14048767089844,
+      "logps/rejected": -519.0086059570312,
+      "loss": 20937.9,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1560250073671341,
+      "rewards/margins": 0.44421762228012085,
+      "rewards/rejected": -0.28819265961647034,
+      "step": 1890
+    },
+    {
+      "epoch": 9.620253164556962,
+      "grad_norm": 1143412.3516794874,
+      "learning_rate": 2.579128799749295e-07,
+      "logits/chosen": -0.6647695302963257,
+      "logits/rejected": -0.6680254936218262,
+      "logps/chosen": -85.31086730957031,
+      "logps/rejected": -573.4449462890625,
+      "loss": 21446.8719,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.16069479286670685,
+      "rewards/margins": 0.486908495426178,
+      "rewards/rejected": -0.32621368765830994,
+      "step": 1900
+    },
+    {
+      "epoch": 9.670886075949367,
+      "grad_norm": 874554.4726819041,
+      "learning_rate": 2.5634597304920085e-07,
+      "logits/chosen": -2.4332644939422607,
+      "logits/rejected": -2.143573522567749,
+      "logps/chosen": -73.66841125488281,
+      "logps/rejected": -567.8841552734375,
+      "loss": 21540.7203,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.1681254804134369,
+      "rewards/margins": 0.49868589639663696,
+      "rewards/rejected": -0.3305602967739105,
+      "step": 1910
+    },
+    {
+      "epoch": 9.721518987341772,
+      "grad_norm": 1796698.8005837006,
+      "learning_rate": 2.5477906612347227e-07,
+      "logits/chosen": 1.2071720361709595,
+      "logits/rejected": 1.811336874961853,
+      "logps/chosen": -68.67604064941406,
+      "logps/rejected": -531.2750244140625,
+      "loss": 22819.1078,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.1492142677307129,
+      "rewards/margins": 0.4690275192260742,
+      "rewards/rejected": -0.31981322169303894,
+      "step": 1920
+    },
+    {
+      "epoch": 9.772151898734178,
+      "grad_norm": 1652289.4059097564,
+      "learning_rate": 2.532121591977436e-07,
+      "logits/chosen": -0.47033196687698364,
+      "logits/rejected": -0.13743743300437927,
+      "logps/chosen": -58.46977996826172,
+      "logps/rejected": -548.3218383789062,
+      "loss": 22147.9906,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.16477254033088684,
+      "rewards/margins": 0.4882374703884125,
+      "rewards/rejected": -0.32346493005752563,
+      "step": 1930
+    },
+    {
+      "epoch": 9.822784810126583,
+      "grad_norm": 1031570.3956932048,
+      "learning_rate": 2.5164525227201504e-07,
+      "logits/chosen": -1.3281480073928833,
+      "logits/rejected": -0.6028780937194824,
+      "logps/chosen": -71.20520782470703,
+      "logps/rejected": -560.7177124023438,
+      "loss": 21547.1453,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.16829116642475128,
+      "rewards/margins": 0.4920671880245209,
+      "rewards/rejected": -0.3237760066986084,
+      "step": 1940
+    },
+    {
+      "epoch": 9.873417721518987,
+      "grad_norm": 997159.4818661372,
+      "learning_rate": 2.500783453462864e-07,
+      "logits/chosen": 0.0865519791841507,
+      "logits/rejected": 1.0491398572921753,
+      "logps/chosen": -66.77009582519531,
+      "logps/rejected": -538.1752319335938,
+      "loss": 21311.2047,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.15671603381633759,
+      "rewards/margins": 0.4763658046722412,
+      "rewards/rejected": -0.3196497857570648,
+      "step": 1950
+    },
+    {
+      "epoch": 9.924050632911392,
+      "grad_norm": 2765789.1484618983,
+      "learning_rate": 2.485114384205578e-07,
+      "logits/chosen": 0.05377687141299248,
+      "logits/rejected": 0.6552912592887878,
+      "logps/chosen": -67.99398803710938,
+      "logps/rejected": -554.9031982421875,
+      "loss": 20360.5656,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.16012230515480042,
+      "rewards/margins": 0.48966652154922485,
+      "rewards/rejected": -0.3295442461967468,
+      "step": 1960
+    },
+    {
+      "epoch": 9.974683544303797,
+      "grad_norm": 778456.3899893347,
+      "learning_rate": 2.4694453149482917e-07,
+      "logits/chosen": -1.8621749877929688,
+      "logits/rejected": -0.9629243612289429,
+      "logps/chosen": -76.34040832519531,
+      "logps/rejected": -570.4073486328125,
+      "loss": 20853.2188,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.16522939503192902,
+      "rewards/margins": 0.4955335259437561,
+      "rewards/rejected": -0.3303041160106659,
+      "step": 1970
     }
   ],
   "logging_steps": 10,