cat-searcher commited on Jul 17, 2024

Commit

e68a32e

verified ·

1 Parent(s): 95faeb6

Training in progress, epoch 6, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step1185/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1185/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1185/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1185/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1185/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1185/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1185/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1185/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1185/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1185/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1185/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1185/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1185/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1185/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1185/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1185/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +302 -2

last-checkpoint/global_step1185/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0f21d01407e4ae8a4d21c9fd5893cf8ca287be0b9b934e521d9384635f18f1c2
+size 2506176112

last-checkpoint/global_step1185/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8313e6ebe59d6901911ea4541307ffd402279ceceee244b8dde2d56f3a2cec0e
+size 2506176112

last-checkpoint/global_step1185/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1571b96ea2af6e1647bcde55265f70ff473276797a75ce0619f097860b4a947
+size 2506176112

last-checkpoint/global_step1185/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4c09c6fba3e452c74f8de197ae829254444f4835c2ca80c291a3fd2a8c6682a7
+size 2506176112

last-checkpoint/global_step1185/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c4749128accf2bed04a08e33fbebe11c6f476fc6db4c512555a17dfd28887ac
+size 2506176112

last-checkpoint/global_step1185/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d75da79afcaa6bdb54610a766beb6f87ff7c53556bc6c24a213db0069b806623
+size 2506176112

last-checkpoint/global_step1185/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cac0e47a3653dd346b2a4a922b8505a46fb180f907a776b9b19f8d10d4bb6219
+size 2506176112

last-checkpoint/global_step1185/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f113dad5a2fda8115b019f5d8ffe32f0daed0932073d3f86f48ea41c9c2b5d20
+size 2506176112

last-checkpoint/global_step1185/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6eb3848f079be4da89d2ffd5d86a06aac7399d1a94758e16836b1f3cb6bbddb1
+size 85570

last-checkpoint/global_step1185/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2bd50ef6205cfa99c20dae6bfa3745126bff94c78d9dd260f7a64b1280c4f22e
+size 85506

last-checkpoint/global_step1185/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8751c19421e5e2129fcbd690463069fab0590118b296d30c39437349f1b2f36b
+size 85506

last-checkpoint/global_step1185/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b1b9a37b0fc0893afbec8cc4c52ba3f185e2a8bdc3fa381bdba8ac149b8fc14
+size 85506

last-checkpoint/global_step1185/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51fbdd9346c615833b76aab54ebfd9ecef0fd730a129c1dfc47e82e7c23ad5f2
+size 85506

last-checkpoint/global_step1185/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f7cc1872b0b31675bb1cc95e19745fc429642614c768b0d5ccdd3ece3a4febe
+size 85506

last-checkpoint/global_step1185/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71ad488f9b8acba557e59638cda7de14ca3a9dc4696c3e9708a64699a59db88a
+size 85506

last-checkpoint/global_step1185/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:adddbe045c84109518e94317b78b1e18ba1bb893dd74a5509c03cb68d51efadc
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step987~~


1	+ global_step1185

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9d6347bbdfb78d6d728cf68948d2c89598dfbfde2c1c992084431e44430796d
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbec331a03b63bf09d63c111d004f44d4e1b4622bd66a68a51c8a93312a7aaed
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cbb9d1038339e10330e9562076f77aac42d42c8f7c5245bf246911f8ffc69ef0
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:f62a449b2e0be7027fb456871163c3388d55fd9f5230ef65a2e8ae1bd77075ac
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a0ef6f96a48e59aa52c4b471312c2a62378c19acc7ebbae839612b03a7d775a
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0628a9017696045a3a29e9eaffc71e9262d855716e773c0c3be760a1fe85bc8
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab11d533c0fdad46ea8b8e295ba5fdb705e078eeb88cc28f37d82913508766e9
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:df342004a4d8e3626bf2a9f689fde7c8bfd6d995e14931f5496eda1f456cb6f2
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:615c168147e3465ce5bfab6da2ff4afc68566ce00ec0f0c6c9fc988038a58d0a
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f02096eb4e8850b91490e80e4a042e2e60f71bd2abc6a269d62c271649cb77d2
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79f71e8f8674ecaef9f8cdcbf7ac457a8b8ff15b12694ba2a2fffcb4b43f0f08
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:326c778d3d0e7e3d5665fa0a9ecd92986609c430da08b41611d6c05dc19815a8
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88cf6d674dab5545c300a55135f08ca935730a3d35e2c419fb0b333f19482c19
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:d978dcb0c34e022ee6750e9d86814b8c82e4965d7e07662f35f06eeac12938f3
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2754f2cd8824702f027870d93748b3c0491b0ecd30f1e3d8e937116b2be6151f
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:01e83399aed1d9d173c3e07b2efa8530c956b62b2b68394c2ed0d43bd8bba9d1
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1385124ac55604598f45ea6e2d141f29456647d3e7c10d12ca64ec93d312be8d
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:606ab3ca92e3d20c327c69fdcce7f7e39bec2f2c3538b036088b255f917e3ba4
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:416538efaec7391fa8fe782fb15146b83e5612d9e1961292c34c53e964806873
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:1276a987dd22c9093fec58921ba19f340a28f18bff635cc01324e09a3c37ac3a
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ebe1f41c97c016e1df7ebf5446401ec464be377a52a8190323220b8692dc187a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:251c2a48bb3a46f7c0365ebd02f9e250fbea04549ecdfec993cf3e0a3155f3a0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.99746835443038,
   "eval_steps": 100,
-  "global_step": 987,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1492,6 +1492,306 @@
       "rewards/margins": 0.24509286880493164,
       "rewards/rejected": -0.17864301800727844,
       "step": 980
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.0,
   "eval_steps": 100,
+  "global_step": 1185,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.24509286880493164,
       "rewards/rejected": -0.17864301800727844,
       "step": 980
+    },
+    {
+      "epoch": 5.012658227848101,
+      "grad_norm": 1442340.8531233447,
+      "learning_rate": 4.005014102162331e-07,
+      "logits/chosen": -7.928460121154785,
+      "logits/rejected": -7.941502571105957,
+      "logps/chosen": -175.59664916992188,
+      "logps/rejected": -406.7601623535156,
+      "loss": 62010.275,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.06751301139593124,
+      "rewards/margins": 0.23539571464061737,
+      "rewards/rejected": -0.16788268089294434,
+      "step": 990
+    },
+    {
+      "epoch": 5.063291139240507,
+      "grad_norm": 1557498.8859861568,
+      "learning_rate": 3.989345032905045e-07,
+      "logits/chosen": -7.7452850341796875,
+      "logits/rejected": -8.02453899383545,
+      "logps/chosen": -154.46292114257812,
+      "logps/rejected": -469.1910095214844,
+      "loss": 49347.1687,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.08384937047958374,
+      "rewards/margins": 0.31221631169319153,
+      "rewards/rejected": -0.2283669412136078,
+      "step": 1000
+    },
+    {
+      "epoch": 5.113924050632911,
+      "grad_norm": 1581238.5613807905,
+      "learning_rate": 3.973675963647759e-07,
+      "logits/chosen": -7.881131649017334,
+      "logits/rejected": -7.651412010192871,
+      "logps/chosen": -169.71153259277344,
+      "logps/rejected": -476.58477783203125,
+      "loss": 49390.7562,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.08512581884860992,
+      "rewards/margins": 0.3120972514152527,
+      "rewards/rejected": -0.22697141766548157,
+      "step": 1010
+    },
+    {
+      "epoch": 5.1645569620253164,
+      "grad_norm": 1497324.3970905554,
+      "learning_rate": 3.958006894390473e-07,
+      "logits/chosen": -6.736274719238281,
+      "logits/rejected": -6.750421047210693,
+      "logps/chosen": -151.04129028320312,
+      "logps/rejected": -459.47808837890625,
+      "loss": 49656.7812,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.07378469407558441,
+      "rewards/margins": 0.3127291798591614,
+      "rewards/rejected": -0.23894445598125458,
+      "step": 1020
+    },
+    {
+      "epoch": 5.215189873417722,
+      "grad_norm": 1898671.7222835466,
+      "learning_rate": 3.942337825133187e-07,
+      "logits/chosen": -7.030360221862793,
+      "logits/rejected": -6.9101104736328125,
+      "logps/chosen": -168.35183715820312,
+      "logps/rejected": -469.60235595703125,
+      "loss": 49247.5312,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.08571706712245941,
+      "rewards/margins": 0.3044472634792328,
+      "rewards/rejected": -0.21873018145561218,
+      "step": 1030
+    },
+    {
+      "epoch": 5.265822784810126,
+      "grad_norm": 1859831.3291458376,
+      "learning_rate": 3.926668755875901e-07,
+      "logits/chosen": -6.842263698577881,
+      "logits/rejected": -6.943556308746338,
+      "logps/chosen": -153.25328063964844,
+      "logps/rejected": -473.513427734375,
+      "loss": 51145.4938,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.08420612663030624,
+      "rewards/margins": 0.3194884657859802,
+      "rewards/rejected": -0.235282301902771,
+      "step": 1040
+    },
+    {
+      "epoch": 5.3164556962025316,
+      "grad_norm": 1855378.6614461695,
+      "learning_rate": 3.910999686618615e-07,
+      "logits/chosen": -7.331165313720703,
+      "logits/rejected": -7.468164920806885,
+      "logps/chosen": -162.1797637939453,
+      "logps/rejected": -474.08074951171875,
+      "loss": 50799.1687,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.0886077731847763,
+      "rewards/margins": 0.31340503692626953,
+      "rewards/rejected": -0.22479727864265442,
+      "step": 1050
+    },
+    {
+      "epoch": 5.367088607594937,
+      "grad_norm": 1600231.8694471747,
+      "learning_rate": 3.895330617361329e-07,
+      "logits/chosen": -7.2842841148376465,
+      "logits/rejected": -7.146345615386963,
+      "logps/chosen": -140.54055786132812,
+      "logps/rejected": -446.4241638183594,
+      "loss": 49384.9875,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.08458932489156723,
+      "rewards/margins": 0.3061215877532959,
+      "rewards/rejected": -0.22153222560882568,
+      "step": 1060
+    },
+    {
+      "epoch": 5.417721518987342,
+      "grad_norm": 1820648.707460815,
+      "learning_rate": 3.8796615481040425e-07,
+      "logits/chosen": -7.4867706298828125,
+      "logits/rejected": -7.318013668060303,
+      "logps/chosen": -162.54937744140625,
+      "logps/rejected": -469.13433837890625,
+      "loss": 48744.0469,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.0876765102148056,
+      "rewards/margins": 0.31078898906707764,
+      "rewards/rejected": -0.22311246395111084,
+      "step": 1070
+    },
+    {
+      "epoch": 5.468354430379747,
+      "grad_norm": 1629981.2772913359,
+      "learning_rate": 3.8639924788467566e-07,
+      "logits/chosen": -8.141877174377441,
+      "logits/rejected": -7.992497444152832,
+      "logps/chosen": -151.8604736328125,
+      "logps/rejected": -496.25201416015625,
+      "loss": 46868.6719,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.09172078222036362,
+      "rewards/margins": 0.3495192527770996,
+      "rewards/rejected": -0.257798433303833,
+      "step": 1080
+    },
+    {
+      "epoch": 5.518987341772152,
+      "grad_norm": 1843259.5793917184,
+      "learning_rate": 3.84832340958947e-07,
+      "logits/chosen": -7.577700614929199,
+      "logits/rejected": -7.340989589691162,
+      "logps/chosen": -152.68710327148438,
+      "logps/rejected": -466.3287048339844,
+      "loss": 48765.2375,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.08904045075178146,
+      "rewards/margins": 0.31981557607650757,
+      "rewards/rejected": -0.2307751476764679,
+      "step": 1090
+    },
+    {
+      "epoch": 5.569620253164557,
+      "grad_norm": 1848670.003471961,
+      "learning_rate": 3.8326543403321843e-07,
+      "logits/chosen": -5.992789268493652,
+      "logits/rejected": -5.831528663635254,
+      "logps/chosen": -131.7107696533203,
+      "logps/rejected": -433.0040588378906,
+      "loss": 48441.2188,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.08974520117044449,
+      "rewards/margins": 0.2995590269565582,
+      "rewards/rejected": -0.20981380343437195,
+      "step": 1100
+    },
+    {
+      "epoch": 5.620253164556962,
+      "grad_norm": 1834994.3527284127,
+      "learning_rate": 3.816985271074898e-07,
+      "logits/chosen": -6.8782501220703125,
+      "logits/rejected": -7.123211860656738,
+      "logps/chosen": -143.1776885986328,
+      "logps/rejected": -439.9363708496094,
+      "loss": 50301.1625,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.0787430927157402,
+      "rewards/margins": 0.29441121220588684,
+      "rewards/rejected": -0.21566812694072723,
+      "step": 1110
+    },
+    {
+      "epoch": 5.670886075949367,
+      "grad_norm": 2055858.9168272892,
+      "learning_rate": 3.801316201817612e-07,
+      "logits/chosen": -7.6317338943481445,
+      "logits/rejected": -7.619107723236084,
+      "logps/chosen": -152.3334503173828,
+      "logps/rejected": -453.30120849609375,
+      "loss": 49359.2312,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.0867711529135704,
+      "rewards/margins": 0.2968466281890869,
+      "rewards/rejected": -0.2100754976272583,
+      "step": 1120
+    },
+    {
+      "epoch": 5.7215189873417724,
+      "grad_norm": 1760917.726879333,
+      "learning_rate": 3.7856471325603256e-07,
+      "logits/chosen": -6.669379234313965,
+      "logits/rejected": -6.568717002868652,
+      "logps/chosen": -152.34774780273438,
+      "logps/rejected": -439.8075256347656,
+      "loss": 48808.2812,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.08005286753177643,
+      "rewards/margins": 0.28860196471214294,
+      "rewards/rejected": -0.20854909718036652,
+      "step": 1130
+    },
+    {
+      "epoch": 5.772151898734177,
+      "grad_norm": 1793917.574084858,
+      "learning_rate": 3.76997806330304e-07,
+      "logits/chosen": -7.020206451416016,
+      "logits/rejected": -6.4513840675354,
+      "logps/chosen": -126.99436950683594,
+      "logps/rejected": -429.0069274902344,
+      "loss": 48991.9938,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.08981131762266159,
+      "rewards/margins": 0.3046417832374573,
+      "rewards/rejected": -0.21483047306537628,
+      "step": 1140
+    },
+    {
+      "epoch": 5.822784810126582,
+      "grad_norm": 1856995.4726512374,
+      "learning_rate": 3.7543089940457533e-07,
+      "logits/chosen": -7.1540846824646,
+      "logits/rejected": -7.103608131408691,
+      "logps/chosen": -150.0362548828125,
+      "logps/rejected": -459.3680114746094,
+      "loss": 45240.3094,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.08858338743448257,
+      "rewards/margins": 0.3066866397857666,
+      "rewards/rejected": -0.21810325980186462,
+      "step": 1150
+    },
+    {
+      "epoch": 5.8734177215189876,
+      "grad_norm": 2252812.5376150296,
+      "learning_rate": 3.7386399247884675e-07,
+      "logits/chosen": -6.23285436630249,
+      "logits/rejected": -5.795694351196289,
+      "logps/chosen": -145.6466827392578,
+      "logps/rejected": -485.41229248046875,
+      "loss": 46892.1625,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.09205026924610138,
+      "rewards/margins": 0.34098342061042786,
+      "rewards/rejected": -0.24893316626548767,
+      "step": 1160
+    },
+    {
+      "epoch": 5.924050632911392,
+      "grad_norm": 1669143.1623524264,
+      "learning_rate": 3.722970855531181e-07,
+      "logits/chosen": -7.314904689788818,
+      "logits/rejected": -7.455816745758057,
+      "logps/chosen": -133.58151245117188,
+      "logps/rejected": -482.9154357910156,
+      "loss": 46493.0938,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.09256922453641891,
+      "rewards/margins": 0.34824666380882263,
+      "rewards/rejected": -0.2556774616241455,
+      "step": 1170
+    },
+    {
+      "epoch": 5.974683544303797,
+      "grad_norm": 1914279.6891733713,
+      "learning_rate": 3.707301786273895e-07,
+      "logits/chosen": -6.429854393005371,
+      "logits/rejected": -5.985020160675049,
+      "logps/chosen": -142.39651489257812,
+      "logps/rejected": -442.7286682128906,
+      "loss": 47640.0813,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.08776311576366425,
+      "rewards/margins": 0.30018630623817444,
+      "rewards/rejected": -0.2124231606721878,
+      "step": 1180
     }
   ],
   "logging_steps": 10,