cat-searcher commited on Jul 17

Commit

4656255

•

1 Parent(s): e86348a

Training in progress, epoch 34, checkpoint

Browse files

Files changed (29) hide show

last-checkpoint/global_step6706/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6706/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6706/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6706/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6706/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6706/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6706/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6706/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step6706/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6706/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6706/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6706/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6706/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6706/zero_pp_rank_5_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6706/zero_pp_rank_6_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step6706/zero_pp_rank_7_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +587 -2

last-checkpoint/global_step6706/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b42c56b1327b90cb9abc534edcfbb08932410debcd7305c0d1759e04bdc4d11
+size 2506176112

last-checkpoint/global_step6706/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9396272e9f609f397084631f7d4ffed08fff5c7a034e4194bfd0a7f72c70bfa1
+size 2506176112

last-checkpoint/global_step6706/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:591f9c4ae58767f09106f21436522ad83280a312251aec9632f74f3c9a6169e3
+size 2506176112

last-checkpoint/global_step6706/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:49135e96f11f14c0edf4c5dffe815b40ae94488d644743ef2dd9de99786ea8b7
+size 2506176112

last-checkpoint/global_step6706/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f8f3f16c835dc750d8d496565e2bd2e880599b1ef853595956dcdd5d856fc3f2
+size 2506176112

last-checkpoint/global_step6706/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a6c1e57d8cf90c74381abe81ec860ea539ed7f1005ee89c7ae0fca24ef4c060e
+size 2506176112

last-checkpoint/global_step6706/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:544f3afbdf2e5758131bde2e146c11a13beea591ed9ffd5bdc5734faad8a1043
+size 2506176112

last-checkpoint/global_step6706/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a8e4440e7e8b59cfb3cc26a05b82c5d57ea5084e4017e3c33d0e483da159561
+size 2506176112

last-checkpoint/global_step6706/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ef8119caf8c39ec12de2099badeb63ad829ce60b1bfeeebb9e0517a09c0a976
+size 85570

last-checkpoint/global_step6706/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a89445868a574a4e6ca673c951b38372184c1b6f771b3bfa85d93241a42213e9
+size 85506

last-checkpoint/global_step6706/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d31316c948c7d38bc67e1c7147275a977f4cc81870a86da11f10564b176127c
+size 85506

last-checkpoint/global_step6706/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b50dcfc583c1b3c6bea42d40dad8d32b734dc8be0c79d7e09f61d63bf79cccb7
+size 85506

last-checkpoint/global_step6706/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e31df5e5d1299642990ab63df3f37154cc9b1fabcfec91715a33296b7735163
+size 85506

last-checkpoint/global_step6706/zero_pp_rank_5_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6db17cba5932b9a1f9ea2964606a3e4054625b730789b3dd91f659e92c3486c
+size 85506

last-checkpoint/global_step6706/zero_pp_rank_6_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:49e00c574c29ae1516a5c427bcb11052789980cfebadc115603615c994101ab7
+size 85506

last-checkpoint/global_step6706/zero_pp_rank_7_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d51ee3a89f5d4297c41d5ecd7accd0c7f05aae37c660466fceca4c94b0656c3
+size 85506

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step6311~~


1	+ global_step6706

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a4166953b305647bfe20e1bbeb15a19c28014fe214420eadf6709470c2313a3
 size 4945242264

 version https://git-lfs.github.com/spec/v1
+oid sha256:6dccd3cd5529e5f163e359e3786831ba7375631404b7ee8058d8b4408e5f6c21
 size 4945242264

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60ab1e0ab13e8465a7f0033de41b00c3ef85f0686c27f26ccedd41583cf589de
 size 67121608

 version https://git-lfs.github.com/spec/v1
+oid sha256:c84686bbc6149ef7c13cd1e65651e398a75147e6c2a6349adc73d12c6ffa69ab
 size 67121608

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af2aa29a1a0077819b6e6c9858b2870298aef9379363892f7f4a488e66c5bd38
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:1824a3c32cb0f9c63783531dc708888703e1f1c3a24fcb1359a551096190eeb4
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:291da2a884d82312ccaa711af98beaa52d4f41499984405613bb21b5148565a2
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef711a8d330873d0c4240280ee39d5aa7914332ddf901ffeea474d7a3676d68e
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1bbb7042adc0fc2a1ac7bf08c10090a51f5d0491c80cb36a3e5f1380294d890
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc1c319ca557b1ad565c5491231c88b982788beb22edcc7662c65f10bac37a88
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70f0dc59a31366ea078c9fd119c2fc25b442df27e88be4fecef8251ec325566a
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:bda4459d526a1e94ec4135282c75d79950f5463b1f31627ef8f677d8a590cadd
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26207c8fd2f08c67b253e0d4b8b67c73971a41b870b2d0d9e52e1388c89513b5
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:c928635796240bfafd62cee0be31323babeadc7998190bc90de090567d3711fd
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac396bf6594a215db06382f8b0dfcb2360c2c6b1a95d8150fec6afd800852574
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:0e1e06f947b66a18ac20f7698fc3fe6fbf2a0fa9b5d6b3460904a385c167db64
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2edf36543f3b923b139f3541d6d94d5a2d50de85da08b18fa6867198430e57c
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a5533c6799b2aca827472a96ea0b581da238e7b44cbde527a6a83e4244ea55b
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f96eea372344884b68478842af038d9832fda66fa5d46d28035e601a7834efd4
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:9fd80eb1f10bbe498691d09f14b4f4a09102a449bc19f524f5b62f82768d3af5
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ac6a779be83142d0fb2f1a0e7950874d368e5e14f0bcab557da3d6573142406
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c25188d68c243cfb7b17f6acfbc1e55a94e4598b4924ebbd056f93551f70969
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 32.0,
   "eval_steps": 100,
-  "global_step": 6311,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9487,6 +9487,591 @@
       "rewards/margins": 0.5819977521896362,
       "rewards/rejected": -0.36624595522880554,
       "step": 6310
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 34.0,
   "eval_steps": 100,
+  "global_step": 6706,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.5819977521896362,
       "rewards/rejected": -0.36624595522880554,
       "step": 6310
+    },
+    {
+      "epoch": 32.04556962025316,
+      "grad_norm": 146925.77007874168,
+      "learning_rate": 6.04826073331244e-08,
+      "logits/chosen": -1.0771139860153198,
+      "logits/rejected": -0.38963261246681213,
+      "logps/chosen": -25.353687286376953,
+      "logps/rejected": -599.3104248046875,
+      "loss": 11649.7609,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.21451549232006073,
+      "rewards/margins": 0.5766840577125549,
+      "rewards/rejected": -0.3621685206890106,
+      "step": 6320
+    },
+    {
+      "epoch": 32.09620253164557,
+      "grad_norm": 94333.82344683389,
+      "learning_rate": 5.96991538702601e-08,
+      "logits/chosen": -2.162341356277466,
+      "logits/rejected": -1.5530678033828735,
+      "logps/chosen": -36.120880126953125,
+      "logps/rejected": -594.9260864257812,
+      "loss": 11919.4,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.2106127291917801,
+      "rewards/margins": 0.558625340461731,
+      "rewards/rejected": -0.34801262617111206,
+      "step": 6330
+    },
+    {
+      "epoch": 32.14683544303797,
+      "grad_norm": 144438.33677050017,
+      "learning_rate": 5.8915700407395795e-08,
+      "logits/chosen": -0.8229999542236328,
+      "logits/rejected": -0.037537313997745514,
+      "logps/chosen": -25.43358612060547,
+      "logps/rejected": -557.636474609375,
+      "loss": 11297.6063,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.1968574970960617,
+      "rewards/margins": 0.532370388507843,
+      "rewards/rejected": -0.33551284670829773,
+      "step": 6340
+    },
+    {
+      "epoch": 32.19746835443038,
+      "grad_norm": 109693.94525690017,
+      "learning_rate": 5.813224694453149e-08,
+      "logits/chosen": -3.077913761138916,
+      "logits/rejected": -2.4543375968933105,
+      "logps/chosen": -26.92588233947754,
+      "logps/rejected": -583.3746337890625,
+      "loss": 12147.5016,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.21152964234352112,
+      "rewards/margins": 0.5570891499519348,
+      "rewards/rejected": -0.3455595374107361,
+      "step": 6350
+    },
+    {
+      "epoch": 32.24810126582278,
+      "grad_norm": 94464.04824246689,
+      "learning_rate": 5.734879348166719e-08,
+      "logits/chosen": -0.08146251738071442,
+      "logits/rejected": -0.1943734884262085,
+      "logps/chosen": -38.933929443359375,
+      "logps/rejected": -599.4444580078125,
+      "loss": 11706.7859,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.21242408454418182,
+      "rewards/margins": 0.5596734881401062,
+      "rewards/rejected": -0.34724941849708557,
+      "step": 6360
+    },
+    {
+      "epoch": 32.29873417721519,
+      "grad_norm": 93779.41167523999,
+      "learning_rate": 5.656534001880288e-08,
+      "logits/chosen": 0.4058389663696289,
+      "logits/rejected": 0.994676947593689,
+      "logps/chosen": -21.240737915039062,
+      "logps/rejected": -573.2392578125,
+      "loss": 12153.6359,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.19539888203144073,
+      "rewards/margins": 0.550510048866272,
+      "rewards/rejected": -0.35511118173599243,
+      "step": 6370
+    },
+    {
+      "epoch": 32.34936708860759,
+      "grad_norm": 215459.26677533987,
+      "learning_rate": 5.5781886555938573e-08,
+      "logits/chosen": -1.0755536556243896,
+      "logits/rejected": -0.2684146761894226,
+      "logps/chosen": -25.781116485595703,
+      "logps/rejected": -580.9659423828125,
+      "loss": 11508.8133,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.21089033782482147,
+      "rewards/margins": 0.5592586994171143,
+      "rewards/rejected": -0.34836840629577637,
+      "step": 6380
+    },
+    {
+      "epoch": 32.4,
+      "grad_norm": 164612.93717131627,
+      "learning_rate": 5.4998433093074266e-08,
+      "logits/chosen": -2.730407238006592,
+      "logits/rejected": -2.2623066902160645,
+      "logps/chosen": -38.27416229248047,
+      "logps/rejected": -612.3323364257812,
+      "loss": 10969.9328,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.22319836914539337,
+      "rewards/margins": 0.573035478591919,
+      "rewards/rejected": -0.34983712434768677,
+      "step": 6390
+    },
+    {
+      "epoch": 32.450632911392404,
+      "grad_norm": 140032.81053392185,
+      "learning_rate": 5.421497963020996e-08,
+      "logits/chosen": -0.6492301821708679,
+      "logits/rejected": -0.778862476348877,
+      "logps/chosen": -28.754650115966797,
+      "logps/rejected": -591.8221435546875,
+      "loss": 12521.7703,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.21057042479515076,
+      "rewards/margins": 0.5634862780570984,
+      "rewards/rejected": -0.35291582345962524,
+      "step": 6400
+    },
+    {
+      "epoch": 32.50126582278481,
+      "grad_norm": 102205.70485715618,
+      "learning_rate": 5.343152616734566e-08,
+      "logits/chosen": -0.9864907264709473,
+      "logits/rejected": -0.19051684439182281,
+      "logps/chosen": -29.4318904876709,
+      "logps/rejected": -605.131103515625,
+      "loss": 11591.8508,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2185964584350586,
+      "rewards/margins": 0.579878032207489,
+      "rewards/rejected": -0.3612816333770752,
+      "step": 6410
+    },
+    {
+      "epoch": 32.551898734177215,
+      "grad_norm": 103047.13529668628,
+      "learning_rate": 5.264807270448135e-08,
+      "logits/chosen": -2.3946361541748047,
+      "logits/rejected": -1.8663170337677002,
+      "logps/chosen": -22.362850189208984,
+      "logps/rejected": -582.4278564453125,
+      "loss": 11901.1398,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.21427400410175323,
+      "rewards/margins": 0.5642385482788086,
+      "rewards/rejected": -0.34996455907821655,
+      "step": 6420
+    },
+    {
+      "epoch": 32.60253164556962,
+      "grad_norm": 86074.947460872,
+      "learning_rate": 5.1864619241617044e-08,
+      "logits/chosen": 0.2598368227481842,
+      "logits/rejected": 0.16884984076023102,
+      "logps/chosen": -22.76316261291504,
+      "logps/rejected": -594.866455078125,
+      "loss": 12333.5344,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2121623456478119,
+      "rewards/margins": 0.5697360038757324,
+      "rewards/rejected": -0.35757365822792053,
+      "step": 6430
+    },
+    {
+      "epoch": 32.653164556962025,
+      "grad_norm": 137970.73954909868,
+      "learning_rate": 5.108116577875274e-08,
+      "logits/chosen": -0.11699090898036957,
+      "logits/rejected": 0.11212899535894394,
+      "logps/chosen": -29.464065551757812,
+      "logps/rejected": -573.3801879882812,
+      "loss": 11953.9641,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.21537606418132782,
+      "rewards/margins": 0.5438817739486694,
+      "rewards/rejected": -0.3285056948661804,
+      "step": 6440
+    },
+    {
+      "epoch": 32.70379746835443,
+      "grad_norm": 460796.64629538235,
+      "learning_rate": 5.029771231588843e-08,
+      "logits/chosen": -1.4031693935394287,
+      "logits/rejected": -2.1060502529144287,
+      "logps/chosen": -23.794132232666016,
+      "logps/rejected": -581.7036743164062,
+      "loss": 12159.9719,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20509609580039978,
+      "rewards/margins": 0.5560418367385864,
+      "rewards/rejected": -0.35094568133354187,
+      "step": 6450
+    },
+    {
+      "epoch": 32.754430379746836,
+      "grad_norm": 88571.49642806537,
+      "learning_rate": 4.951425885302413e-08,
+      "logits/chosen": -0.29163846373558044,
+      "logits/rejected": 0.15456560254096985,
+      "logps/chosen": -19.800487518310547,
+      "logps/rejected": -562.6231689453125,
+      "loss": 11758.9578,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2048061192035675,
+      "rewards/margins": 0.5433157682418823,
+      "rewards/rejected": -0.33850961923599243,
+      "step": 6460
+    },
+    {
+      "epoch": 32.80506329113924,
+      "grad_norm": 166818.40028028333,
+      "learning_rate": 4.873080539015982e-08,
+      "logits/chosen": 0.3278934061527252,
+      "logits/rejected": 0.6011670827865601,
+      "logps/chosen": -33.445350646972656,
+      "logps/rejected": -590.470703125,
+      "loss": 11395.1164,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.2123481035232544,
+      "rewards/margins": 0.5555016994476318,
+      "rewards/rejected": -0.34315359592437744,
+      "step": 6470
+    },
+    {
+      "epoch": 32.85569620253165,
+      "grad_norm": 80619.8591659213,
+      "learning_rate": 4.7947351927295515e-08,
+      "logits/chosen": -1.3291213512420654,
+      "logits/rejected": -1.6056814193725586,
+      "logps/chosen": -29.16250228881836,
+      "logps/rejected": -598.3140869140625,
+      "loss": 11908.6562,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.21245749294757843,
+      "rewards/margins": 0.5684391856193542,
+      "rewards/rejected": -0.3559816777706146,
+      "step": 6480
+    },
+    {
+      "epoch": 32.90632911392405,
+      "grad_norm": 109452.38261580766,
+      "learning_rate": 4.716389846443121e-08,
+      "logits/chosen": -2.2227654457092285,
+      "logits/rejected": -2.1318516731262207,
+      "logps/chosen": -27.57879638671875,
+      "logps/rejected": -593.1817626953125,
+      "loss": 11900.8148,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2101704627275467,
+      "rewards/margins": 0.565523624420166,
+      "rewards/rejected": -0.35535311698913574,
+      "step": 6490
+    },
+    {
+      "epoch": 32.95696202531646,
+      "grad_norm": 146037.74057243837,
+      "learning_rate": 4.63804450015669e-08,
+      "logits/chosen": -0.4855597913265228,
+      "logits/rejected": -0.07905157655477524,
+      "logps/chosen": -32.26173782348633,
+      "logps/rejected": -582.983154296875,
+      "loss": 12785.9484,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.2102789580821991,
+      "rewards/margins": 0.5541440844535828,
+      "rewards/rejected": -0.34386518597602844,
+      "step": 6500
+    },
+    {
+      "epoch": 33.00759493670886,
+      "grad_norm": 80554.44381289573,
+      "learning_rate": 4.55969915387026e-08,
+      "logits/chosen": -1.16013503074646,
+      "logits/rejected": -1.237755537033081,
+      "logps/chosen": -22.434879302978516,
+      "logps/rejected": -572.4281005859375,
+      "loss": 11892.3344,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2072155922651291,
+      "rewards/margins": 0.54491126537323,
+      "rewards/rejected": -0.3376956880092621,
+      "step": 6510
+    },
+    {
+      "epoch": 33.05822784810127,
+      "grad_norm": 128557.62032643631,
+      "learning_rate": 4.481353807583829e-08,
+      "logits/chosen": -0.2354935109615326,
+      "logits/rejected": 0.728766143321991,
+      "logps/chosen": -29.432445526123047,
+      "logps/rejected": -585.3494262695312,
+      "loss": 11835.0961,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.2072407454252243,
+      "rewards/margins": 0.5606441497802734,
+      "rewards/rejected": -0.35340338945388794,
+      "step": 6520
+    },
+    {
+      "epoch": 33.10886075949367,
+      "grad_norm": 91776.99508964189,
+      "learning_rate": 4.4030084612973985e-08,
+      "logits/chosen": -1.175462007522583,
+      "logits/rejected": -1.1933832168579102,
+      "logps/chosen": -21.900630950927734,
+      "logps/rejected": -574.4762573242188,
+      "loss": 12157.9109,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20543113350868225,
+      "rewards/margins": 0.5517674684524536,
+      "rewards/rejected": -0.346336305141449,
+      "step": 6530
+    },
+    {
+      "epoch": 33.15949367088608,
+      "grad_norm": 89893.29258028018,
+      "learning_rate": 4.324663115010968e-08,
+      "logits/chosen": -0.7350924015045166,
+      "logits/rejected": -0.16997528076171875,
+      "logps/chosen": -23.83113670349121,
+      "logps/rejected": -575.5424194335938,
+      "loss": 11686.9375,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.20410069823265076,
+      "rewards/margins": 0.5512816309928894,
+      "rewards/rejected": -0.34718090295791626,
+      "step": 6540
+    },
+    {
+      "epoch": 33.210126582278484,
+      "grad_norm": 120975.35903766478,
+      "learning_rate": 4.246317768724538e-08,
+      "logits/chosen": -0.08163319528102875,
+      "logits/rejected": 0.07650710642337799,
+      "logps/chosen": -27.332035064697266,
+      "logps/rejected": -579.8117065429688,
+      "loss": 11339.9297,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.2052970826625824,
+      "rewards/margins": 0.5518554449081421,
+      "rewards/rejected": -0.3465583324432373,
+      "step": 6550
+    },
+    {
+      "epoch": 33.26075949367089,
+      "grad_norm": 180391.18731890293,
+      "learning_rate": 4.167972422438107e-08,
+      "logits/chosen": -0.8266963958740234,
+      "logits/rejected": 1.0672438144683838,
+      "logps/chosen": -23.287370681762695,
+      "logps/rejected": -572.2568969726562,
+      "loss": 11743.5586,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.19874341785907745,
+      "rewards/margins": 0.5572081804275513,
+      "rewards/rejected": -0.35846468806266785,
+      "step": 6560
+    },
+    {
+      "epoch": 33.311392405063295,
+      "grad_norm": 84282.72341083131,
+      "learning_rate": 4.0896270761516763e-08,
+      "logits/chosen": -1.91861093044281,
+      "logits/rejected": -1.3766604661941528,
+      "logps/chosen": -24.914443969726562,
+      "logps/rejected": -581.4729614257812,
+      "loss": 11078.6969,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.21130716800689697,
+      "rewards/margins": 0.5577182769775391,
+      "rewards/rejected": -0.34641116857528687,
+      "step": 6570
+    },
+    {
+      "epoch": 33.36202531645569,
+      "grad_norm": 199903.347381946,
+      "learning_rate": 4.0112817298652456e-08,
+      "logits/chosen": -1.2995800971984863,
+      "logits/rejected": -1.6440702676773071,
+      "logps/chosen": -22.356828689575195,
+      "logps/rejected": -591.6265869140625,
+      "loss": 11937.0477,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2072306126356125,
+      "rewards/margins": 0.5668342709541321,
+      "rewards/rejected": -0.3596035838127136,
+      "step": 6580
+    },
+    {
+      "epoch": 33.4126582278481,
+      "grad_norm": 138603.96487037002,
+      "learning_rate": 3.932936383578815e-08,
+      "logits/chosen": 0.8098524212837219,
+      "logits/rejected": 1.2947828769683838,
+      "logps/chosen": -26.31606674194336,
+      "logps/rejected": -584.9072265625,
+      "loss": 11177.5336,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.20386937260627747,
+      "rewards/margins": 0.5589767694473267,
+      "rewards/rejected": -0.3551073968410492,
+      "step": 6590
+    },
+    {
+      "epoch": 33.4632911392405,
+      "grad_norm": 123948.78500072335,
+      "learning_rate": 3.854591037292385e-08,
+      "logits/chosen": -2.16947603225708,
+      "logits/rejected": -1.0904394388198853,
+      "logps/chosen": -42.8673095703125,
+      "logps/rejected": -585.2350463867188,
+      "loss": 11894.6641,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2195717990398407,
+      "rewards/margins": 0.5601873397827148,
+      "rewards/rejected": -0.34061557054519653,
+      "step": 6600
+    },
+    {
+      "epoch": 33.51392405063291,
+      "grad_norm": 113327.62874252205,
+      "learning_rate": 3.776245691005954e-08,
+      "logits/chosen": -1.375249981880188,
+      "logits/rejected": -0.7785667181015015,
+      "logps/chosen": -29.649211883544922,
+      "logps/rejected": -602.9840698242188,
+      "loss": 12210.0344,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.22011515498161316,
+      "rewards/margins": 0.5793704390525818,
+      "rewards/rejected": -0.35925528407096863,
+      "step": 6610
+    },
+    {
+      "epoch": 33.564556962025314,
+      "grad_norm": 79524.96422723045,
+      "learning_rate": 3.6979003447195234e-08,
+      "logits/chosen": -0.7508550882339478,
+      "logits/rejected": -0.23799777030944824,
+      "logps/chosen": -17.09669303894043,
+      "logps/rejected": -572.3134155273438,
+      "loss": 12138.4203,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2047223150730133,
+      "rewards/margins": 0.5538768768310547,
+      "rewards/rejected": -0.34915462136268616,
+      "step": 6620
+    },
+    {
+      "epoch": 33.61518987341772,
+      "grad_norm": 80597.64263401506,
+      "learning_rate": 3.619554998433093e-08,
+      "logits/chosen": -1.7500404119491577,
+      "logits/rejected": -1.4937622547149658,
+      "logps/chosen": -24.847320556640625,
+      "logps/rejected": -594.1591796875,
+      "loss": 12270.6344,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.21394848823547363,
+      "rewards/margins": 0.5700836181640625,
+      "rewards/rejected": -0.35613518953323364,
+      "step": 6630
+    },
+    {
+      "epoch": 33.665822784810125,
+      "grad_norm": 100669.75725024722,
+      "learning_rate": 3.541209652146662e-08,
+      "logits/chosen": -0.4524414539337158,
+      "logits/rejected": -0.5694657564163208,
+      "logps/chosen": -25.72067642211914,
+      "logps/rejected": -572.9901123046875,
+      "loss": 11448.4047,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.20151250064373016,
+      "rewards/margins": 0.5470980405807495,
+      "rewards/rejected": -0.345585435628891,
+      "step": 6640
+    },
+    {
+      "epoch": 33.71645569620253,
+      "grad_norm": 136734.1372891588,
+      "learning_rate": 3.462864305860232e-08,
+      "logits/chosen": -0.10392338037490845,
+      "logits/rejected": 0.025324154645204544,
+      "logps/chosen": -23.138744354248047,
+      "logps/rejected": -578.2369995117188,
+      "loss": 11719.0234,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.2065146416425705,
+      "rewards/margins": 0.5536417365074158,
+      "rewards/rejected": -0.3471270501613617,
+      "step": 6650
+    },
+    {
+      "epoch": 33.767088607594935,
+      "grad_norm": 96060.1935775592,
+      "learning_rate": 3.384518959573801e-08,
+      "logits/chosen": -1.5298357009887695,
+      "logits/rejected": -1.111659049987793,
+      "logps/chosen": -36.602691650390625,
+      "logps/rejected": -594.2269287109375,
+      "loss": 11903.4828,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.21466748416423798,
+      "rewards/margins": 0.5613253116607666,
+      "rewards/rejected": -0.34665781259536743,
+      "step": 6660
+    },
+    {
+      "epoch": 33.81772151898734,
+      "grad_norm": 82308.39144839271,
+      "learning_rate": 3.3061736132873705e-08,
+      "logits/chosen": -1.9629747867584229,
+      "logits/rejected": -1.8584734201431274,
+      "logps/chosen": -17.865947723388672,
+      "logps/rejected": -566.314453125,
+      "loss": 12147.5891,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.2041165828704834,
+      "rewards/margins": 0.5491331219673157,
+      "rewards/rejected": -0.3450164496898651,
+      "step": 6670
+    },
+    {
+      "epoch": 33.868354430379746,
+      "grad_norm": 132433.76933098322,
+      "learning_rate": 3.22782826700094e-08,
+      "logits/chosen": -0.10643855482339859,
+      "logits/rejected": 0.1565506011247635,
+      "logps/chosen": -23.206607818603516,
+      "logps/rejected": -565.3855590820312,
+      "loss": 11928.0656,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.19701281189918518,
+      "rewards/margins": 0.5372076630592346,
+      "rewards/rejected": -0.34019485116004944,
+      "step": 6680
+    },
+    {
+      "epoch": 33.91898734177215,
+      "grad_norm": 99524.21425394616,
+      "learning_rate": 3.149482920714509e-08,
+      "logits/chosen": 0.7746875286102295,
+      "logits/rejected": 1.4906342029571533,
+      "logps/chosen": -28.62857437133789,
+      "logps/rejected": -569.8626708984375,
+      "loss": 11616.475,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.20620207488536835,
+      "rewards/margins": 0.548004686832428,
+      "rewards/rejected": -0.3418026268482208,
+      "step": 6690
+    },
+    {
+      "epoch": 33.96962025316456,
+      "grad_norm": 72753.16066899289,
+      "learning_rate": 3.071137574428079e-08,
+      "logits/chosen": 0.6492331624031067,
+      "logits/rejected": 0.7617141604423523,
+      "logps/chosen": -25.677988052368164,
+      "logps/rejected": -560.1131591796875,
+      "loss": 12074.9086,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.19937190413475037,
+      "rewards/margins": 0.5361818075180054,
+      "rewards/rejected": -0.33680984377861023,
+      "step": 6700
     }
   ],
   "logging_steps": 10,