AmberYifan commited on 14 days ago

Commit

9c40dae

verified ·

1 Parent(s): 7d5eb33

Training in progress, epoch 3, checkpoint

Browse files

Files changed (19) hide show

last-checkpoint/global_step936/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step936/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step936/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step936/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step936/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step936/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step936/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step936/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +484 -3

last-checkpoint/global_step936/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba23f67105dfdf2606c4117e349b8b3411572f1a06f7274b93df98e0143a2340
+size 15231238316

last-checkpoint/global_step936/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7dad3d1ee2361272c98613600e6f8429d26a7b8d1074ac9377d72ac245455869
+size 15231238316

last-checkpoint/global_step936/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a4a6d7e737ce568b4e386577d72d1f92716a80be5f246cfd3aa1556290a60eed
+size 15231238316

last-checkpoint/global_step936/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4f229e47f657f28ec28e62aaeca029699998ba7522ae8c22350737dc7025fc9
+size 15231238316

last-checkpoint/global_step936/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a4e58bbf7a35296b99917a789d4b78e20da4a4bf2a8c214a2e5a32093d923a8
+size 167957

last-checkpoint/global_step936/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c75545d2cf19fd330fc12c711c4743c238fae2d43b92fd3cc2dc97a854b1edcf
+size 167957

last-checkpoint/global_step936/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd58531347d43a63a43eb6be7ca653248617eb89702bb4332abb01d1374cf643
+size 167957

last-checkpoint/global_step936/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0c6399b2ff9579e7d03117018ec8e18fcb11197d75bc16ca790017943fc7e6e
+size 167957

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step624~~


1	+ global_step936

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0dcd3e4a895b73381d5d935ddd5929761c94d2e1528411a4dbef227b6bc5a2bb
 size 4877660776

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b480061d20c9dde9569efa10be72a732fef72237acaa351113526613d1effe7
 size 4877660776

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf2f0cb81392172f2ca379ba4cd18b73ff55a7f1e263d8e1d13b571c3ae0496d
 size 4932751008

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e03818263419c0eb073727a956e1d356f84beed0b0f403009ddbb0c4ba85c10
 size 4932751008

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c75756c367ad34e736c60b0f08af15606111abb54903816ab10581f170dd1ea
 size 4330865200

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9b9e1687de6db5715c623975316bab142f0b4400c82827d5a0ba40a036cb290
 size 4330865200

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e35448a8a2334c73339c2cb7cec36694aade444feb087ec1989b3195df69de5c
 size 1089994880

 version https://git-lfs.github.com/spec/v1
+oid sha256:dec9edd546f3223e9bdef16c620819d972a426e63309d450e681b77ed1a0be35
 size 1089994880

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2307c03867cef25b5028feb9a23f80e784b9af9a615de13ddca560a6a90fb593
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab7cf0d34d60dfda516cf9661904550e2e294e723edd07c25c738f05e8ba92d1
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50218cfaecdd818354e567b7167c13899e3b42297e7d8f58bd7e732cfa547800
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7b183324e8227a51a9556d86b2ad893a8c4c52205ed4a737356c6611dac7353
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9814a66b49861f5495b06dae3be12ddf7185b88e2cae1fb808ca9efd99d5807f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac69e994090f4818cb1fa6f6cefa363178552c3c731c6507ff195bcb07fd5bef
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7be93040a65e0a29975f6c70b94418e1fdf88423a50c58aa572141d3c92fbfc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f68e61b63402f8afb1f69c960f7944965655dac11e3ccf29919c282f23931f86
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eba46a04fca9d4584d0e7af07b2d004fba441dbf422bdb9977bfac0706fb41fe
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b68e0a486bddf6dff90d73426f2281b66faaad35da219979b7985f12d4a9a424
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 624,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -984,6 +984,487 @@
       "eval_samples_per_second": 15.148,
       "eval_steps_per_second": 0.533,
       "step": 624
     }
   ],
   "logging_steps": 10,
@@ -998,7 +1479,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 936,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.148,
       "eval_steps_per_second": 0.533,
       "step": 624
+    },
+    {
+      "epoch": 2.019230769230769,
+      "grad_norm": 7.602302274735335,
+      "learning_rate": 1.8171021377672207e-07,
+      "logits/chosen": -2.078125,
+      "logits/rejected": -1.890625,
+      "logps/chosen": -158.0,
+      "logps/rejected": -249.0,
+      "loss": 0.0824,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -0.703125,
+      "rewards/margins": 4.9375,
+      "rewards/rejected": -5.65625,
+      "step": 630
+    },
+    {
+      "epoch": 2.051282051282051,
+      "grad_norm": 5.740339271228209,
+      "learning_rate": 1.7577197149643706e-07,
+      "logits/chosen": -2.171875,
+      "logits/rejected": -1.84375,
+      "logps/chosen": -127.5,
+      "logps/rejected": -204.0,
+      "loss": 0.073,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.44140625,
+      "rewards/margins": 4.875,
+      "rewards/rejected": -5.3125,
+      "step": 640
+    },
+    {
+      "epoch": 2.0833333333333335,
+      "grad_norm": 7.905725533448705,
+      "learning_rate": 1.6983372921615202e-07,
+      "logits/chosen": -2.171875,
+      "logits/rejected": -1.953125,
+      "logps/chosen": -134.0,
+      "logps/rejected": -218.0,
+      "loss": 0.0712,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.88671875,
+      "rewards/margins": 4.84375,
+      "rewards/rejected": -5.71875,
+      "step": 650
+    },
+    {
+      "epoch": 2.1153846153846154,
+      "grad_norm": 8.114397917313823,
+      "learning_rate": 1.6389548693586697e-07,
+      "logits/chosen": -2.15625,
+      "logits/rejected": -1.890625,
+      "logps/chosen": -152.0,
+      "logps/rejected": -248.0,
+      "loss": 0.0518,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.486328125,
+      "rewards/margins": 5.65625,
+      "rewards/rejected": -6.15625,
+      "step": 660
+    },
+    {
+      "epoch": 2.1474358974358974,
+      "grad_norm": 8.087418605885372,
+      "learning_rate": 1.5795724465558193e-07,
+      "logits/chosen": -2.078125,
+      "logits/rejected": -1.890625,
+      "logps/chosen": -180.0,
+      "logps/rejected": -246.0,
+      "loss": 0.0685,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.0234375,
+      "rewards/margins": 5.3125,
+      "rewards/rejected": -6.34375,
+      "step": 670
+    },
+    {
+      "epoch": 2.1794871794871793,
+      "grad_norm": 4.110432168859028,
+      "learning_rate": 1.520190023752969e-07,
+      "logits/chosen": -2.03125,
+      "logits/rejected": -1.8828125,
+      "logps/chosen": -147.0,
+      "logps/rejected": -240.0,
+      "loss": 0.0593,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.828125,
+      "rewards/margins": 5.0625,
+      "rewards/rejected": -5.875,
+      "step": 680
+    },
+    {
+      "epoch": 2.2115384615384617,
+      "grad_norm": 3.9500688995557565,
+      "learning_rate": 1.4608076009501184e-07,
+      "logits/chosen": -2.15625,
+      "logits/rejected": -1.8828125,
+      "logps/chosen": -149.0,
+      "logps/rejected": -212.0,
+      "loss": 0.0679,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -0.7421875,
+      "rewards/margins": 5.0625,
+      "rewards/rejected": -5.8125,
+      "step": 690
+    },
+    {
+      "epoch": 2.2435897435897436,
+      "grad_norm": 3.869815076968618,
+      "learning_rate": 1.4014251781472683e-07,
+      "logits/chosen": -2.1875,
+      "logits/rejected": -1.890625,
+      "logps/chosen": -142.0,
+      "logps/rejected": -237.0,
+      "loss": 0.0566,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.72265625,
+      "rewards/margins": 5.9375,
+      "rewards/rejected": -6.6875,
+      "step": 700
+    },
+    {
+      "epoch": 2.2756410256410255,
+      "grad_norm": 6.361045590274929,
+      "learning_rate": 1.342042755344418e-07,
+      "logits/chosen": -2.21875,
+      "logits/rejected": -1.984375,
+      "logps/chosen": -127.5,
+      "logps/rejected": -236.0,
+      "loss": 0.0471,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7421875,
+      "rewards/margins": 5.90625,
+      "rewards/rejected": -6.65625,
+      "step": 710
+    },
+    {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 14.662277411395577,
+      "learning_rate": 1.2826603325415677e-07,
+      "logits/chosen": -2.234375,
+      "logits/rejected": -1.9609375,
+      "logps/chosen": -149.0,
+      "logps/rejected": -241.0,
+      "loss": 0.06,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.86328125,
+      "rewards/margins": 5.6875,
+      "rewards/rejected": -6.53125,
+      "step": 720
+    },
+    {
+      "epoch": 2.33974358974359,
+      "grad_norm": 9.563371630730597,
+      "learning_rate": 1.2232779097387173e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.015625,
+      "logps/chosen": -159.0,
+      "logps/rejected": -266.0,
+      "loss": 0.0506,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.60546875,
+      "rewards/margins": 6.25,
+      "rewards/rejected": -6.84375,
+      "step": 730
+    },
+    {
+      "epoch": 2.371794871794872,
+      "grad_norm": 10.814008192833413,
+      "learning_rate": 1.163895486935867e-07,
+      "logits/chosen": -2.109375,
+      "logits/rejected": -1.8671875,
+      "logps/chosen": -132.0,
+      "logps/rejected": -241.0,
+      "loss": 0.0465,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.6875,
+      "rewards/margins": 5.8125,
+      "rewards/rejected": -6.46875,
+      "step": 740
+    },
+    {
+      "epoch": 2.4038461538461537,
+      "grad_norm": 3.97366591840873,
+      "learning_rate": 1.1045130641330165e-07,
+      "logits/chosen": -2.140625,
+      "logits/rejected": -1.828125,
+      "logps/chosen": -148.0,
+      "logps/rejected": -211.0,
+      "loss": 0.0436,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.109375,
+      "rewards/margins": 4.6875,
+      "rewards/rejected": -5.78125,
+      "step": 750
+    },
+    {
+      "epoch": 2.435897435897436,
+      "grad_norm": 8.630922662380843,
+      "learning_rate": 1.0451306413301662e-07,
+      "logits/chosen": -2.171875,
+      "logits/rejected": -1.9296875,
+      "logps/chosen": -143.0,
+      "logps/rejected": -252.0,
+      "loss": 0.06,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.03125,
+      "rewards/margins": 5.75,
+      "rewards/rejected": -6.78125,
+      "step": 760
+    },
+    {
+      "epoch": 2.467948717948718,
+      "grad_norm": 12.297647342928055,
+      "learning_rate": 9.857482185273158e-08,
+      "logits/chosen": -2.25,
+      "logits/rejected": -1.984375,
+      "logps/chosen": -141.0,
+      "logps/rejected": -237.0,
+      "loss": 0.0778,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.87890625,
+      "rewards/margins": 5.53125,
+      "rewards/rejected": -6.40625,
+      "step": 770
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 6.128703056349062,
+      "learning_rate": 9.263657957244655e-08,
+      "logits/chosen": -2.125,
+      "logits/rejected": -1.921875,
+      "logps/chosen": -156.0,
+      "logps/rejected": -272.0,
+      "loss": 0.0513,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.1015625,
+      "rewards/margins": 5.5,
+      "rewards/rejected": -6.59375,
+      "step": 780
+    },
+    {
+      "epoch": 2.532051282051282,
+      "grad_norm": 6.1462118726242165,
+      "learning_rate": 8.669833729216151e-08,
+      "logits/chosen": -2.09375,
+      "logits/rejected": -1.9296875,
+      "logps/chosen": -155.0,
+      "logps/rejected": -219.0,
+      "loss": 0.0717,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -1.4609375,
+      "rewards/margins": 4.71875,
+      "rewards/rejected": -6.1875,
+      "step": 790
+    },
+    {
+      "epoch": 2.564102564102564,
+      "grad_norm": 2.477324464565163,
+      "learning_rate": 8.076009501187649e-08,
+      "logits/chosen": -2.109375,
+      "logits/rejected": -1.9609375,
+      "logps/chosen": -151.0,
+      "logps/rejected": -276.0,
+      "loss": 0.0596,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -0.53515625,
+      "rewards/margins": 6.125,
+      "rewards/rejected": -6.625,
+      "step": 800
+    },
+    {
+      "epoch": 2.5961538461538463,
+      "grad_norm": 9.889607398096697,
+      "learning_rate": 7.482185273159145e-08,
+      "logits/chosen": -2.171875,
+      "logits/rejected": -1.9375,
+      "logps/chosen": -141.0,
+      "logps/rejected": -260.0,
+      "loss": 0.0714,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.92578125,
+      "rewards/margins": 6.0,
+      "rewards/rejected": -6.9375,
+      "step": 810
+    },
+    {
+      "epoch": 2.628205128205128,
+      "grad_norm": 13.491047889005468,
+      "learning_rate": 6.88836104513064e-08,
+      "logits/chosen": -2.140625,
+      "logits/rejected": -1.8515625,
+      "logps/chosen": -137.0,
+      "logps/rejected": -217.0,
+      "loss": 0.0532,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.1796875,
+      "rewards/margins": 5.28125,
+      "rewards/rejected": -6.46875,
+      "step": 820
+    },
+    {
+      "epoch": 2.66025641025641,
+      "grad_norm": 12.675796793182576,
+      "learning_rate": 6.294536817102138e-08,
+      "logits/chosen": -2.15625,
+      "logits/rejected": -1.921875,
+      "logps/chosen": -148.0,
+      "logps/rejected": -231.0,
+      "loss": 0.0521,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.359375,
+      "rewards/margins": 5.53125,
+      "rewards/rejected": -6.875,
+      "step": 830
+    },
+    {
+      "epoch": 2.6923076923076925,
+      "grad_norm": 6.986806620253292,
+      "learning_rate": 5.700712589073634e-08,
+      "logits/chosen": -2.3125,
+      "logits/rejected": -2.0,
+      "logps/chosen": -132.0,
+      "logps/rejected": -254.0,
+      "loss": 0.0581,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.91015625,
+      "rewards/margins": 6.34375,
+      "rewards/rejected": -7.25,
+      "step": 840
+    },
+    {
+      "epoch": 2.7243589743589745,
+      "grad_norm": 6.0495293737323825,
+      "learning_rate": 5.10688836104513e-08,
+      "logits/chosen": -2.28125,
+      "logits/rejected": -1.90625,
+      "logps/chosen": -134.0,
+      "logps/rejected": -219.0,
+      "loss": 0.0463,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -1.3359375,
+      "rewards/margins": 5.8125,
+      "rewards/rejected": -7.125,
+      "step": 850
+    },
+    {
+      "epoch": 2.7564102564102564,
+      "grad_norm": 6.627498798256024,
+      "learning_rate": 4.5130641330166267e-08,
+      "logits/chosen": -2.125,
+      "logits/rejected": -1.9921875,
+      "logps/chosen": -166.0,
+      "logps/rejected": -255.0,
+      "loss": 0.0433,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -1.328125,
+      "rewards/margins": 5.65625,
+      "rewards/rejected": -7.0,
+      "step": 860
+    },
+    {
+      "epoch": 2.7884615384615383,
+      "grad_norm": 15.46615808127758,
+      "learning_rate": 3.919239904988123e-08,
+      "logits/chosen": -2.140625,
+      "logits/rejected": -1.921875,
+      "logps/chosen": -137.0,
+      "logps/rejected": -227.0,
+      "loss": 0.0493,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.625,
+      "rewards/margins": 5.625,
+      "rewards/rejected": -7.25,
+      "step": 870
+    },
+    {
+      "epoch": 2.8205128205128203,
+      "grad_norm": 8.779331452142452,
+      "learning_rate": 3.32541567695962e-08,
+      "logits/chosen": -2.21875,
+      "logits/rejected": -1.953125,
+      "logps/chosen": -145.0,
+      "logps/rejected": -246.0,
+      "loss": 0.0534,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.453125,
+      "rewards/margins": 6.09375,
+      "rewards/rejected": -7.5625,
+      "step": 880
+    },
+    {
+      "epoch": 2.8525641025641026,
+      "grad_norm": 4.870041095527679,
+      "learning_rate": 2.7315914489311164e-08,
+      "logits/chosen": -2.109375,
+      "logits/rejected": -1.859375,
+      "logps/chosen": -151.0,
+      "logps/rejected": -230.0,
+      "loss": 0.076,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -1.6796875,
+      "rewards/margins": 5.1875,
+      "rewards/rejected": -6.875,
+      "step": 890
+    },
+    {
+      "epoch": 2.8846153846153846,
+      "grad_norm": 16.406143452936824,
+      "learning_rate": 2.1377672209026125e-08,
+      "logits/chosen": -2.109375,
+      "logits/rejected": -1.8984375,
+      "logps/chosen": -158.0,
+      "logps/rejected": -243.0,
+      "loss": 0.0549,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -1.4140625,
+      "rewards/margins": 5.21875,
+      "rewards/rejected": -6.65625,
+      "step": 900
+    },
+    {
+      "epoch": 2.9166666666666665,
+      "grad_norm": 12.234122662756715,
+      "learning_rate": 1.5439429928741092e-08,
+      "logits/chosen": -2.234375,
+      "logits/rejected": -2.015625,
+      "logps/chosen": -134.0,
+      "logps/rejected": -249.0,
+      "loss": 0.0666,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -0.8046875,
+      "rewards/margins": 6.09375,
+      "rewards/rejected": -6.875,
+      "step": 910
+    },
+    {
+      "epoch": 2.948717948717949,
+      "grad_norm": 6.961798221064861,
+      "learning_rate": 9.501187648456057e-09,
+      "logits/chosen": -2.171875,
+      "logits/rejected": -1.9296875,
+      "logps/chosen": -145.0,
+      "logps/rejected": -250.0,
+      "loss": 0.063,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.515625,
+      "rewards/margins": 5.375,
+      "rewards/rejected": -6.90625,
+      "step": 920
+    },
+    {
+      "epoch": 2.980769230769231,
+      "grad_norm": 12.001510983290025,
+      "learning_rate": 3.562945368171021e-09,
+      "logits/chosen": -2.25,
+      "logits/rejected": -1.9765625,
+      "logps/chosen": -154.0,
+      "logps/rejected": -272.0,
+      "loss": 0.0594,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.546875,
+      "rewards/margins": 5.875,
+      "rewards/rejected": -7.40625,
+      "step": 930
+    },
+    {
+      "epoch": 3.0,
+      "eval_logits/chosen": -1.9609375,
+      "eval_logits/rejected": -1.8125,
+      "eval_logps/chosen": -193.0,
+      "eval_logps/rejected": -210.0,
+      "eval_loss": 0.6552096605300903,
+      "eval_rewards/accuracies": 0.6785714030265808,
+      "eval_rewards/chosen": -3.390625,
+      "eval_rewards/margins": 2.109375,
+      "eval_rewards/rejected": -5.5,
+      "eval_runtime": 14.6293,
+      "eval_samples_per_second": 13.603,
+      "eval_steps_per_second": 0.478,
+      "step": 936
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }