AmberYifan commited on 13 days ago

Commit

003766d

•

1 Parent(s): 75a0fa8

Training in progress, step 806, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/global_step806/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step806/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step806/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step806/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step806/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step806/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step806/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step806/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +214 -2

last-checkpoint/global_step806/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e4655b1b3999db772d77f146a4f7f14ee1e3d50fd58911f740c36b4d70c5bf76
+size 13476835648

last-checkpoint/global_step806/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:96dcc27ffe6bebd92bf61a45bdc95681d0b5d883b204853945880b81b274398b
+size 13476835648

last-checkpoint/global_step806/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f9bb7e5bb9ca422cb0d1dc04d2671971df137a3f09d07042cad506b9a2d71f9
+size 13476835648

last-checkpoint/global_step806/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba7f1a348180a0d364072685057323ea6b36164ec89aaa3b178eded6e40ff885
+size 13476835648

last-checkpoint/global_step806/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d8d40541af74b88448ba760a8978e722801bd2f9f599321fbb51f3dc9b7aa48d
+size 150693

last-checkpoint/global_step806/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:157d3836b0324e6cee2dd66a33217d6e37ed5ed7b3b9b43d035418d1760303bb
+size 150693

last-checkpoint/global_step806/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f58aefc7e17b7c63dbeb24bef6fbbd4df65f9011bd0a645acb9ead93913de3e
+size 150693

last-checkpoint/global_step806/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1e7011657dbb583fe08aa94c28ca514c23f5adadb33ff22d042174c99859c360
+size 150693

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step682~~


1	+ global_step806

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b540a3bdebafca7694656f77d0e558804e111c4c3b9b258038b1eaccbe984eec
 size 4938985352

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6b19051be7334b0ec1c05289f0ba87187f1d4d8ad4c691e9ccba473137a5c0c
 size 4938985352

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23f9ad07280adb2d4b75e2e7438927d267ba0ae53691cf890abe923d1bb78778
 size 4947390880

 version https://git-lfs.github.com/spec/v1
+oid sha256:70b23e112ecb38d9c61e0a318a310cbe0da90c31bcf2bc8cbd996ea1dc8ba03b
 size 4947390880

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bebbcf1f86afcb2a4c347004a55e474b02a6c86a2ffd1b17318f2c0f863e1cad
 size 3590488816

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c1e6f6df51c8519ad30f4a5eac897f58101f14df58a659a6a23b1c9d757dd53
 size 3590488816

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b4cf818939bfcb1de93c78e79be7390fcae46bb5c39166bd571b1f3a8b2cdeb3
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:43ea574d07a576c8cd612773a5015f4f8303ef6ce35f964bd81b8b489ceed9bd
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:408ca302fdad670605f637bd7faeea541858831c4f2318e3fca2d0d709c7b218
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:231c40114b2d8985fa7545edd47494bc1e9d1e0a8db77f30a4d192048f265712
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df380dcd2c8305fefe9f4ba88e7536beb3b5e94d863ac6f29eae326ddfef0f32
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d4d2cd69e482e80eb9dbe4006558389d72a76a801f542398022187d536edd47
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51f78c929d775d81c8dd9feb87fd329a39e895b5f8b1d2cdbede2cbd8b45f49e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:08d86ba141f647d4a747b93c9fe2e7871e4a119de2b70afdde8f5f8f330a1740
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ec08ea6383804e8c05c7ff772c4aed53351dc10413de8f46c3a1998585e65c7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b56640485d548dbcc67b1963f981239312b10af622fb02275932812ae1326861
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.1824,
   "eval_steps": 62,
-  "global_step": 682,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1218,6 +1218,218 @@
       "eval_samples_per_second": 7.845,
       "eval_steps_per_second": 0.51,
       "step": 682
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.5792,
   "eval_steps": 62,
+  "global_step": 806,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.845,
       "eval_steps_per_second": 0.51,
       "step": 682
+    },
+    {
+      "epoch": 2.208,
+      "grad_norm": 0.3658391972106121,
+      "learning_rate": 1.4608076009501184e-07,
+      "logits/generated": -0.7777714133262634,
+      "logits/real": -1.4327569007873535,
+      "logps/generated": -349.45123291015625,
+      "logps/real": -91.0394287109375,
+      "loss": 0.1006,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.516034126281738,
+      "rewards/margins": 16.061874389648438,
+      "rewards/real": 9.5458402633667,
+      "step": 690
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 0.37751724197745956,
+      "learning_rate": 1.4014251781472683e-07,
+      "logits/generated": -0.8562400937080383,
+      "logits/real": -1.4605350494384766,
+      "logps/generated": -349.2660827636719,
+      "logps/real": -110.1448745727539,
+      "loss": 0.0985,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.469089508056641,
+      "rewards/margins": 17.073518753051758,
+      "rewards/real": 10.604430198669434,
+      "step": 700
+    },
+    {
+      "epoch": 2.2720000000000002,
+      "grad_norm": 0.3099039440839268,
+      "learning_rate": 1.342042755344418e-07,
+      "logits/generated": -0.9007622003555298,
+      "logits/real": -1.437908411026001,
+      "logps/generated": -345.6163330078125,
+      "logps/real": -93.06938171386719,
+      "loss": 0.0978,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.0835700035095215,
+      "rewards/margins": 15.84107780456543,
+      "rewards/real": 9.757506370544434,
+      "step": 710
+    },
+    {
+      "epoch": 2.304,
+      "grad_norm": 0.3864668793151262,
+      "learning_rate": 1.2826603325415677e-07,
+      "logits/generated": -0.8885849714279175,
+      "logits/real": -1.5355165004730225,
+      "logps/generated": -342.10443115234375,
+      "logps/real": -104.58480072021484,
+      "loss": 0.1019,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.677704811096191,
+      "rewards/margins": 16.409557342529297,
+      "rewards/real": 9.731854438781738,
+      "step": 720
+    },
+    {
+      "epoch": 2.336,
+      "grad_norm": 0.3445053668290169,
+      "learning_rate": 1.2232779097387173e-07,
+      "logits/generated": -0.8385915756225586,
+      "logits/real": -1.397671103477478,
+      "logps/generated": -354.0185241699219,
+      "logps/real": -112.39442443847656,
+      "loss": 0.1017,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -7.097531795501709,
+      "rewards/margins": 18.07855987548828,
+      "rewards/real": 10.981030464172363,
+      "step": 730
+    },
+    {
+      "epoch": 2.368,
+      "grad_norm": 0.3341439577424557,
+      "learning_rate": 1.163895486935867e-07,
+      "logits/generated": -0.8578903079032898,
+      "logits/real": -1.383490800857544,
+      "logps/generated": -347.2725524902344,
+      "logps/real": -103.35150146484375,
+      "loss": 0.1017,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.981736183166504,
+      "rewards/margins": 17.021286010742188,
+      "rewards/real": 10.039549827575684,
+      "step": 740
+    },
+    {
+      "epoch": 2.3808,
+      "eval_logits/generated": -0.880645751953125,
+      "eval_logits/real": -1.4227505922317505,
+      "eval_logps/generated": -358.9116516113281,
+      "eval_logps/real": -105.00930786132812,
+      "eval_loss": 0.10732075572013855,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/generated": -7.624257564544678,
+      "eval_rewards/margins": 17.80915641784668,
+      "eval_rewards/real": 10.184901237487793,
+      "eval_runtime": 36.3751,
+      "eval_samples_per_second": 5.498,
+      "eval_steps_per_second": 0.357,
+      "step": 744
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.37872196207505543,
+      "learning_rate": 1.1045130641330165e-07,
+      "logits/generated": -0.9046470522880554,
+      "logits/real": -1.3609508275985718,
+      "logps/generated": -347.01611328125,
+      "logps/real": -113.12504577636719,
+      "loss": 0.1048,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.732972621917725,
+      "rewards/margins": 17.482839584350586,
+      "rewards/real": 10.74986457824707,
+      "step": 750
+    },
+    {
+      "epoch": 2.432,
+      "grad_norm": 0.3456217830065947,
+      "learning_rate": 1.0451306413301662e-07,
+      "logits/generated": -0.9419130086898804,
+      "logits/real": -1.448075294494629,
+      "logps/generated": -350.6387023925781,
+      "logps/real": -104.91294860839844,
+      "loss": 0.1024,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.793516635894775,
+      "rewards/margins": 17.103900909423828,
+      "rewards/real": 10.310384750366211,
+      "step": 760
+    },
+    {
+      "epoch": 2.464,
+      "grad_norm": 0.3510621706063929,
+      "learning_rate": 9.857482185273158e-08,
+      "logits/generated": -0.8172124028205872,
+      "logits/real": -1.428694486618042,
+      "logps/generated": -363.5953674316406,
+      "logps/real": -88.23005676269531,
+      "loss": 0.1012,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -7.76650857925415,
+      "rewards/margins": 17.137920379638672,
+      "rewards/real": 9.371413230895996,
+      "step": 770
+    },
+    {
+      "epoch": 2.496,
+      "grad_norm": 0.29361560856209884,
+      "learning_rate": 9.263657957244655e-08,
+      "logits/generated": -0.8288412094116211,
+      "logits/real": -1.4823163747787476,
+      "logps/generated": -359.7073974609375,
+      "logps/real": -97.23246002197266,
+      "loss": 0.1021,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -7.1570844650268555,
+      "rewards/margins": 17.029443740844727,
+      "rewards/real": 9.872357368469238,
+      "step": 780
+    },
+    {
+      "epoch": 2.528,
+      "grad_norm": 0.3698992846301525,
+      "learning_rate": 8.669833729216151e-08,
+      "logits/generated": -0.834811806678772,
+      "logits/real": -1.4748550653457642,
+      "logps/generated": -355.08685302734375,
+      "logps/real": -91.9556884765625,
+      "loss": 0.1018,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -7.218266487121582,
+      "rewards/margins": 17.2064208984375,
+      "rewards/real": 9.988153457641602,
+      "step": 790
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 0.3614102743036081,
+      "learning_rate": 8.076009501187649e-08,
+      "logits/generated": -0.8415037989616394,
+      "logits/real": -1.4521253108978271,
+      "logps/generated": -342.2822265625,
+      "logps/real": -102.14026641845703,
+      "loss": 0.1031,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -7.008787631988525,
+      "rewards/margins": 16.703975677490234,
+      "rewards/real": 9.695188522338867,
+      "step": 800
+    },
+    {
+      "epoch": 2.5792,
+      "eval_logits/generated": -0.878677248954773,
+      "eval_logits/real": -1.4391472339630127,
+      "eval_logps/generated": -359.2500305175781,
+      "eval_logps/real": -104.75186920166016,
+      "eval_loss": 0.1071779727935791,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/generated": -7.65809440612793,
+      "eval_rewards/margins": 17.868741989135742,
+      "eval_rewards/real": 10.210646629333496,
+      "eval_runtime": 29.5912,
+      "eval_samples_per_second": 6.759,
+      "eval_steps_per_second": 0.439,
+      "step": 806
     }
   ],
   "logging_steps": 10,