AmberYifan commited on Nov 1, 2024

Commit

070b435

verified ·

1 Parent(s): 8d50dc9

Training in progress, step 744, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/global_step744/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step744/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step744/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step744/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step744/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step744/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step744/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step744/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +214 -2

last-checkpoint/global_step744/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15df7b8feb64c0def21d6686e6896228795ba5c064d737fb7b4db615c6e74d16
+size 14483467880

last-checkpoint/global_step744/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:735b6b88c0d927e094a0b91d0c7f7aed29f52fa2dc27100157290c05d191bdde
+size 14483467880

last-checkpoint/global_step744/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f14712eceb262cfece0c425c5004dbe8abe0b47d188b38373f16f6f6eb94bd83
+size 14483467880

last-checkpoint/global_step744/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02d33d0778de46e61f1ccb04f2f2d1ac5899f5db4d2cc5d77f4977b4831e32ea
+size 14483467880

last-checkpoint/global_step744/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b3a5fb8629f5851e476393962efcdc3d1b4877c56a2d137b5477b351ccf0f284
+size 150629

last-checkpoint/global_step744/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f6426baf25e93384fe89562a7d8b5683eb537d5425d57eadcc57234162445e8
+size 150629

last-checkpoint/global_step744/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5546fc1e0e833ffb17055a7df4bbc63059537920e8f146bac42431b5b6de206b
+size 150629

last-checkpoint/global_step744/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8b79e376c5d97e922123f499a588e3a870b240e7791c121277324477e2ab056
+size 150629

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step620~~


1	+ global_step744

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93daaec3380eb160ed1b2b55d7e6a40b3148f5806a93acda8285c13c6ed11ec4
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:9eddc78da78db963ff6a4e64d2e60d892b8dac3e70f615cabb7ceae72ca03b62
 size 4943162336

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d99f0e63f5427ff1eb28a5e26e8a6cb5f108907e9ec53956cf11addbcacf1c34
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:940e5b0d00daf8819b94e6e57a1299366ddf8e1a00b6cd3d1da725c5a54e992b
 size 4999819336

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6dd3351df120c66885127c540da0c2667724cb06d47ddfb327a851ef7dace34c
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:543b4a9c2a0c0d8ec0093719d952db485ab8f03e97e5ec0572a12b30748d847c
 size 4540516344

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b3ea85ce0faf4f25f8f01506659575c6ffa73d2668e6dcf972bea416c2f14cf7
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbba064fc12f687aed38027284f03d6f81ae6faf0de84e9180dbf16683476efa
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6df02d244f55294fc3a1bed06a850d7dc043249b3e97a2a1f72408d7e378d44b
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:87dbadfb5a748f92f595fe38ec8cb595ec8a8e1ed626289bab87357f6453fdcc
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbafb0c52cec706b84eb0e477953ab4950ffc8e931e49bbc7a37cd7d5d929a69
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0c80d8a165b5c7da7326858ba39715fa818bb86784e4927c06f952990826c90
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:007e6b920b3c7dfd19dd00d30bc01c0cd1682b25270dc31952d9b737d039f1d1
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9188fea8871f54026651c146ed6d61c8ba187418003301d02d1d867f08d5f341
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44a438c4653759e5a86be993ca4420444015d4e70859f1f853dd1fc989248fda
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:090ca277b83e149ceb78f8ec9d7b16b90c4d719022166461c1f9f0014114ec3d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.984,
   "eval_steps": 62,
-  "global_step": 620,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1112,6 +1112,218 @@
       "eval_samples_per_second": 5.465,
       "eval_steps_per_second": 0.355,
       "step": 620
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.3808,
   "eval_steps": 62,
+  "global_step": 744,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.465,
       "eval_steps_per_second": 0.355,
       "step": 620
+    },
+    {
+      "epoch": 2.016,
+      "grad_norm": 20.538104998428924,
+      "learning_rate": 1.8171021377672207e-07,
+      "logits/generated": -2.5056118965148926,
+      "logits/real": -2.5445072650909424,
+      "logps/generated": -125.99369812011719,
+      "logps/real": -116.36385345458984,
+      "loss": 0.3077,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/generated": 0.36697912216186523,
+      "rewards/margins": 3.193668842315674,
+      "rewards/real": 3.560647964477539,
+      "step": 630
+    },
+    {
+      "epoch": 2.048,
+      "grad_norm": 26.08905065246513,
+      "learning_rate": 1.7577197149643706e-07,
+      "logits/generated": -2.5060019493103027,
+      "logits/real": -2.5419182777404785,
+      "logps/generated": -120.49100494384766,
+      "logps/real": -89.79083251953125,
+      "loss": 0.1648,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/generated": -0.3632515072822571,
+      "rewards/margins": 3.968273639678955,
+      "rewards/real": 3.6050219535827637,
+      "step": 640
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 23.70246936190852,
+      "learning_rate": 1.6983372921615202e-07,
+      "logits/generated": -2.3460607528686523,
+      "logits/real": -2.47868013381958,
+      "logps/generated": -118.75785827636719,
+      "logps/real": -105.28114318847656,
+      "loss": 0.2231,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/generated": -0.6100242137908936,
+      "rewards/margins": 4.250189781188965,
+      "rewards/real": 3.640165328979492,
+      "step": 650
+    },
+    {
+      "epoch": 2.112,
+      "grad_norm": 52.82052578333479,
+      "learning_rate": 1.6389548693586697e-07,
+      "logits/generated": -2.4621224403381348,
+      "logits/real": -2.535007953643799,
+      "logps/generated": -125.203125,
+      "logps/real": -101.14630126953125,
+      "loss": 0.2196,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/generated": -0.19764788448810577,
+      "rewards/margins": 4.143462181091309,
+      "rewards/real": 3.945814847946167,
+      "step": 660
+    },
+    {
+      "epoch": 2.144,
+      "grad_norm": 24.059115327582756,
+      "learning_rate": 1.5795724465558193e-07,
+      "logits/generated": -2.5252292156219482,
+      "logits/real": -2.523108720779419,
+      "logps/generated": -147.6621856689453,
+      "logps/real": -110.50947570800781,
+      "loss": 0.2099,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/generated": -0.5420292019844055,
+      "rewards/margins": 4.283000946044922,
+      "rewards/real": 3.7409720420837402,
+      "step": 670
+    },
+    {
+      "epoch": 2.176,
+      "grad_norm": 31.606417791931438,
+      "learning_rate": 1.520190023752969e-07,
+      "logits/generated": -2.319981098175049,
+      "logits/real": -2.3249740600585938,
+      "logps/generated": -115.99867248535156,
+      "logps/real": -91.61642456054688,
+      "loss": 0.226,
+      "rewards/accuracies": 0.9375,
+      "rewards/generated": -0.14518947899341583,
+      "rewards/margins": 3.8571395874023438,
+      "rewards/real": 3.7119498252868652,
+      "step": 680
+    },
+    {
+      "epoch": 2.1824,
+      "eval_logits/generated": -2.3994381427764893,
+      "eval_logits/real": -2.4211130142211914,
+      "eval_logps/generated": -106.77970886230469,
+      "eval_logps/real": -116.72004699707031,
+      "eval_loss": 0.7430130839347839,
+      "eval_rewards/accuracies": 0.6346153616905212,
+      "eval_rewards/generated": 1.4535826444625854,
+      "eval_rewards/margins": 0.765827476978302,
+      "eval_rewards/real": 2.2194101810455322,
+      "eval_runtime": 37.5985,
+      "eval_samples_per_second": 5.319,
+      "eval_steps_per_second": 0.346,
+      "step": 682
+    },
+    {
+      "epoch": 2.208,
+      "grad_norm": 42.94228027224244,
+      "learning_rate": 1.4608076009501184e-07,
+      "logits/generated": -2.391913414001465,
+      "logits/real": -2.399176597595215,
+      "logps/generated": -138.39405822753906,
+      "logps/real": -105.54881286621094,
+      "loss": 0.3128,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/generated": -0.44563937187194824,
+      "rewards/margins": 3.831275224685669,
+      "rewards/real": 3.3856358528137207,
+      "step": 690
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 21.835007321618892,
+      "learning_rate": 1.4014251781472683e-07,
+      "logits/generated": -2.358987331390381,
+      "logits/real": -2.485370635986328,
+      "logps/generated": -131.94631958007812,
+      "logps/real": -101.49398803710938,
+      "loss": 0.2099,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -0.540885329246521,
+      "rewards/margins": 4.241226673126221,
+      "rewards/real": 3.700340986251831,
+      "step": 700
+    },
+    {
+      "epoch": 2.2720000000000002,
+      "grad_norm": 34.153099948226355,
+      "learning_rate": 1.342042755344418e-07,
+      "logits/generated": -2.4148426055908203,
+      "logits/real": -2.470059394836426,
+      "logps/generated": -109.29563903808594,
+      "logps/real": -102.6874008178711,
+      "loss": 0.2117,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/generated": -0.2213163673877716,
+      "rewards/margins": 3.902988910675049,
+      "rewards/real": 3.6816723346710205,
+      "step": 710
+    },
+    {
+      "epoch": 2.304,
+      "grad_norm": 19.318708757059966,
+      "learning_rate": 1.2826603325415677e-07,
+      "logits/generated": -2.3977880477905273,
+      "logits/real": -2.435490369796753,
+      "logps/generated": -136.2637939453125,
+      "logps/real": -103.02522277832031,
+      "loss": 0.1954,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/generated": -0.8926679491996765,
+      "rewards/margins": 4.538367748260498,
+      "rewards/real": 3.645700454711914,
+      "step": 720
+    },
+    {
+      "epoch": 2.336,
+      "grad_norm": 45.22290167254912,
+      "learning_rate": 1.2232779097387173e-07,
+      "logits/generated": -2.398287296295166,
+      "logits/real": -2.4827542304992676,
+      "logps/generated": -131.3472900390625,
+      "logps/real": -111.76424407958984,
+      "loss": 0.1815,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/generated": -0.5653759241104126,
+      "rewards/margins": 4.332846641540527,
+      "rewards/real": 3.7674708366394043,
+      "step": 730
+    },
+    {
+      "epoch": 2.368,
+      "grad_norm": 13.254233051180913,
+      "learning_rate": 1.163895486935867e-07,
+      "logits/generated": -2.4649178981781006,
+      "logits/real": -2.532130002975464,
+      "logps/generated": -152.01437377929688,
+      "logps/real": -120.23062896728516,
+      "loss": 0.2117,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/generated": -0.7008813619613647,
+      "rewards/margins": 4.570525169372559,
+      "rewards/real": 3.8696446418762207,
+      "step": 740
+    },
+    {
+      "epoch": 2.3808,
+      "eval_logits/generated": -2.4077060222625732,
+      "eval_logits/real": -2.4527196884155273,
+      "eval_logps/generated": -107.33969116210938,
+      "eval_logps/real": -117.47949981689453,
+      "eval_loss": 0.7449278235435486,
+      "eval_rewards/accuracies": 0.5961538553237915,
+      "eval_rewards/generated": 1.397584319114685,
+      "eval_rewards/margins": 0.7458791732788086,
+      "eval_rewards/real": 2.143463611602783,
+      "eval_runtime": 36.1012,
+      "eval_samples_per_second": 5.54,
+      "eval_steps_per_second": 0.36,
+      "step": 744
     }
   ],
   "logging_steps": 10,