Training in progress, step 2550, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step2549/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2549/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2549/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2549/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2549/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2549/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2549/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step2549/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +93 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad9c5a90f0316ee953467cae5ec9a849c3cc7b35324d075196476f5e2a6e857e
 size 18516456

 version https://git-lfs.github.com/spec/v1
+oid sha256:05860e6926535e861ff510ad885fc4de39eb23da412202261559dc491a06bd00
 size 18516456

last-checkpoint/global_step2549/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa05cbcec57be569756c96359b4cb54f3e611bf2fe808af09364cad75bc3c6d7
+size 27700976

last-checkpoint/global_step2549/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c6af67d6f8ad313d8888f7db8152605d61ff9a8e108d54b7d23f8ef8a85c5bc
+size 27700976

last-checkpoint/global_step2549/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:385bd57f879689a90ba287d07e0e4677a41d130a8d2ab88063e211833889259e
+size 27700976

last-checkpoint/global_step2549/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ec3c3fe282b7107636055c95e94cc4607560ec56063e259aa7e8a4e4c965b04
+size 27700976

last-checkpoint/global_step2549/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1357f06faa9f3e9a3b2a36f5ac22f5479772d8d2489d00e5b40fa151b51aad13
+size 411571

last-checkpoint/global_step2549/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d4105e7ec56e6a9bb230dfe4086e1799e303b8f608470b01878412b772c9d79
+size 411507

last-checkpoint/global_step2549/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf85ff45ad39a8a161f1e10e99c62b5284293ee9bce66d8280085f68ecfbab95
+size 411507

last-checkpoint/global_step2549/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:73eb6f2f36b8899bfd1305d4cb7eed47f742c5a9b75a4289b824cf7b204aca5f
+size 411507

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step2499~~


1	+ global_step2549

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0362dfd92e8da01e4a0deedcbd1c493b8162d5d1d84d5a4c1cd210c556f2cf9b
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:91caf226cd72269cf1248d5f2f1a1d0c92100844814086cd6878cfb06293dc0c
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e65c5adee1a22c5343e38495a6905880496fb22d5e3ec5b16b87aadb731969d2
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a2264023ead4b957c8737f57b7f130753adf9857726b38e1a7c000a4c721672
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8d8858483b0c6944d55621cc2633469e3e0d04c48b6671eee92d4abab2352c2
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3af91d2c27fa6123938cc5723642d3bc4b5f5e9e58a6f0d15fdf45fd12cb685e
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca42ef4f7a2f8c2285c4cf6cef585dcc0b132b21e8bb33d96d53b6db837f5e54
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:57930146d6b40a72f7f121792ad7f144f1863c40a705666c20e64c1e1c54a94a
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be1e9cd300c4f4c1fc9be3848ef7e995abd4a81c17c7a3b103813aaad4725565
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb561d82386bf4b227a10b6e6e08effab17d0e684e1cd302e30cfc0a843bd1df
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.6319106221199036,
   "best_model_checkpoint": "saves/CADICA_qwenvl_stenosis_classily_scale4_frozenVision/lora/sft/checkpoint-1600",
-  "epoch": 1.2874066443471541,
   "eval_steps": 50,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4457,11 +4457,100 @@
       "eval_steps_per_second": 0.931,
       "num_input_tokens_seen": 29233968,
       "step": 2500
     }
   ],
   "logging_steps": 5,
   "max_steps": 3400,
-  "num_input_tokens_seen": 29233968,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -4476,7 +4565,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1641625797525504.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.6319106221199036,
   "best_model_checkpoint": "saves/CADICA_qwenvl_stenosis_classily_scale4_frozenVision/lora/sft/checkpoint-1600",
+  "epoch": 1.3131599278908062,
   "eval_steps": 50,
+  "global_step": 2550,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.931,
       "num_input_tokens_seen": 29233968,
       "step": 2500
+    },
+    {
+      "epoch": 1.2899819727015194,
+      "grad_norm": 3.3788238852269035,
+      "learning_rate": 1.7777908288191176e-05,
+      "loss": 0.2344,
+      "num_input_tokens_seen": 29292464,
+      "step": 2505
+    },
+    {
+      "epoch": 1.2925573010558846,
+      "grad_norm": 9.201457612553746,
+      "learning_rate": 1.7592358989400883e-05,
+      "loss": 0.2727,
+      "num_input_tokens_seen": 29350952,
+      "step": 2510
+    },
+    {
+      "epoch": 1.2951326294102499,
+      "grad_norm": 4.626370050462018,
+      "learning_rate": 1.740757613610028e-05,
+      "loss": 0.2687,
+      "num_input_tokens_seen": 29409432,
+      "step": 2515
+    },
+    {
+      "epoch": 1.2977079577646151,
+      "grad_norm": 5.784936514951468,
+      "learning_rate": 1.7223564098431067e-05,
+      "loss": 0.2632,
+      "num_input_tokens_seen": 29467880,
+      "step": 2520
+    },
+    {
+      "epoch": 1.3002832861189801,
+      "grad_norm": 4.405244480948001,
+      "learning_rate": 1.704032722830512e-05,
+      "loss": 0.3057,
+      "num_input_tokens_seen": 29526384,
+      "step": 2525
+    },
+    {
+      "epoch": 1.3028586144733454,
+      "grad_norm": 7.8069578913798825,
+      "learning_rate": 1.68578698593014e-05,
+      "loss": 0.3054,
+      "num_input_tokens_seen": 29584880,
+      "step": 2530
+    },
+    {
+      "epoch": 1.3054339428277104,
+      "grad_norm": 6.957468356582848,
+      "learning_rate": 1.6676196306563613e-05,
+      "loss": 0.28,
+      "num_input_tokens_seen": 29643344,
+      "step": 2535
+    },
+    {
+      "epoch": 1.3080092711820757,
+      "grad_norm": 9.353535349996537,
+      "learning_rate": 1.6495310866698093e-05,
+      "loss": 0.3169,
+      "num_input_tokens_seen": 29701864,
+      "step": 2540
+    },
+    {
+      "epoch": 1.310584599536441,
+      "grad_norm": 5.246799138683368,
+      "learning_rate": 1.631521781767214e-05,
+      "loss": 0.2985,
+      "num_input_tokens_seen": 29760376,
+      "step": 2545
+    },
+    {
+      "epoch": 1.3131599278908062,
+      "grad_norm": 10.51357763616516,
+      "learning_rate": 1.6135921418712956e-05,
+      "loss": 0.3231,
+      "num_input_tokens_seen": 29818856,
+      "step": 2550
+    },
+    {
+      "epoch": 1.3131599278908062,
+      "eval_loss": 0.7146337628364563,
+      "eval_runtime": 16.171,
+      "eval_samples_per_second": 3.71,
+      "eval_steps_per_second": 0.928,
+      "num_input_tokens_seen": 29818856,
+      "step": 2550
     }
   ],
   "logging_steps": 5,
   "max_steps": 3400,
+  "num_input_tokens_seen": 29818856,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1674470315261952.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null