Training in progress, step 16324, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step16324/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step16324/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step16324/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step16324/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step16324/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step16324/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step16324/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step16324/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +37 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e159368efe95459cbd6040fa012982b90b37b01e930578243495dac68e165708
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:6dd27678e81e52b77b203ee21948888d64924194d564a7da5da8608977a649ef
 size 29034840

last-checkpoint/global_step16324/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:faca1e311a8daac12fe43436ced3bf489902c39e393afcaf02c7abbef8f24360
+size 43429616

last-checkpoint/global_step16324/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:36ab456294a7d399bad30d81580434a28f6c7386aaedd027de42b53aeb7f853a
+size 43429616

last-checkpoint/global_step16324/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7922d760d5b1a91c02ebc1013ba311be44ed60980d5477a0e251e4483539249
+size 43429616

last-checkpoint/global_step16324/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d857b446e3a6357b3b0df18eb42ff50f717dac378e49b32526d9bb5046c4f8a
+size 43429616

last-checkpoint/global_step16324/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:734487e0fe33955a906e0aa5485a809829d38b8e91a508a471fab410c8a16aa9
+size 637299

last-checkpoint/global_step16324/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4464de89a444833e29b3f20fe88cc45c3dc57e65cc1aa037ff5265410f7d659
+size 637171

last-checkpoint/global_step16324/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c4b3acdcc17ad92ef9613e4eb74aae6343516021b167e2173523df0a2ec08df
+size 637171

last-checkpoint/global_step16324/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:196792206c368bd09992379cd8104b1403f3697d59854c5e2a8b5d1f8f9e27a7
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step16300~~


1	+ global_step16324

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18f0da524ba3c270b44cd4990f1f30630c32c971dc011d598daeb646e4af0dcb
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7fd84006555d36e2389fd01b027fd18ebefe9c980286dac28012c182eb4d23e3
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
-  "epoch": 1.9969679336008086,
   "eval_steps": 50,
-  "global_step": 16300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -29021,11 +29021,43 @@
       "eval_steps_per_second": 0.787,
       "num_input_tokens_seen": 109112120,
       "step": 16300
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
-  "num_input_tokens_seen": 109112120,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -29035,12 +29067,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 6843538279890944.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.04092838987708092,
   "best_model_checkpoint": "saves/CADICA_qwenvl_detect_classify_augmented/lora/sft/checkpoint-9050",
+  "epoch": 1.9999081192000245,
   "eval_steps": 50,
+  "global_step": 16324,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.787,
       "num_input_tokens_seen": 109112120,
       "step": 16300
+    },
+    {
+      "epoch": 1.9975804722673118,
+      "grad_norm": 2.005094271805205,
+      "learning_rate": 3.7041694531114723e-10,
+      "loss": 0.2376,
+      "num_input_tokens_seen": 109145312,
+      "step": 16305
+    },
+    {
+      "epoch": 1.9981930109338153,
+      "grad_norm": 1.4867493885349998,
+      "learning_rate": 2.0111291483271288e-10,
+      "loss": 0.2031,
+      "num_input_tokens_seen": 109179312,
+      "step": 16310
+    },
+    {
+      "epoch": 1.9988055496003185,
+      "grad_norm": 1.584898833540703,
+      "learning_rate": 8.311302300278989e-11,
+      "loss": 0.2135,
+      "num_input_tokens_seen": 109212488,
+      "step": 16315
+    },
+    {
+      "epoch": 1.9994180882668218,
+      "grad_norm": 1.9175958869363128,
+      "learning_rate": 1.6417390907852438e-11,
+      "loss": 0.2092,
+      "num_input_tokens_seen": 109246064,
+      "step": 16320
     }
   ],
   "logging_steps": 5,
   "max_steps": 16324,
+  "num_input_tokens_seen": 109273408,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 6853640571322368.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null