Training in progress, step 600, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step600/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step600/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step600/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step600/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step600/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +95 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ea0b12291caef0384f7fd3bc0b1e4fc7815f7b867e0e565a267ef13238fd6a9
 size 29034840

 version https://git-lfs.github.com/spec/v1
+oid sha256:69777f5aa25eff25d556b3b21e25927428c8db95972e0d7a65589f133ec91630
 size 29034840

last-checkpoint/global_step600/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab80c15906861e1236c44dc13b999d5885040dfb18b620b583a1a8ce6b76cf77
+size 43429616

last-checkpoint/global_step600/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16c148b81bbff198e621c2384ce6fb1153bf8f85f2600cf26d42d80859a76e13
+size 43429616

last-checkpoint/global_step600/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a07f6b032817ea26e5a51a4cd0ad95284e861fc5c633421968ba2ba8628465d8
+size 43429616

last-checkpoint/global_step600/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d6c344741ddb3bf2afcd556430bff12e3a8d7b5fd0cda080af2d224555f0af1
+size 43429616

last-checkpoint/global_step600/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:11e8027e9407df0ac39e2b3b0f9b391ceffcc0365bf7b524d551f5dbe3c76e79
+size 637299

last-checkpoint/global_step600/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c20dbc40aa3a9738159e35e517f2b9b468c6b1bee8cb810efadc972e0821f0fc
+size 637171

last-checkpoint/global_step600/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:585439023d752dde2525d7bdccd458f3fb79989825110ba63e0cce828093c299
+size 637171

last-checkpoint/global_step600/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e197c45213ad104a71f307e0f73afc54979e8843c65bd3e2a9fc618c43b98f06
+size 637171

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step550~~


1	+ global_step600

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae78313eb528c8d3695eebaf4de3539bd0a0bc6ee18c66af1ee183442f1758a0
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:a81e3916b1392c4c49afb171dee5415c15f5a5a5af8749b28195fcfa0596699c
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b38031f60d9e88601d369ef46bcdcf2b5b03f2cb4ba93853bcb2328df7ebb7c
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a781038dd714b87b8adb1aac8dbc8217ceb607428a992133954ad522365236e
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f58092375c93d237cd0e3149aecfbf83e2acdae46279e07a32920d01cb507e64
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9446c3db15f382a5546f13622787fc99392a5e0bc8a9ca2da1838de7ab621a37
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83cd4bbff9962da7ec6787fcea8d65df7096917f9a5902e249ba7aee8887fe5f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f11e7a6b3faa884fc23044e3772ff9dd72c257f02e121665061e2a03d518bd9
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48642e777392e25274bb934c3caefd33d14bddceae2e006daf244ac2f6537412
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f84ae20af7f03e6aebf5ce5f2f22e99f298d925ddedf6c1ee5005301cfd997b7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.6505001187324524,
-  "best_model_checkpoint": "saves/CADICA_qwenvl_direction_then_DetectAndClassify_scale6/lora/sft/checkpoint-500",
-  "epoch": 0.16248153618906944,
   "eval_steps": 50,
-  "global_step": 550,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -986,11 +986,100 @@
       "eval_steps_per_second": 0.782,
       "num_input_tokens_seen": 5703016,
       "step": 550
     }
   ],
   "logging_steps": 5,
   "max_steps": 6770,
-  "num_input_tokens_seen": 5703016,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -1005,7 +1094,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 376097589690368.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.5883122682571411,
+  "best_model_checkpoint": "saves/CADICA_qwenvl_direction_then_DetectAndClassify_scale6/lora/sft/checkpoint-600",
+  "epoch": 0.17725258493353027,
   "eval_steps": 50,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.782,
       "num_input_tokens_seen": 5703016,
       "step": 550
+    },
+    {
+      "epoch": 0.16395864106351551,
+      "grad_norm": 10.880382658420737,
+      "learning_rate": 9.972190879892147e-05,
+      "loss": 0.6076,
+      "num_input_tokens_seen": 5754192,
+      "step": 555
+    },
+    {
+      "epoch": 0.1654357459379616,
+      "grad_norm": 5.9115707757479345,
+      "learning_rate": 9.970889784653033e-05,
+      "loss": 0.6136,
+      "num_input_tokens_seen": 5806272,
+      "step": 560
+    },
+    {
+      "epoch": 0.16691285081240767,
+      "grad_norm": 8.300559629359741,
+      "learning_rate": 9.969559033135318e-05,
+      "loss": 0.5554,
+      "num_input_tokens_seen": 5858632,
+      "step": 565
+    },
+    {
+      "epoch": 0.16838995568685378,
+      "grad_norm": 19.24269810236072,
+      "learning_rate": 9.96819863327825e-05,
+      "loss": 0.5847,
+      "num_input_tokens_seen": 5909936,
+      "step": 570
+    },
+    {
+      "epoch": 0.16986706056129985,
+      "grad_norm": 2.997295434716295,
+      "learning_rate": 9.966808593197959e-05,
+      "loss": 0.6217,
+      "num_input_tokens_seen": 5961464,
+      "step": 575
+    },
+    {
+      "epoch": 0.17134416543574593,
+      "grad_norm": 8.454212007467431,
+      "learning_rate": 9.965388921187413e-05,
+      "loss": 0.5569,
+      "num_input_tokens_seen": 6013696,
+      "step": 580
+    },
+    {
+      "epoch": 0.172821270310192,
+      "grad_norm": 11.728020547911296,
+      "learning_rate": 9.963939625716361e-05,
+      "loss": 0.5894,
+      "num_input_tokens_seen": 6065736,
+      "step": 585
+    },
+    {
+      "epoch": 0.17429837518463812,
+      "grad_norm": 20.470288976160585,
+      "learning_rate": 9.962460715431284e-05,
+      "loss": 0.5783,
+      "num_input_tokens_seen": 6118400,
+      "step": 590
+    },
+    {
+      "epoch": 0.1757754800590842,
+      "grad_norm": 4.675971808784723,
+      "learning_rate": 9.960952199155347e-05,
+      "loss": 0.5657,
+      "num_input_tokens_seen": 6171120,
+      "step": 595
+    },
+    {
+      "epoch": 0.17725258493353027,
+      "grad_norm": 9.775804001092958,
+      "learning_rate": 9.959414085888342e-05,
+      "loss": 0.6331,
+      "num_input_tokens_seen": 6222736,
+      "step": 600
+    },
+    {
+      "epoch": 0.17725258493353027,
+      "eval_loss": 0.5883122682571411,
+      "eval_runtime": 19.002,
+      "eval_samples_per_second": 3.158,
+      "eval_steps_per_second": 0.789,
+      "num_input_tokens_seen": 6222736,
+      "step": 600
     }
   ],
   "logging_steps": 5,
   "max_steps": 6770,
+  "num_input_tokens_seen": 6222736,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 410420689764352.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null