Training in progress, step 500, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +92 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5fba4ce126571fed34ee25b1d50c97224679bff4e28f648cb5b533214ae0c65b
 size 84972248

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b7426f77545243fe44b61bdf327bbe8386aaecd03d9b377cde6bb8b482e8a3a
 size 84972248

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:861c7e64af22126d86807af652070b1a4fb616b03f2a0b5124b65afecf26f325
-size 43434149

 version https://git-lfs.github.com/spec/v1
+oid sha256:76fc2fa6250a96154629a5641458d43a79a6deaf4569bdd3d1051fc60b41bdab
+size 43434405

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1b8adeed8ef1e4e1fb02821b08a58ce4cad29d44855cb22be2f764747fad931
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:27978b0c0a2d70a6d9e24fba0f2ed928bba9b47aecb6cc92523c33dd4a9bc29f
 size 14917

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d930f1f012f62572a539c80416eb7211c7e334068f916c4231ec05e7070b3a22
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d4883ea9e9e4170ef036b08f27772e01a500be9d13e3c9492d90b6357d7e8c6
 size 14917

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5b5392788f8c9ab10debba0348bb95011a14915ac18e4f0cb3246c0d97d61a7
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:46a5dde96232ac87d1fa1ed9715479941761512093c62e0c951b01e5c58be3a3
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 250,
-  "best_metric": 0.6187728047370911,
-  "best_model_checkpoint": "/kaggle/working/obsidian_critic_qwen35_t4x2_unsloth/runs/obsidian_critic_full_epoch/checkpoint-250",
-  "epoch": 0.11085859985588382,
   "eval_steps": 125,
-  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -106,6 +106,92 @@
       "tokens_per_second": 363.7051920895653,
       "tokens_per_step": 1785.536,
       "total_tokens_seen": 446384
     }
   ],
   "logging_steps": 50,
@@ -134,7 +220,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.8027914150805504e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 500,
+  "best_metric": 0.40328726172447205,
+  "best_model_checkpoint": "/kaggle/working/obsidian_critic_qwen35_t4x2_unsloth/runs/obsidian_critic_full_epoch/checkpoint-500",
+  "epoch": 0.22171719971176765,
   "eval_steps": 125,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "tokens_per_second": 363.7051920895653,
       "tokens_per_step": 1785.536,
       "total_tokens_seen": 446384
+    },
+    {
+      "epoch": 0.1330303198270606,
+      "grad_norm": 0.5571497082710266,
+      "last_batch_tokens": 329,
+      "learning_rate": 9.584967947244769e-05,
+      "loss": 0.5449295806884765,
+      "lr": 9.582179859078793e-05,
+      "step": 300,
+      "tokens_per_second": 81.02823836816424,
+      "tokens_per_step": 1724.5733333333333,
+      "total_tokens_seen": 517372
+    },
+    {
+      "epoch": 0.15520203979823735,
+      "grad_norm": 0.7961392998695374,
+      "last_batch_tokens": 165,
+      "learning_rate": 9.434740857432105e-05,
+      "loss": 0.46938041687011717,
+      "lr": 9.431513518232342e-05,
+      "step": 350,
+      "tokens_per_second": 89.52354398651325,
+      "tokens_per_step": 1704.1371428571429,
+      "total_tokens_seen": 596448
+    },
+    {
+      "epoch": 0.16628789978382574,
+      "eval_loss": 0.4863806366920471,
+      "eval_runtime": 87.0251,
+      "eval_samples_per_second": 4.171,
+      "eval_steps_per_second": 2.091,
+      "last_batch_tokens": 172,
+      "lr": 9.348041345533653e-05,
+      "step": 375,
+      "tokens_per_second": 135.38091364115044,
+      "tokens_per_step": 1784.712,
+      "total_tokens_seen": 669267
+    },
+    {
+      "epoch": 0.1773737597694141,
+      "grad_norm": 0.7586395144462585,
+      "last_batch_tokens": 351,
+      "learning_rate": 9.262927340344295e-05,
+      "loss": 0.4675440216064453,
+      "lr": 9.259276459421655e-05,
+      "step": 400,
+      "tokens_per_second": 81.3096016563381,
+      "tokens_per_step": 1764.9875,
+      "total_tokens_seen": 705995
+    },
+    {
+      "epoch": 0.19954547974059086,
+      "grad_norm": 0.7313582897186279,
+      "last_batch_tokens": 369,
+      "learning_rate": 9.070363710911735e-05,
+      "loss": 0.3964078140258789,
+      "lr": 9.066307059197612e-05,
+      "step": 450,
+      "tokens_per_second": 87.86278133239196,
+      "tokens_per_step": 1744.9444444444443,
+      "total_tokens_seen": 785225
+    },
+    {
+      "epoch": 0.22171719971176765,
+      "grad_norm": 0.5969849228858948,
+      "last_batch_tokens": 193,
+      "learning_rate": 8.857987286762718e-05,
+      "loss": 0.3672472381591797,
+      "lr": 8.853544610307675e-05,
+      "step": 500,
+      "tokens_per_second": 87.74574317837812,
+      "tokens_per_step": 1729.026,
+      "total_tokens_seen": 864513
+    },
+    {
+      "epoch": 0.22171719971176765,
+      "eval_loss": 0.40328726172447205,
+      "eval_runtime": 87.1124,
+      "eval_samples_per_second": 4.167,
+      "eval_steps_per_second": 2.089,
+      "last_batch_tokens": 172,
+      "lr": 8.853544610307675e-05,
+      "step": 500,
+      "tokens_per_second": 368.8907701487212,
+      "tokens_per_step": 1793.302,
+      "total_tokens_seen": 896651
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 3.66545497793495e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null