Training in progress, step 750, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +92 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b7426f77545243fe44b61bdf327bbe8386aaecd03d9b377cde6bb8b482e8a3a
 size 84972248

 version https://git-lfs.github.com/spec/v1
+oid sha256:056b42131c364ac6d3ffdcf649a5c97906ef4f0d8b378519839e223cdd8ac91d
 size 84972248

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76fc2fa6250a96154629a5641458d43a79a6deaf4569bdd3d1051fc60b41bdab
 size 43434405

 version https://git-lfs.github.com/spec/v1
+oid sha256:21b04b38bd9193dccba2b26c7971c57e8612c2d88b3fe83ba627fe8b6bf98a41
 size 43434405

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27978b0c0a2d70a6d9e24fba0f2ed928bba9b47aecb6cc92523c33dd4a9bc29f
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa4695b71941286f2b5c53635fbeb413ba790d86d240df638f320993845abe31
 size 14917

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d4883ea9e9e4170ef036b08f27772e01a500be9d13e3c9492d90b6357d7e8c6
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:69fba46c77118e21066090a5469435f96321e6406988c306b041caec1e98a4c8
 size 14917

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46a5dde96232ac87d1fa1ed9715479941761512093c62e0c951b01e5c58be3a3
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d789993928e049b3b0b113d88443633a86c205feae04d9e432a85efd6874b32
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 500,
-  "best_metric": 0.40328726172447205,
-  "best_model_checkpoint": "/kaggle/working/obsidian_critic_qwen35_t4x2_unsloth/runs/obsidian_critic_full_epoch/checkpoint-500",
-  "epoch": 0.22171719971176765,
   "eval_steps": 125,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -192,6 +192,92 @@
       "tokens_per_second": 368.8907701487212,
       "tokens_per_step": 1793.302,
       "total_tokens_seen": 896651
     }
   ],
   "logging_steps": 50,
@@ -220,7 +306,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.66545497793495e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 750,
+  "best_metric": 0.3200623393058777,
+  "best_model_checkpoint": "/kaggle/working/obsidian_critic_qwen35_t4x2_unsloth/runs/obsidian_critic_full_epoch/checkpoint-750",
+  "epoch": 0.3325757995676515,
   "eval_steps": 125,
+  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "tokens_per_second": 368.8907701487212,
       "tokens_per_step": 1793.302,
       "total_tokens_seen": 896651
+    },
+    {
+      "epoch": 0.2438889196829444,
+      "grad_norm": 0.7751753330230713,
+      "last_batch_tokens": 273,
+      "learning_rate": 8.626831825760946e-05,
+      "loss": 0.3414393615722656,
+      "lr": 8.622024749619364e-05,
+      "step": 550,
+      "tokens_per_second": 82.92877874873523,
+      "tokens_per_step": 1766.3690909090908,
+      "total_tokens_seen": 971503
+    },
+    {
+      "epoch": 0.2660606396541212,
+      "grad_norm": 0.7136653065681458,
+      "last_batch_tokens": 305,
+      "learning_rate": 8.378022494113098e-05,
+      "loss": 0.3377827072143555,
+      "lr": 8.372874417081631e-05,
+      "step": 600,
+      "tokens_per_second": 90.40251231127895,
+      "tokens_per_step": 1748.685,
+      "total_tokens_seen": 1049211
+    },
+    {
+      "epoch": 0.27714649963970955,
+      "eval_loss": 0.35334891080856323,
+      "eval_runtime": 87.0325,
+      "eval_samples_per_second": 4.171,
+      "eval_steps_per_second": 2.091,
+      "last_batch_tokens": 172,
+      "lr": 8.24206361704162e-05,
+      "step": 625,
+      "tokens_per_second": 135.75737480096265,
+      "tokens_per_step": 1791.824,
+      "total_tokens_seen": 1119890
+    },
+    {
+      "epoch": 0.2882323596252979,
+      "grad_norm": 0.7202998399734497,
+      "last_batch_tokens": 211,
+      "learning_rate": 8.112770389539574e-05,
+      "loss": 0.3233934020996094,
+      "lr": 8.107306370261785e-05,
+      "step": 650,
+      "tokens_per_second": 84.5144051400581,
+      "tokens_per_step": 1779.3815384615384,
+      "total_tokens_seen": 1156598
+    },
+    {
+      "epoch": 0.3104040795964747,
+      "grad_norm": 0.7681185007095337,
+      "last_batch_tokens": 236,
+      "learning_rate": 7.832366646167268e-05,
+      "loss": 0.3125551414489746,
+      "lr": 7.826613281158841e-05,
+      "step": 700,
+      "tokens_per_second": 84.37944807859942,
+      "tokens_per_step": 1759.6771428571428,
+      "total_tokens_seen": 1231774
+    },
+    {
+      "epoch": 0.3325757995676515,
+      "grad_norm": 0.659271776676178,
+      "last_batch_tokens": 939,
+      "learning_rate": 7.538176149839243e-05,
+      "loss": 0.28798053741455076,
+      "lr": 7.532161444027488e-05,
+      "step": 750,
+      "tokens_per_second": 87.73140620694117,
+      "tokens_per_step": 1745.06,
+      "total_tokens_seen": 1308795
+    },
+    {
+      "epoch": 0.3325757995676515,
+      "eval_loss": 0.3200623393058777,
+      "eval_runtime": 87.2377,
+      "eval_samples_per_second": 4.161,
+      "eval_steps_per_second": 2.086,
+      "last_batch_tokens": 172,
+      "lr": 7.532161444027488e-05,
+      "step": 750,
+      "tokens_per_second": 368.35941630029333,
+      "tokens_per_step": 1787.9106666666667,
+      "total_tokens_seen": 1340933
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 5.483273203482624e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null