Training in progress, step 1800, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38ff59f65b26f1e229a4f3d4c73b0fefd04c74898553389ea45285c7c03e44fb
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:85e870d258db6d7abf45de988d9b70a0281bfdb3ea7c9c4bd38d1025f2f8cd97
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e68c2fd3fc08f26f68cc6ea31f89eb8432170046fa27022f45200b45830bbfd
 size 341314644

 version https://git-lfs.github.com/spec/v1
+oid sha256:13becd55a25b6054e7f90c99303bb145437a76d281c497ac37de934bd74fa6b2
 size 341314644

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac19d5d69213bd6ec3ac71c1dc1e56a89e4422a2146959318340f8687a25d0a0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d566d592391e3821922acc3010e303f9cd9b68e7755f6bf2181b073b99bba9c1
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f26152095eec0fefdbf64011d027c8b7130d36103664f806cba7c1c0501a24f2
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b88c69723b71d2878f68c032ece7cd75c665849011bece10855960b5f5a1426
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.4205625653266907,
-  "best_model_checkpoint": "miner_id_24/checkpoint-1650",
-  "epoch": 0.6255924170616114,
   "eval_steps": 150,
-  "global_step": 1650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1258,6 +1258,119 @@
       "eval_samples_per_second": 21.01,
       "eval_steps_per_second": 5.255,
       "step": 1650
     }
   ],
   "logging_steps": 10,
@@ -1286,7 +1399,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.464578120764883e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.41478267312049866,
+  "best_model_checkpoint": "miner_id_24/checkpoint-1800",
+  "epoch": 0.6824644549763034,
   "eval_steps": 150,
+  "global_step": 1800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.01,
       "eval_steps_per_second": 5.255,
       "step": 1650
+    },
+    {
+      "epoch": 0.6293838862559241,
+      "grad_norm": 0.7050827741622925,
+      "learning_rate": 3.128717968263484e-05,
+      "loss": 0.6622,
+      "step": 1660
+    },
+    {
+      "epoch": 0.633175355450237,
+      "grad_norm": 0.7003112435340881,
+      "learning_rate": 3.072572866936939e-05,
+      "loss": 0.4541,
+      "step": 1670
+    },
+    {
+      "epoch": 0.6369668246445498,
+      "grad_norm": 0.7300443053245544,
+      "learning_rate": 3.016711782284058e-05,
+      "loss": 0.4091,
+      "step": 1680
+    },
+    {
+      "epoch": 0.6407582938388625,
+      "grad_norm": 0.6804115176200867,
+      "learning_rate": 2.9611429457337613e-05,
+      "loss": 0.3318,
+      "step": 1690
+    },
+    {
+      "epoch": 0.6445497630331753,
+      "grad_norm": 0.6225182414054871,
+      "learning_rate": 2.905874545650656e-05,
+      "loss": 0.2427,
+      "step": 1700
+    },
+    {
+      "epoch": 0.6483412322274882,
+      "grad_norm": 0.7422319650650024,
+      "learning_rate": 2.8509147261284287e-05,
+      "loss": 0.6641,
+      "step": 1710
+    },
+    {
+      "epoch": 0.6521327014218009,
+      "grad_norm": 0.7763936519622803,
+      "learning_rate": 2.796271585789778e-05,
+      "loss": 0.4526,
+      "step": 1720
+    },
+    {
+      "epoch": 0.6559241706161137,
+      "grad_norm": 0.6862651705741882,
+      "learning_rate": 2.7419531765930324e-05,
+      "loss": 0.3974,
+      "step": 1730
+    },
+    {
+      "epoch": 0.6597156398104266,
+      "grad_norm": 0.6718897223472595,
+      "learning_rate": 2.6879675026456553e-05,
+      "loss": 0.3427,
+      "step": 1740
+    },
+    {
+      "epoch": 0.6635071090047393,
+      "grad_norm": 0.5931557416915894,
+      "learning_rate": 2.634322519024791e-05,
+      "loss": 0.2467,
+      "step": 1750
+    },
+    {
+      "epoch": 0.6672985781990521,
+      "grad_norm": 0.8312835097312927,
+      "learning_rate": 2.58102613060505e-05,
+      "loss": 0.6196,
+      "step": 1760
+    },
+    {
+      "epoch": 0.671090047393365,
+      "grad_norm": 0.7139614224433899,
+      "learning_rate": 2.5280861908936843e-05,
+      "loss": 0.4495,
+      "step": 1770
+    },
+    {
+      "epoch": 0.6748815165876777,
+      "grad_norm": 0.7517569065093994,
+      "learning_rate": 2.4755105008733154e-05,
+      "loss": 0.4067,
+      "step": 1780
+    },
+    {
+      "epoch": 0.6786729857819905,
+      "grad_norm": 0.7141692638397217,
+      "learning_rate": 2.4233068078524375e-05,
+      "loss": 0.3508,
+      "step": 1790
+    },
+    {
+      "epoch": 0.6824644549763034,
+      "grad_norm": 0.739683985710144,
+      "learning_rate": 2.371482804323798e-05,
+      "loss": 0.2417,
+      "step": 1800
+    },
+    {
+      "epoch": 0.6824644549763034,
+      "eval_loss": 0.41478267312049866,
+      "eval_runtime": 211.5519,
+      "eval_samples_per_second": 20.997,
+      "eval_steps_per_second": 5.252,
+      "step": 1800
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.5975158798918615e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null