Training in progress, step 250, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +48 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36b749e777b1e5823fc585f694d4f09781b9541d21d1fc724ba5fc3ad395a906
 size 645975704

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f1dff3dc20ed8f9caa22b35babc0a52dc3e9acfbb772ce5996ade9e3d3174d1
 size 645975704

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a839b2ec33d15ccb640f84b1c0fb1075fcf87ae8bb5b5c958b5b38426640d8e0
 size 328468404

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2c319020835cdbfd9ddec8cefde771d6694ed43d4574ea7ced18ed21aaa9d85
 size 328468404

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba5654eda2b4f3497fa434df691a6efe019a04e7b8a17c44d4d8d7e9cc405a4c
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ac2b4247c4e454b215ec068ba8a8e51e027e7b1041170e1dd440d00886ab4a0
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9abf3b00130ebbc35657fb7788755e92886d9a53e2a5677dea2a31074b05473
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c025e03e0d8ded968e4f23b186aaafce8f23c2a50b134c4f77cea95627049ac8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.361072063446045,
-  "best_model_checkpoint": "miner_id_24/checkpoint-200",
-  "epoch": 0.0016864757295061577,
   "eval_steps": 50,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -187,6 +187,49 @@
       "eval_samples_per_second": 14.679,
       "eval_steps_per_second": 3.67,
       "step": 200
     }
   ],
   "logging_steps": 10,
@@ -215,7 +258,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.390081315995648e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.3310532569885254,
+  "best_model_checkpoint": "miner_id_24/checkpoint-250",
+  "epoch": 0.002108094661882697,
   "eval_steps": 50,
+  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 14.679,
       "eval_steps_per_second": 3.67,
       "step": 200
+    },
+    {
+      "epoch": 0.0017707995159814657,
+      "grad_norm": 0.7128476500511169,
+      "learning_rate": 0.00015102897041285315,
+      "loss": 1.3027,
+      "step": 210
+    },
+    {
+      "epoch": 0.0018551233024567736,
+      "grad_norm": 0.6080098748207092,
+      "learning_rate": 0.00014433369230867077,
+      "loss": 1.2597,
+      "step": 220
+    },
+    {
+      "epoch": 0.0019394470889320815,
+      "grad_norm": 0.7591213583946228,
+      "learning_rate": 0.0001374467844093695,
+      "loss": 1.0402,
+      "step": 230
+    },
+    {
+      "epoch": 0.002023770875407389,
+      "grad_norm": 0.8502488136291504,
+      "learning_rate": 0.0001304017990379651,
+      "loss": 1.0837,
+      "step": 240
+    },
+    {
+      "epoch": 0.002108094661882697,
+      "grad_norm": 3.2781741619110107,
+      "learning_rate": 0.0001232330586550277,
+      "loss": 1.553,
+      "step": 250
+    },
+    {
+      "epoch": 0.002108094661882697,
+      "eval_loss": 1.3310532569885254,
+      "eval_runtime": 3412.7075,
+      "eval_samples_per_second": 14.631,
+      "eval_steps_per_second": 3.658,
+      "step": 250
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.483158242852864e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null