Training in progress, step 500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +49 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3509124582a9776fb9036f2b18c58eab22402fc9194cc655661de53f42060c1
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:c57d220b2e39bb440d899ec3169eb9e60c47bc1f832b1d4ae08ac0b7d9c42bd2
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b11212752d36e9fb9172b073383dda7d27a2c6ba756db1d879caa192048bbb0c
 size 341314644

 version https://git-lfs.github.com/spec/v1
+oid sha256:68ae5176627008721318bbe5fd761bb33dfe6f313f27459762a4a2a3fe35d28a
 size 341314644

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96075787ba5edb16dcfffc9081e96bc7d59fcf7c2ad76536ee4296691f539bcf
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7d4d21fcd9fcf14d26078139d2fc93bde1da3c6a4ea31370985e28cf9c7201f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea278ffcc402f8731d694a21dbc5a96671a02299dc57c40b61a02431bc8aed26
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:200a199971193d5b4ec602093f689606117a65db31ca244b618fc0f0cd969846
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.9180558919906616,
-  "best_model_checkpoint": "miner_id_24/checkpoint-450",
-  "epoch": 0.1913265306122449,
   "eval_steps": 50,
-  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -402,6 +402,49 @@
       "eval_samples_per_second": 15.743,
       "eval_steps_per_second": 3.94,
       "step": 450
     }
   ],
   "logging_steps": 10,
@@ -425,12 +468,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 8.824804435663258e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9177358150482178,
+  "best_model_checkpoint": "miner_id_24/checkpoint-500",
+  "epoch": 0.21258503401360543,
   "eval_steps": 50,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.743,
       "eval_steps_per_second": 3.94,
       "step": 450
+    },
+    {
+      "epoch": 0.195578231292517,
+      "grad_norm": 0.8290402889251709,
+      "learning_rate": 4.2031059906924e-06,
+      "loss": 0.7275,
+      "step": 460
+    },
+    {
+      "epoch": 0.19982993197278912,
+      "grad_norm": 1.1160340309143066,
+      "learning_rate": 2.3709853203820825e-06,
+      "loss": 0.9622,
+      "step": 470
+    },
+    {
+      "epoch": 0.20408163265306123,
+      "grad_norm": 1.1340962648391724,
+      "learning_rate": 1.0559145415396157e-06,
+      "loss": 0.9239,
+      "step": 480
+    },
+    {
+      "epoch": 0.20833333333333334,
+      "grad_norm": 1.406528353691101,
+      "learning_rate": 2.643005468090745e-07,
+      "loss": 1.0004,
+      "step": 490
+    },
+    {
+      "epoch": 0.21258503401360543,
+      "grad_norm": 2.756352186203003,
+      "learning_rate": 0.0,
+      "loss": 0.8909,
+      "step": 500
+    },
+    {
+      "epoch": 0.21258503401360543,
+      "eval_loss": 0.9177358150482178,
+      "eval_runtime": 62.9695,
+      "eval_samples_per_second": 15.738,
+      "eval_steps_per_second": 3.938,
+      "step": 500
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 9.805338261848064e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null