Training in progress, step 600, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +49 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3fd992e113586f812afc77a0702f2871849c3b36106c0c2de720d263ffaa124
 size 100697728

 version https://git-lfs.github.com/spec/v1
+oid sha256:e69590fa1ed241eef6a296c732ccf103be67167a09de0f7591d694941abbddee
 size 100697728

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3105b22c5fc7869e6ed63a58ea962520392f460fbb1c31c1abc4d139211b21cf
 size 51418452

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe31a5c368391667178b190ac5af3403ae6dda609fe68154c8fe7fd0e907aca6
 size 51418452

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6207d4c3c45167cc370ab64a1372acf1cee42bfee65685d0672373dc45c12efd
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ad557efcb90e3e9735af4be2b02a20aac5fd7dd9159e4600e591a43624fd0de
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6bb9c0d62d6b3cf0976c16f73e9bd814b298ebffa1786831bc2a68d8e48809b9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ad54995b081fae25638228c5d9c8f38ca277e5c5ad00bc3e49897b543f84405
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.7403023838996887,
-  "best_model_checkpoint": "miner_id_24/checkpoint-550",
-  "epoch": 0.6472491909385113,
   "eval_steps": 50,
-  "global_step": 550,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -488,6 +488,49 @@
       "eval_samples_per_second": 21.984,
       "eval_steps_per_second": 5.496,
       "step": 550
     }
   ],
   "logging_steps": 10,
@@ -511,12 +554,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.706288114835128e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7395899295806885,
+  "best_model_checkpoint": "miner_id_24/checkpoint-600",
+  "epoch": 0.706090026478376,
   "eval_steps": 50,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.984,
       "eval_steps_per_second": 5.496,
       "step": 550
+    },
+    {
+      "epoch": 0.6590173580464843,
+      "grad_norm": 0.7405086755752563,
+      "learning_rate": 2.259661018213333e-06,
+      "loss": 5.5799,
+      "step": 560
+    },
+    {
+      "epoch": 0.6707855251544572,
+      "grad_norm": 1.1222789287567139,
+      "learning_rate": 1.2731645278655445e-06,
+      "loss": 4.4696,
+      "step": 570
+    },
+    {
+      "epoch": 0.6825536922624301,
+      "grad_norm": 0.7055889964103699,
+      "learning_rate": 5.665199789862907e-07,
+      "loss": 2.6787,
+      "step": 580
+    },
+    {
+      "epoch": 0.694321859370403,
+      "grad_norm": 0.8095390796661377,
+      "learning_rate": 1.4173043232380557e-07,
+      "loss": 1.1647,
+      "step": 590
+    },
+    {
+      "epoch": 0.706090026478376,
+      "grad_norm": 1.5414854288101196,
+      "learning_rate": 0.0,
+      "loss": 1.2265,
+      "step": 600
+    },
+    {
+      "epoch": 0.706090026478376,
+      "eval_loss": 0.7395899295806885,
+      "eval_runtime": 65.1662,
+      "eval_samples_per_second": 21.975,
+      "eval_steps_per_second": 5.494,
+      "step": 600
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.0424698151121715e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null