Training in progress, step 200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +49 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af5a35aeed82dd53b02dc52e7113e6b2d2fea07827a21ae96b8edd930204fdbe
 size 671149168

 version https://git-lfs.github.com/spec/v1
+oid sha256:2402adbfca98d671051c74ec0713f152180df0c7596316b0d6ec62a2d9f67e4a
 size 671149168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:faff50d30ce699f81a695b6206b128b57fd7ec7577bfdf237da82affaf8e0de5
 size 341314196

 version https://git-lfs.github.com/spec/v1
+oid sha256:a65035516ddbaf1d23f716b24cba730cfde26757f86c6a7dc27469f6953877a9
 size 341314196

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:557dac458186b9f27e8a9f18f027c2fee748f1d0dcfbd9e3d5a71e44105f5d20
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6380b772761e33eef699aa83445ba86872784d37589e08de63edee987b561bb8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6da36b358afefa2fe6fe8e3889efc77dfb89ac577ed7bb55c631123a9ebe149
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:56e06160672e234a504b2a9f8fb3d80ed8c221e80fde36a5548d37e259bd5bc6
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.08475644886493683,
-  "best_model_checkpoint": "miner_id_24/checkpoint-150",
-  "epoch": 0.03912363067292645,
   "eval_steps": 50,
-  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -144,6 +144,49 @@
       "eval_samples_per_second": 10.621,
       "eval_steps_per_second": 2.659,
       "step": 150
     }
   ],
   "logging_steps": 10,
@@ -167,12 +210,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 9.83812238475264e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.0839918926358223,
+  "best_model_checkpoint": "miner_id_24/checkpoint-200",
+  "epoch": 0.05216484089723526,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.621,
       "eval_steps_per_second": 2.659,
       "step": 150
+    },
+    {
+      "epoch": 0.041731872717788214,
+      "grad_norm": 0.5782827138900757,
+      "learning_rate": 2.2444444444444445e-06,
+      "loss": 0.1699,
+      "step": 160
+    },
+    {
+      "epoch": 0.04434011476264997,
+      "grad_norm": 0.5800355076789856,
+      "learning_rate": 1.6833333333333332e-06,
+      "loss": 0.1732,
+      "step": 170
+    },
+    {
+      "epoch": 0.046948356807511735,
+      "grad_norm": 0.17197786271572113,
+      "learning_rate": 1.1222222222222222e-06,
+      "loss": 0.0698,
+      "step": 180
+    },
+    {
+      "epoch": 0.0495565988523735,
+      "grad_norm": 0.07155860960483551,
+      "learning_rate": 5.611111111111111e-07,
+      "loss": 0.0005,
+      "step": 190
+    },
+    {
+      "epoch": 0.05216484089723526,
+      "grad_norm": 2.822216510772705,
+      "learning_rate": 0.0,
+      "loss": 0.0039,
+      "step": 200
+    },
+    {
+      "epoch": 0.05216484089723526,
+      "eval_loss": 0.0839918926358223,
+      "eval_runtime": 151.7364,
+      "eval_samples_per_second": 10.637,
+      "eval_steps_per_second": 2.663,
+      "step": 200
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.3093646519343514e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null