Training in progress, step 10000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +57 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:08272eae0fb3d0187698911c3a6fe55947f1c2aa29c2b91fc192c91f0955752c
 size 497780352

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c999b2c968317cfb9a178e7d7e916ec81e10f2d4b5f677a60a04809df73dc28
 size 497780352

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:062cbf925132d5481813039e3f2ae2af94ffb7026e1a2ae1af26275cafd1de78
 size 995617914

 version https://git-lfs.github.com/spec/v1
+oid sha256:bfe21c9b3924775aa74156b19fb883f26009e266099be574b1bb86c23ca571c4
 size 995617914

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1be58c6095331490031ab4484c5ffe4bf36bc8c2ec9130e8e665c8f156e2c90
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5189a6d57ea7f8ba0ac9eec6cad8707c6e4c886fe1a371a733497024fcbb01ba
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1305eff1a05da779c382ab68d240e5dfe192a09923f7945b52f548c78896f445
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:04c72869181363c7c0dcffb7a71857fd6a7c81a93e70aff2985fc26363295969
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.0,
   "eval_steps": 200,
-  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -493,6 +493,60 @@
       "eval_samples_per_second": 422.006,
       "eval_steps_per_second": 6.594,
       "step": 9000
     }
   ],
   "logging_steps": 500,
@@ -500,7 +554,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 1000,
-  "total_flos": 3.7626052608e+16,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 10.0,
   "eval_steps": 200,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 422.006,
       "eval_steps_per_second": 6.594,
       "step": 9000
+    },
+    {
+      "epoch": 9.2,
+      "eval_loss": 0.023400841280817986,
+      "eval_runtime": 37.7841,
+      "eval_samples_per_second": 423.458,
+      "eval_steps_per_second": 6.617,
+      "step": 9200
+    },
+    {
+      "epoch": 9.4,
+      "eval_loss": 0.023405231535434723,
+      "eval_runtime": 37.8666,
+      "eval_samples_per_second": 422.536,
+      "eval_steps_per_second": 6.602,
+      "step": 9400
+    },
+    {
+      "epoch": 9.5,
+      "grad_norm": 0.16063953936100006,
+      "learning_rate": 3.077914851215585e-07,
+      "loss": 0.0241,
+      "step": 9500
+    },
+    {
+      "epoch": 9.6,
+      "eval_loss": 0.023399699479341507,
+      "eval_runtime": 37.8663,
+      "eval_samples_per_second": 422.539,
+      "eval_steps_per_second": 6.602,
+      "step": 9600
+    },
+    {
+      "epoch": 9.8,
+      "eval_loss": 0.023402543738484383,
+      "eval_runtime": 37.6977,
+      "eval_samples_per_second": 424.429,
+      "eval_steps_per_second": 6.632,
+      "step": 9800
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.11751583963632584,
+      "learning_rate": 0.0,
+      "loss": 0.024,
+      "step": 10000
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.023403601720929146,
+      "eval_runtime": 37.692,
+      "eval_samples_per_second": 424.493,
+      "eval_steps_per_second": 6.633,
+      "step": 10000
     }
   ],
   "logging_steps": 500,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 1000,
+  "total_flos": 4.180672512e+16,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null