Training in progress, step 250000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86a627dfbe7c679e04ccbc3bb681acaad2eb0bc77a28387eaadb86fe5d605e1d
 size 50044689

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e5af91ccddd56c46390e8e9421649db570d8b3c17a13d91d28840da494e9a18
 size 50044689

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9bd16572a6844d9a3d59f0a851a360e9f83b742eab8c4d285d9f60c12e35e31c
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec28c7ce9b7bf7efdfe195b6d3b3f0520514cd2671a27e1e57d0cc8b2460b7c7
 size 25761253

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7965bd29c0f55a5d3c71632e761019454c0e283d2927c1b932a921a6a76d1df
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5cbd520c1fe686440a5f5c510c7e814fd33d69f5cb1e9ae41c56fe71f689c46
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7965bd29c0f55a5d3c71632e761019454c0e283d2927c1b932a921a6a76d1df
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5cbd520c1fe686440a5f5c510c7e814fd33d69f5cb1e9ae41c56fe71f689c46
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7965bd29c0f55a5d3c71632e761019454c0e283d2927c1b932a921a6a76d1df
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5cbd520c1fe686440a5f5c510c7e814fd33d69f5cb1e9ae41c56fe71f689c46
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7965bd29c0f55a5d3c71632e761019454c0e283d2927c1b932a921a6a76d1df
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5cbd520c1fe686440a5f5c510c7e814fd33d69f5cb1e9ae41c56fe71f689c46
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7965bd29c0f55a5d3c71632e761019454c0e283d2927c1b932a921a6a76d1df
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5cbd520c1fe686440a5f5c510c7e814fd33d69f5cb1e9ae41c56fe71f689c46
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7965bd29c0f55a5d3c71632e761019454c0e283d2927c1b932a921a6a76d1df
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5cbd520c1fe686440a5f5c510c7e814fd33d69f5cb1e9ae41c56fe71f689c46
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7965bd29c0f55a5d3c71632e761019454c0e283d2927c1b932a921a6a76d1df
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5cbd520c1fe686440a5f5c510c7e814fd33d69f5cb1e9ae41c56fe71f689c46
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7965bd29c0f55a5d3c71632e761019454c0e283d2927c1b932a921a6a76d1df
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5cbd520c1fe686440a5f5c510c7e814fd33d69f5cb1e9ae41c56fe71f689c46
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0271bea6149ce925d63296b146082378537ccb6d117e16172c4343f0cd0f3277
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:91f2b533d9be93c6cd8cde2522968f253e93ba31177b2564989d91807f307fa6
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.70663811563169,
-  "global_step": 240000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4806,11 +4806,211 @@
       "eval_samples_per_second": 1046.621,
       "eval_steps_per_second": 16.403,
       "step": 240000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 12,
-  "total_flos": 3.8439607489575623e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 11.152748037116346,
+  "global_step": 250000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1046.621,
       "eval_steps_per_second": 16.403,
       "step": 240000
+    },
+    {
+      "epoch": 10.73,
+      "learning_rate": 1.232616311222906e-05,
+      "loss": 0.3635,
+      "step": 240500
+    },
+    {
+      "epoch": 10.75,
+      "learning_rate": 1.2088029177672978e-05,
+      "loss": 0.3635,
+      "step": 241000
+    },
+    {
+      "epoch": 10.75,
+      "eval_loss": 0.3392580449581146,
+      "eval_runtime": 2.2637,
+      "eval_samples_per_second": 1014.699,
+      "eval_steps_per_second": 15.903,
+      "step": 241000
+    },
+    {
+      "epoch": 10.77,
+      "learning_rate": 1.1862708161623889e-05,
+      "loss": 0.3634,
+      "step": 241500
+    },
+    {
+      "epoch": 10.8,
+      "learning_rate": 1.165020992035296e-05,
+      "loss": 0.3634,
+      "step": 242000
+    },
+    {
+      "epoch": 10.8,
+      "eval_loss": 0.3343862295150757,
+      "eval_runtime": 2.2213,
+      "eval_samples_per_second": 1034.066,
+      "eval_steps_per_second": 16.207,
+      "step": 242000
+    },
+    {
+      "epoch": 10.82,
+      "learning_rate": 1.1450543749221632e-05,
+      "loss": 0.3635,
+      "step": 242500
+    },
+    {
+      "epoch": 10.84,
+      "learning_rate": 1.126371838227509e-05,
+      "loss": 0.3635,
+      "step": 243000
+    },
+    {
+      "epoch": 10.84,
+      "eval_loss": 0.3382641077041626,
+      "eval_runtime": 2.2515,
+      "eval_samples_per_second": 1020.218,
+      "eval_steps_per_second": 15.989,
+      "step": 243000
+    },
+    {
+      "epoch": 10.86,
+      "learning_rate": 1.1089741991860081e-05,
+      "loss": 0.3634,
+      "step": 243500
+    },
+    {
+      "epoch": 10.89,
+      "learning_rate": 1.0928622188267536e-05,
+      "loss": 0.3633,
+      "step": 244000
+    },
+    {
+      "epoch": 10.89,
+      "eval_loss": 0.33619487285614014,
+      "eval_runtime": 2.2703,
+      "eval_samples_per_second": 1011.748,
+      "eval_steps_per_second": 15.857,
+      "step": 244000
+    },
+    {
+      "epoch": 10.91,
+      "learning_rate": 1.0780366019399665e-05,
+      "loss": 0.3635,
+      "step": 244500
+    },
+    {
+      "epoch": 10.93,
+      "learning_rate": 1.0644979970461512e-05,
+      "loss": 0.3635,
+      "step": 245000
+    },
+    {
+      "epoch": 10.93,
+      "eval_loss": 0.3352552354335785,
+      "eval_runtime": 2.2392,
+      "eval_samples_per_second": 1025.803,
+      "eval_steps_per_second": 16.077,
+      "step": 245000
+    },
+    {
+      "epoch": 10.95,
+      "learning_rate": 1.0522469963677483e-05,
+      "loss": 0.3634,
+      "step": 245500
+    },
+    {
+      "epoch": 10.97,
+      "learning_rate": 1.0412841358032126e-05,
+      "loss": 0.3634,
+      "step": 246000
+    },
+    {
+      "epoch": 10.97,
+      "eval_loss": 0.33572423458099365,
+      "eval_runtime": 2.2818,
+      "eval_samples_per_second": 1006.659,
+      "eval_steps_per_second": 15.777,
+      "step": 246000
+    },
+    {
+      "epoch": 11.0,
+      "learning_rate": 1.0316098949035847e-05,
+      "loss": 0.3634,
+      "step": 246500
+    },
+    {
+      "epoch": 11.02,
+      "learning_rate": 1.0232246968514984e-05,
+      "loss": 0.3632,
+      "step": 247000
+    },
+    {
+      "epoch": 11.02,
+      "eval_loss": 0.3374698758125305,
+      "eval_runtime": 3.6783,
+      "eval_samples_per_second": 624.479,
+      "eval_steps_per_second": 9.787,
+      "step": 247000
+    },
+    {
+      "epoch": 11.04,
+      "learning_rate": 1.0161289084426815e-05,
+      "loss": 0.3633,
+      "step": 247500
+    },
+    {
+      "epoch": 11.06,
+      "learning_rate": 1.0103228400699063e-05,
+      "loss": 0.3633,
+      "step": 248000
+    },
+    {
+      "epoch": 11.06,
+      "eval_loss": 0.3395208418369293,
+      "eval_runtime": 2.2423,
+      "eval_samples_per_second": 1024.379,
+      "eval_steps_per_second": 16.055,
+      "step": 248000
+    },
+    {
+      "epoch": 11.09,
+      "learning_rate": 1.0058067457094136e-05,
+      "loss": 0.3635,
+      "step": 248500
+    },
+    {
+      "epoch": 11.11,
+      "learning_rate": 1.0025808229097982e-05,
+      "loss": 0.3635,
+      "step": 249000
+    },
+    {
+      "epoch": 11.11,
+      "eval_loss": 0.33821383118629456,
+      "eval_runtime": 2.2205,
+      "eval_samples_per_second": 1034.472,
+      "eval_steps_per_second": 16.213,
+      "step": 249000
+    },
+    {
+      "epoch": 11.13,
+      "learning_rate": 1.0006452127833747e-05,
+      "loss": 0.3633,
+      "step": 249500
+    },
+    {
+      "epoch": 11.15,
+      "learning_rate": 1e-05,
+      "loss": 0.3634,
+      "step": 250000
+    },
+    {
+      "epoch": 11.15,
+      "eval_loss": 0.3380183279514313,
+      "eval_runtime": 2.1982,
+      "eval_samples_per_second": 1044.959,
+      "eval_steps_per_second": 16.377,
+      "step": 250000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 12,
+  "total_flos": 4.004121619841193e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9bd16572a6844d9a3d59f0a851a360e9f83b742eab8c4d285d9f60c12e35e31c
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec28c7ce9b7bf7efdfe195b6d3b3f0520514cd2671a27e1e57d0cc8b2460b7c7
 size 25761253