Training in progress, step 60000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +2 -2
last-checkpoint/rng_state_1.pth +2 -2
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23ff89d2a81bd757315b81207676f44c6832e84aae635f046c3e647c3040b483
 size 202193937

 version https://git-lfs.github.com/spec/v1
+oid sha256:3457b112e12db877a42c46fac58e3d5e20d221b80033f44297d02f1bf0a29bbe
 size 202193937

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2aabbbc7ed5c34ff08e86aca48f8310b460422b65244f1250c9b83aff072675
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:12c079ca10e4f5074932186a3283d50bcc598bd582a7cd9edd91714e4c65dfd6
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d79bfab61db4aceee2eb018ca16c6d4240f46f1f2f65a7d0758ecdb28fb7c5ff
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5e76b9e301f7b0cb22b85fec18227db354fe14cc5bb0bac90d3b2a5337f4cfb
+size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d41251322a5c7e3d079b6606a53e326a7bb151cabc9051e0857ad86ba9d2a108
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f01862087338bfbd20acfb7c33a70b3489e0a5ef9dae3d8a1be43686b8375ef
+size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba57e5623e2946c142c99b408508d7eb57876cf791e80cad946e566180db53c3
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:83c4fb9cb08b2fb5e7c87f09e0ad5cd788c7c092793db04c47d6d764cec33eaf
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:864755d58f82608f1190822ec9564d234220e4c5990982be3ccbb807c5a0be73
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d6aba86ae8ce52debffa93be97b7a876db9a94eebefae3b2b0e6b949b39a05e
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e60e4e496eff781a98bdb365b0f44c5af8c43d94935dec1bfea72243fe40e318
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0f6fe510afc4f0762f2f366a0873b87dc0eb54ac8956217e4dd97eb82d82822
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f14620f77e9f29a7b2fc64f011dd315353254d0795197f0559b275ff978e16d
 size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff8e8b5929e9213579996a620f084555093e802a48735f0426b630b1b890dd65
 size 14439

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76ce42d7854aed6ba8f7821d926516d66fdbe5198bf7a96423e32af1d108a944
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ea3829be57439a52e1f652bee0bd8412efb9460e9e607102830248cd7073d65
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2462e5ce80c7440f25a48dc31b2625ee60dfa64106981368292a46775f568768
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6a2ff2402a89a08691d66fefb0a4ebd6e4077409e1db9d9b06b5d8cf10952a6
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ec5c60f6b831a1ad5ababd554115ca1132f641d196d63d42183ef95c8827963
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:1afd4be721b18cec2bad25f6a60e1c3abb5c311277f62eb3e2f010bc31239df1
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.5319096786053494,
-  "global_step": 50000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1006,11 +1006,211 @@
       "eval_samples_per_second": 1920.725,
       "eval_steps_per_second": 30.732,
       "step": 50000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 1.597427705920524e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.8382916143264194,
+  "global_step": 60000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1920.725,
       "eval_steps_per_second": 30.732,
       "step": 50000
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0002979426829679962,
+      "loss": 0.4247,
+      "step": 50500
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0002978614137443183,
+      "loss": 0.424,
+      "step": 51000
+    },
+    {
+      "epoch": 1.56,
+      "eval_loss": 0.7871042490005493,
+      "eval_runtime": 0.5261,
+      "eval_samples_per_second": 1900.754,
+      "eval_steps_per_second": 30.412,
+      "step": 51000
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.000297778582211108,
+      "loss": 0.4232,
+      "step": 51500
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.00029769418927419786,
+      "loss": 0.422,
+      "step": 52000
+    },
+    {
+      "epoch": 1.59,
+      "eval_loss": 0.7916954159736633,
+      "eval_runtime": 0.5311,
+      "eval_samples_per_second": 1882.884,
+      "eval_steps_per_second": 30.126,
+      "step": 52000
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0002976082358564954,
+      "loss": 0.4211,
+      "step": 52500
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.00029752072289797353,
+      "loss": 0.4202,
+      "step": 53000
+    },
+    {
+      "epoch": 1.62,
+      "eval_loss": 0.7859019637107849,
+      "eval_runtime": 0.5358,
+      "eval_samples_per_second": 1866.426,
+      "eval_steps_per_second": 29.863,
+      "step": 53000
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.00029743165135565986,
+      "loss": 0.4194,
+      "step": 53500
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00029734102220362654,
+      "loss": 0.4184,
+      "step": 54000
+    },
+    {
+      "epoch": 1.65,
+      "eval_loss": 0.7869405150413513,
+      "eval_runtime": 0.5363,
+      "eval_samples_per_second": 1864.609,
+      "eval_steps_per_second": 29.834,
+      "step": 54000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.00029724883643297937,
+      "loss": 0.4177,
+      "step": 54500
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0002971550950518473,
+      "loss": 0.4165,
+      "step": 55000
+    },
+    {
+      "epoch": 1.69,
+      "eval_loss": 0.7873055338859558,
+      "eval_runtime": 0.5249,
+      "eval_samples_per_second": 1905.112,
+      "eval_steps_per_second": 30.482,
+      "step": 55000
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.000297059799085371,
+      "loss": 0.4156,
+      "step": 55500
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.00029696294957569196,
+      "loss": 0.4149,
+      "step": 56000
+    },
+    {
+      "epoch": 1.72,
+      "eval_loss": 0.7851352095603943,
+      "eval_runtime": 0.5685,
+      "eval_samples_per_second": 1758.943,
+      "eval_steps_per_second": 28.143,
+      "step": 56000
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.00029686454758194076,
+      "loss": 0.4141,
+      "step": 56500
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.00029676459418022594,
+      "loss": 0.4136,
+      "step": 57000
+    },
+    {
+      "epoch": 1.75,
+      "eval_loss": 0.7847647666931152,
+      "eval_runtime": 0.5348,
+      "eval_samples_per_second": 1869.958,
+      "eval_steps_per_second": 29.919,
+      "step": 57000
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.0002966630904636219,
+      "loss": 0.4126,
+      "step": 57500
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.0002965600375421569,
+      "loss": 0.4119,
+      "step": 58000
+    },
+    {
+      "epoch": 1.78,
+      "eval_loss": 0.7846025228500366,
+      "eval_runtime": 0.5441,
+      "eval_samples_per_second": 1837.795,
+      "eval_steps_per_second": 29.405,
+      "step": 58000
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0002964554365428013,
+      "loss": 0.4107,
+      "step": 58500
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.00029634928860945486,
+      "loss": 0.4103,
+      "step": 59000
+    },
+    {
+      "epoch": 1.81,
+      "eval_loss": 0.7957924604415894,
+      "eval_runtime": 0.5171,
+      "eval_samples_per_second": 1934.049,
+      "eval_steps_per_second": 30.945,
+      "step": 59000
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0002962415949029343,
+      "loss": 0.4099,
+      "step": 59500
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.00029613235660096084,
+      "loss": 0.409,
+      "step": 60000
+    },
+    {
+      "epoch": 1.84,
+      "eval_loss": 0.7877106070518494,
+      "eval_runtime": 0.5384,
+      "eval_samples_per_second": 1857.26,
+      "eval_steps_per_second": 29.716,
+      "step": 60000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 1.916914844695024e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2aabbbc7ed5c34ff08e86aca48f8310b460422b65244f1250c9b83aff072675
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:12c079ca10e4f5074932186a3283d50bcc598bd582a7cd9edd91714e4c65dfd6
 size 102501541