Training in progress, step 300000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +2 -2
last-checkpoint/rng_state_1.pth +2 -2
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +2 -2
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd4094b5cac60d73fdd6f21e7e668f3210934954f13fb86e2d4209ee938a0a5a
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:24fd1effc786c2233fdf34af4b099eff768d956d0bc963f95cfe54130f46f6a4
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6255fd3a6ff2bf7ca5c36d99c6e77a3008adb68677e42013dd8386bb7b970a5
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:47f0bc998c8c06256cb91869f76891887d067c2f9c20c8788b0dca6b3ad6ca11
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:363babfb7b54265d790fbecb2309bf42f41b102f3bf25fe89de84147b11c7dfa
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:fde6f8fd4d14f48af81d5d82a8cd759def420f78e1b703b22c636bee803f12c9
+size 14439

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:510c7713e00d76055c77bffa7429d1c526fc618345e8f8ea963b237765d79340
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:832d8466b4e7e88ef694c8232544e65041e73b3ee2898ceff0bc790c1b587f8a
+size 14439

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ae1f30b94d6bbe49a697a2558dea2baf48ccbdc3ae096616d495689477f1d7b
 size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:dda76c49a6fd65be7a0e6f97adba0e99ae8ee53bcc455b836ddb29b2aed047b8
 size 14439

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:815dd65ada93eb961b018854672e652fa0d47bdfa3d615278f6e0ee59635af1b
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:1aa08d606f5576889586b0131f054f767347536bc8282ba2f180514fa58798dd
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eddefbea3505d30a2cf1bb4dae32403e020f44a6c57a201cd9d6a10a92b68999
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:25cbeea4d686c41f3d146553ed7c30451ac8df4fde4a1f39e397f53ea3d468f9
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87c32cbcd683d4257d3e7fe41cd4c20d1f40623baf6540486e5ca371ee7890e3
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:330bd685917df8b1fbae2148906f7052c5b81a3ff7fb1875852c5926aee0bf41
+size 14439

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f5b8ca27148787504a99d545fbc90a1c7466702929561717fa3c00574d165ef
 size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c09bcc07426d9c6688ac63a955b16de5936384e559ba4a03ebe59ef81ef814d
 size 14439

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a00f019162fc5f8994e9b1cb654b981eebf83af07e8dead098665a0f88f9319c
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:b0b6c36ce69b8a3eb376852eb39272f44b56a71cb9695804d2ec07e8dd226ccc
+size 14439

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39bc196d8aea9810b9698ff8cd04e2aeef8774f706fbd61ae0f0055bbacd0eaf
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:7914b9f1e3709b1198ec189eb9bb9105cd6b88dedbcbbdd4128934a703cf33e3
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.885076135911026,
-  "global_step": 290000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5806,11 +5806,211 @@
       "eval_samples_per_second": 1958.426,
       "eval_steps_per_second": 31.335,
       "step": 290000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 9.265063120844693e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.191458071632097,
+  "global_step": 300000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1958.426,
       "eval_steps_per_second": 31.335,
       "step": 290000
+    },
+    {
+      "epoch": 8.9,
+      "learning_rate": 0.00012830086996475274,
+      "loss": 0.3317,
+      "step": 290500
+    },
+    {
+      "epoch": 8.92,
+      "learning_rate": 0.00012782970938506988,
+      "loss": 0.3317,
+      "step": 291000
+    },
+    {
+      "epoch": 8.92,
+      "eval_loss": 0.7807593941688538,
+      "eval_runtime": 0.5168,
+      "eval_samples_per_second": 1935.056,
+      "eval_steps_per_second": 30.961,
+      "step": 291000
+    },
+    {
+      "epoch": 8.93,
+      "learning_rate": 0.00012735884593533222,
+      "loss": 0.3318,
+      "step": 291500
+    },
+    {
+      "epoch": 8.95,
+      "learning_rate": 0.0001268882847648268,
+      "loss": 0.3314,
+      "step": 292000
+    },
+    {
+      "epoch": 8.95,
+      "eval_loss": 0.784046471118927,
+      "eval_runtime": 0.5177,
+      "eval_samples_per_second": 1931.792,
+      "eval_steps_per_second": 30.909,
+      "step": 292000
+    },
+    {
+      "epoch": 8.96,
+      "learning_rate": 0.00012641803101953535,
+      "loss": 0.3315,
+      "step": 292500
+    },
+    {
+      "epoch": 8.98,
+      "learning_rate": 0.00012594808984207743,
+      "loss": 0.3316,
+      "step": 293000
+    },
+    {
+      "epoch": 8.98,
+      "eval_loss": 0.7820506691932678,
+      "eval_runtime": 0.5125,
+      "eval_samples_per_second": 1951.189,
+      "eval_steps_per_second": 31.219,
+      "step": 293000
+    },
+    {
+      "epoch": 8.99,
+      "learning_rate": 0.00012547846637165445,
+      "loss": 0.3313,
+      "step": 293500
+    },
+    {
+      "epoch": 9.01,
+      "learning_rate": 0.00012500916574399346,
+      "loss": 0.3313,
+      "step": 294000
+    },
+    {
+      "epoch": 9.01,
+      "eval_loss": 0.7772422432899475,
+      "eval_runtime": 0.5191,
+      "eval_samples_per_second": 1926.42,
+      "eval_steps_per_second": 30.823,
+      "step": 294000
+    },
+    {
+      "epoch": 9.02,
+      "learning_rate": 0.00012454019309129095,
+      "loss": 0.3312,
+      "step": 294500
+    },
+    {
+      "epoch": 9.04,
+      "learning_rate": 0.0001240715535421567,
+      "loss": 0.3312,
+      "step": 295000
+    },
+    {
+      "epoch": 9.04,
+      "eval_loss": 0.7806535959243774,
+      "eval_runtime": 0.523,
+      "eval_samples_per_second": 1912.102,
+      "eval_steps_per_second": 30.594,
+      "step": 295000
+    },
+    {
+      "epoch": 9.05,
+      "learning_rate": 0.00012360325222155773,
+      "loss": 0.3314,
+      "step": 295500
+    },
+    {
+      "epoch": 9.07,
+      "learning_rate": 0.00012313529425076228,
+      "loss": 0.3308,
+      "step": 296000
+    },
+    {
+      "epoch": 9.07,
+      "eval_loss": 0.7832562327384949,
+      "eval_runtime": 0.5029,
+      "eval_samples_per_second": 1988.511,
+      "eval_steps_per_second": 31.816,
+      "step": 296000
+    },
+    {
+      "epoch": 9.08,
+      "learning_rate": 0.00012266768474728372,
+      "loss": 0.3307,
+      "step": 296500
+    },
+    {
+      "epoch": 9.1,
+      "learning_rate": 0.00012220042882482468,
+      "loss": 0.3315,
+      "step": 297000
+    },
+    {
+      "epoch": 9.1,
+      "eval_loss": 0.7853960394859314,
+      "eval_runtime": 0.5129,
+      "eval_samples_per_second": 1949.757,
+      "eval_steps_per_second": 31.196,
+      "step": 297000
+    },
+    {
+      "epoch": 9.11,
+      "learning_rate": 0.00012173353159322102,
+      "loss": 0.3307,
+      "step": 297500
+    },
+    {
+      "epoch": 9.13,
+      "learning_rate": 0.00012126699815838609,
+      "loss": 0.3307,
+      "step": 298000
+    },
+    {
+      "epoch": 9.13,
+      "eval_loss": 0.7787604928016663,
+      "eval_runtime": 0.5129,
+      "eval_samples_per_second": 1949.706,
+      "eval_steps_per_second": 31.195,
+      "step": 298000
+    },
+    {
+      "epoch": 9.15,
+      "learning_rate": 0.00012080083362225484,
+      "loss": 0.3309,
+      "step": 298500
+    },
+    {
+      "epoch": 9.16,
+      "learning_rate": 0.00012033504308272786,
+      "loss": 0.3303,
+      "step": 299000
+    },
+    {
+      "epoch": 9.16,
+      "eval_loss": 0.7810524702072144,
+      "eval_runtime": 0.5188,
+      "eval_samples_per_second": 1927.499,
+      "eval_steps_per_second": 30.84,
+      "step": 299000
+    },
+    {
+      "epoch": 9.18,
+      "learning_rate": 0.00011986963163361598,
+      "loss": 0.3305,
+      "step": 299500
+    },
+    {
+      "epoch": 9.19,
+      "learning_rate": 0.0001194046043645841,
+      "loss": 0.3304,
+      "step": 300000
+    },
+    {
+      "epoch": 9.19,
+      "eval_loss": 0.7832754850387573,
+      "eval_runtime": 0.5188,
+      "eval_samples_per_second": 1927.692,
+      "eval_steps_per_second": 30.843,
+      "step": 300000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 9.584542271667217e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6255fd3a6ff2bf7ca5c36d99c6e77a3008adb68677e42013dd8386bb7b970a5
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:47f0bc998c8c06256cb91869f76891887d067c2f9c20c8788b0dca6b3ad6ca11
 size 102501541