Training in progress, step 230000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +2 -2
last-checkpoint/rng_state_4.pth +2 -2
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +2 -2
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3ac76e1d220f6d8cb3dc3743f45e80298ffddaf4ef80817514d248746af9821
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb8fd8ac7a94c71cb9bae9b51285847468aadaf879c8294673a5f1227f6e3805
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cb76675226c565779dfeb3a8b0d92c90ded4e386d4778c4ecac74f673efb538
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:0381bd61cfa5693b91ef1c3bc98164157c471fedd8ca782c7895ef021e44198e
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd1d2a3e2335707f39d021f603fb4d73c951356a2d333cf3eecb4bcaf66a94d5
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e8c0fee4326b0ea54f571042b42f3310e49da5a8100b7cef78ab6dd45aed4dd
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b649e22628c0243a3802b9e8565a7279841c797cd164e62e5f4790c3cae8210
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8276c7d4bdc1e5f4f03d59d626594d8ff388b5c3ce551a912a87789097e3095
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f83c397386f43a750816cef91f85bfbfcd5ca30567987fd3bd04ea4161c050ff
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:65a2cb7497a9ce2c26cda359aeae335184676df1a7a3062baaed32e48048b544
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75b5752b21c419f95766e4dd33840bff9a6347069f10f102c30daeec2edb1db8
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:0afdad3a921dff01c7fca6d328bb620e091d4ab7753f54d62e4444d1c0a63e97
+size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a80ec1267650e6ad947a8c57465e241d88a3ac6ff26b577e91402626f8216828
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:a175575e13a6b1b335bf817168e403be6bbc934fa8db8e2f1d0900a1d23326d0
+size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e22cc7a3e8d006a7f53d4c0ba60293af6361e5d675b3152011d5ae5ff1bc470b
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6b207abe7d32dbf5e491aac4045fd87fd368af3cf5214bbf6fedd5396ee4fd2
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b096aeedbe1821683df58f9029fa8bc78db67ff58d60f8a0d3d16c91cb58a4cc
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e60236e243c2aacc6bd2634b320c8eb43bb218d4b016dc9ec38443b90bceb5bd
+size 14439

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7eaa4432fc6e41f9da719c55df3fb2ad8c3924f89bf79f109b21a31d039a089
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:d453e671681e66952e11a170cb856700b0d77612fcc7456c41565549116d4f9a
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a05d01a7b2f868e6f0e645a01ef2a1ba3ad5ea16b1bff8e9cf0cf653b106d64f
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a2bb37359d05bc7917d91ab1261ba8c4d8f00648cd8cb2d11c677b6c91ddb27
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.740402585863538,
-  "global_step": 220000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4406,11 +4406,211 @@
       "eval_samples_per_second": 1904.969,
       "eval_steps_per_second": 30.48,
       "step": 220000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 7.028669125327145e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 7.046784521584607,
+  "global_step": 230000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1904.969,
       "eval_steps_per_second": 30.48,
       "step": 220000
+    },
+    {
+      "epoch": 6.76,
+      "learning_rate": 0.00019476251528202922,
+      "loss": 0.7368,
+      "step": 220500
+    },
+    {
+      "epoch": 6.77,
+      "learning_rate": 0.0001943011739570944,
+      "loss": 0.7368,
+      "step": 221000
+    },
+    {
+      "epoch": 6.77,
+      "eval_loss": 0.8993794918060303,
+      "eval_runtime": 0.5175,
+      "eval_samples_per_second": 1932.289,
+      "eval_steps_per_second": 30.917,
+      "step": 221000
+    },
+    {
+      "epoch": 6.79,
+      "learning_rate": 0.00019383940284081774,
+      "loss": 0.7368,
+      "step": 221500
+    },
+    {
+      "epoch": 6.8,
+      "learning_rate": 0.00019337720698305431,
+      "loss": 0.7368,
+      "step": 222000
+    },
+    {
+      "epoch": 6.8,
+      "eval_loss": 0.8998441100120544,
+      "eval_runtime": 0.5264,
+      "eval_samples_per_second": 1899.844,
+      "eval_steps_per_second": 30.397,
+      "step": 222000
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 0.0001929145914383038,
+      "loss": 0.7368,
+      "step": 222500
+    },
+    {
+      "epoch": 6.83,
+      "learning_rate": 0.00019245156126565586,
+      "loss": 0.7368,
+      "step": 223000
+    },
+    {
+      "epoch": 6.83,
+      "eval_loss": 0.8998916745185852,
+      "eval_runtime": 0.5129,
+      "eval_samples_per_second": 1949.567,
+      "eval_steps_per_second": 31.193,
+      "step": 223000
+    },
+    {
+      "epoch": 6.85,
+      "learning_rate": 0.00019198812152873416,
+      "loss": 0.7367,
+      "step": 223500
+    },
+    {
+      "epoch": 6.86,
+      "learning_rate": 0.00019152427729564144,
+      "loss": 0.7368,
+      "step": 224000
+    },
+    {
+      "epoch": 6.86,
+      "eval_loss": 0.9005412459373474,
+      "eval_runtime": 0.512,
+      "eval_samples_per_second": 1953.157,
+      "eval_steps_per_second": 31.251,
+      "step": 224000
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 0.00019106003363890395,
+      "loss": 0.7367,
+      "step": 224500
+    },
+    {
+      "epoch": 6.89,
+      "learning_rate": 0.00019059539563541584,
+      "loss": 0.7368,
+      "step": 225000
+    },
+    {
+      "epoch": 6.89,
+      "eval_loss": 0.9003030061721802,
+      "eval_runtime": 0.5159,
+      "eval_samples_per_second": 1938.232,
+      "eval_steps_per_second": 31.012,
+      "step": 225000
+    },
+    {
+      "epoch": 6.91,
+      "learning_rate": 0.000190130368366384,
+      "loss": 0.7368,
+      "step": 225500
+    },
+    {
+      "epoch": 6.92,
+      "learning_rate": 0.00018966495691727207,
+      "loss": 0.7258,
+      "step": 226000
+    },
+    {
+      "epoch": 6.92,
+      "eval_loss": 0.9103039503097534,
+      "eval_runtime": 0.522,
+      "eval_samples_per_second": 1915.767,
+      "eval_steps_per_second": 30.652,
+      "step": 226000
+    },
+    {
+      "epoch": 6.94,
+      "learning_rate": 0.0001891991663777451,
+      "loss": 0.6555,
+      "step": 226500
+    },
+    {
+      "epoch": 6.95,
+      "learning_rate": 0.00018873300184161387,
+      "loss": 0.4986,
+      "step": 227000
+    },
+    {
+      "epoch": 6.95,
+      "eval_loss": 0.7985826134681702,
+      "eval_runtime": 0.524,
+      "eval_samples_per_second": 1908.52,
+      "eval_steps_per_second": 30.536,
+      "step": 227000
+    },
+    {
+      "epoch": 6.97,
+      "learning_rate": 0.00018826646840677894,
+      "loss": 0.3615,
+      "step": 227500
+    },
+    {
+      "epoch": 6.99,
+      "learning_rate": 0.00018779957117517532,
+      "loss": 0.3531,
+      "step": 228000
+    },
+    {
+      "epoch": 6.99,
+      "eval_loss": 0.788265585899353,
+      "eval_runtime": 0.5409,
+      "eval_samples_per_second": 1848.868,
+      "eval_steps_per_second": 29.582,
+      "step": 228000
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 0.00018733231525271625,
+      "loss": 0.3497,
+      "step": 228500
+    },
+    {
+      "epoch": 7.02,
+      "learning_rate": 0.00018686470574923766,
+      "loss": 0.348,
+      "step": 229000
+    },
+    {
+      "epoch": 7.02,
+      "eval_loss": 0.7847545146942139,
+      "eval_runtime": 0.5387,
+      "eval_samples_per_second": 1856.402,
+      "eval_steps_per_second": 29.702,
+      "step": 229000
+    },
+    {
+      "epoch": 7.03,
+      "learning_rate": 0.00018639674777844224,
+      "loss": 0.3464,
+      "step": 229500
+    },
+    {
+      "epoch": 7.05,
+      "learning_rate": 0.00018592844645784327,
+      "loss": 0.3454,
+      "step": 230000
+    },
+    {
+      "epoch": 7.05,
+      "eval_loss": 0.7873616814613342,
+      "eval_runtime": 0.5198,
+      "eval_samples_per_second": 1923.882,
+      "eval_steps_per_second": 30.782,
+      "step": 230000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 7.348148276149669e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cb76675226c565779dfeb3a8b0d92c90ded4e386d4778c4ecac74f673efb538
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:0381bd61cfa5693b91ef1c3bc98164157c471fedd8ca782c7895ef021e44198e
 size 102501541