Training in progress, step 1800000

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +383 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c223f21c9f3d69fb40b6ad537a2d1e1726b01ec615931fd84b4f155a73edb6cb
 size 893439185

 version https://git-lfs.github.com/spec/v1
+oid sha256:84eeca699785d889add4fce9e83fcf219cc03b8c3e8612092092ba4f022e339b
 size 893439185

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4b2f64ee4b8a3f1cf3d86fb133d82c77bc0f7052c00d93cb35fb4180acc8509
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a47c42cd40edaf177247b0f81cc113941e45da543bcd8075122f86f8a439a53
 size 449471589

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e052c7897af7d62d87b26b3f0036377845bb2408ce5c5d3e7b4078dbe5f611ef
 size 21643

 version https://git-lfs.github.com/spec/v1
+oid sha256:c22e615daa20a7523bf096df9dcc68366ed60a8151bafc863df6c6b53275a84a
 size 21643

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af6d04926cbb05a843491ada6b24ca053dbb81e1dc7c6706a5415b4d4cca0e78
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c4c724e259a52a66e7ae3019ca30f1baaafdcfcaf6dbe949cbda0206af52d55
 size 559

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd9e8ca586c336641c0b85f2a85288a9eeaaab808e84d3e0180b33f991192ef6
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a24dd415d95b2d83e758fabab0d2c6d80262a248eda13bb423bd8c9ef9f0d1d
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.125,
-  "global_step": 1750000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -13306,11 +13306,391 @@
       "eval_samples_per_second": 80.645,
       "eval_steps_per_second": 0.63,
       "step": 1750000
     }
   ],
   "max_steps": 2000000,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 1.533443229351936e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.15,
+  "global_step": 1800000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 80.645,
       "eval_steps_per_second": 0.63,
       "step": 1750000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.6540859441048118e-05,
+      "loss": 0.4394,
+      "step": 1751000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.6489389468730806e-05,
+      "loss": 0.439,
+      "step": 1752000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.6438215320582125e-05,
+      "loss": 0.4382,
+      "step": 1753000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.638713204573334e-05,
+      "loss": 0.4381,
+      "step": 1754000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.6336293339368757e-05,
+      "loss": 0.4392,
+      "step": 1755000
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 0.420003205537796,
+      "eval_runtime": 78.6855,
+      "eval_samples_per_second": 81.336,
+      "eval_steps_per_second": 0.635,
+      "step": 1755000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.628559757718579e-05,
+      "loss": 0.439,
+      "step": 1756000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.6235095900122255e-05,
+      "loss": 0.4383,
+      "step": 1757000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.61848386723797e-05,
+      "loss": 0.4386,
+      "step": 1758000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.6134725432005385e-05,
+      "loss": 0.4395,
+      "step": 1759000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.6084856557803128e-05,
+      "loss": 0.438,
+      "step": 1760000
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 0.4174318015575409,
+      "eval_runtime": 76.8661,
+      "eval_samples_per_second": 83.262,
+      "eval_steps_per_second": 0.65,
+      "step": 1760000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.6035132364121584e-05,
+      "loss": 0.4388,
+      "step": 1761000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.5985603018519935e-05,
+      "loss": 0.4378,
+      "step": 1762000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.5936317908767756e-05,
+      "loss": 0.4368,
+      "step": 1763000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.5887178516132736e-05,
+      "loss": 0.4412,
+      "step": 1764000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.5838283268763148e-05,
+      "loss": 0.4383,
+      "step": 1765000
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 0.41864004731178284,
+      "eval_runtime": 86.8232,
+      "eval_samples_per_second": 73.713,
+      "eval_steps_per_second": 0.576,
+      "step": 1765000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.5789583078410045e-05,
+      "loss": 0.4389,
+      "step": 1766000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.574102963743466e-05,
+      "loss": 0.439,
+      "step": 1767000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.5692671940427092e-05,
+      "loss": 0.4385,
+      "step": 1768000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 1.5644510134693248e-05,
+      "loss": 0.4384,
+      "step": 1769000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.559654436694238e-05,
+      "loss": 0.4392,
+      "step": 1770000
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 0.4172964096069336,
+      "eval_runtime": 79.9939,
+      "eval_samples_per_second": 80.006,
+      "eval_steps_per_second": 0.625,
+      "step": 1770000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.5548822454827717e-05,
+      "loss": 0.4393,
+      "step": 1771000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.5501249004379188e-05,
+      "loss": 0.4392,
+      "step": 1772000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.54539193071009e-05,
+      "loss": 0.4386,
+      "step": 1773000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.5406738753042658e-05,
+      "loss": 0.4393,
+      "step": 1774000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.5359754961260252e-05,
+      "loss": 0.4387,
+      "step": 1775000
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 0.4169865548610687,
+      "eval_runtime": 77.7982,
+      "eval_samples_per_second": 82.264,
+      "eval_steps_per_second": 0.643,
+      "step": 1775000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.5312968074874446e-05,
+      "loss": 0.4381,
+      "step": 1776000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.5266424727771944e-05,
+      "loss": 0.4396,
+      "step": 1777000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.522003188188146e-05,
+      "loss": 0.4395,
+      "step": 1778000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.517383636700831e-05,
+      "loss": 0.4382,
+      "step": 1779000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.5127838323872036e-05,
+      "loss": 0.4364,
+      "step": 1780000
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 0.41849958896636963,
+      "eval_runtime": 76.5418,
+      "eval_samples_per_second": 83.614,
+      "eval_steps_per_second": 0.653,
+      "step": 1780000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.5082037892590664e-05,
+      "loss": 0.439,
+      "step": 1781000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.5036480716537045e-05,
+      "loss": 0.4393,
+      "step": 1782000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.4991121035047137e-05,
+      "loss": 0.4383,
+      "step": 1783000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.4945913877821996e-05,
+      "loss": 0.4383,
+      "step": 1784000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.4900904886625165e-05,
+      "loss": 0.4377,
+      "step": 1785000
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 0.4204372465610504,
+      "eval_runtime": 76.9476,
+      "eval_samples_per_second": 83.173,
+      "eval_steps_per_second": 0.65,
+      "step": 1785000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.4856138910151988e-05,
+      "loss": 0.4388,
+      "step": 1786000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.4811526463215664e-05,
+      "loss": 0.4371,
+      "step": 1787000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.476715690631307e-05,
+      "loss": 0.438,
+      "step": 1788000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.4722941546682392e-05,
+      "loss": 0.4381,
+      "step": 1789000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 1.4678968949438921e-05,
+      "loss": 0.4363,
+      "step": 1790000
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 0.4183988869190216,
+      "eval_runtime": 76.9826,
+      "eval_samples_per_second": 83.136,
+      "eval_steps_per_second": 0.649,
+      "step": 1790000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 1.4635151215325466e-05,
+      "loss": 0.4366,
+      "step": 1791000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 1.4591576112997706e-05,
+      "loss": 0.4391,
+      "step": 1792000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 1.4548156537772989e-05,
+      "loss": 0.4391,
+      "step": 1793000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 1.4504936340214418e-05,
+      "loss": 0.4385,
+      "step": 1794000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 1.4461958572967858e-05,
+      "loss": 0.4378,
+      "step": 1795000
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 0.4223540425300598,
+      "eval_runtime": 77.2417,
+      "eval_samples_per_second": 82.857,
+      "eval_steps_per_second": 0.647,
+      "step": 1795000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 1.4419137325396865e-05,
+      "loss": 0.4389,
+      "step": 1796000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 1.437651584850691e-05,
+      "loss": 0.4386,
+      "step": 1797000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 1.4334094272130413e-05,
+      "loss": 0.4367,
+      "step": 1798000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 1.4291872725490842e-05,
+      "loss": 0.4384,
+      "step": 1799000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 1.4249893258568889e-05,
+      "loss": 0.4384,
+      "step": 1800000
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 0.4171189069747925,
+      "eval_runtime": 76.9772,
+      "eval_samples_per_second": 83.142,
+      "eval_steps_per_second": 0.65,
+      "step": 1800000
     }
   ],
   "max_steps": 2000000,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 1.5772558930477056e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4b2f64ee4b8a3f1cf3d86fb133d82c77bc0f7052c00d93cb35fb4180acc8509
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a47c42cd40edaf177247b0f81cc113941e45da543bcd8075122f86f8a439a53
 size 449471589