Training in progress, step 1700000

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +383 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b7631287c17591d58dadd04be48644a33077deefb6d1d14f74e2f93c36aec91
 size 893439185

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6263ea7e43a6acbefa798ce6055706ef15240d94f08fb8faefbf26e23ac3a25
 size 893439185

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17a32ccd501686e19a8620f7d7e687e1f5c24ab7eeb4d02c97b0602fd3ef6b00
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:abc7a8543a963e582a29e31e1e0c78fea4345a1b73b925ed6cc4d7ab61edbd1e
 size 449471589

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d51d69ea58954b7718215d9f72065176cc7336fa6c38b909a08870ba5630677
 size 21643

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7eefc1725778458a372a52de0baec705be0fcd52c035947880ee6c60789db03
 size 21643

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27f622c4d499409c918003e0ceb129f980c9b69f4e403e154b6d10d05411edba
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f873a347744a9c52f42be277b16c7300feca4fe83dae00b3348477c6cab3f68
 size 559

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58f58a35ab7d2ab951aa69a43ad235e65fe40980754d4b9fb70c41c8a8f9f3fb
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:f676f9b0130b013ba493986d64992bf63d68d6bad5cd11e3728c43b657e50e05
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.075,
-  "global_step": 1650000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -12546,11 +12546,391 @@
       "eval_samples_per_second": 80.739,
       "eval_steps_per_second": 0.631,
       "step": 1650000
     }
   ],
   "max_steps": 2000000,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 1.4458179019603968e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.1,
+  "global_step": 1700000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 80.739,
       "eval_steps_per_second": 0.631,
       "step": 1650000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.263295082033955e-05,
+      "loss": 0.4402,
+      "step": 1651000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.256302851518958e-05,
+      "loss": 0.4408,
+      "step": 1652000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.2493281173015714e-05,
+      "loss": 0.4392,
+      "step": 1653000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.242370900628049e-05,
+      "loss": 0.4401,
+      "step": 1654000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.235438153601577e-05,
+      "loss": 0.4399,
+      "step": 1655000
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 0.42048439383506775,
+      "eval_runtime": 77.8384,
+      "eval_samples_per_second": 82.222,
+      "eval_steps_per_second": 0.642,
+      "step": 1655000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.2285160179706007e-05,
+      "loss": 0.44,
+      "step": 1656000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.2216114632807524e-05,
+      "loss": 0.4404,
+      "step": 1657000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.214731388718044e-05,
+      "loss": 0.4406,
+      "step": 1658000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.2078620413208303e-05,
+      "loss": 0.4402,
+      "step": 1659000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.201010337780338e-05,
+      "loss": 0.4405,
+      "step": 1660000
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 0.4228270649909973,
+      "eval_runtime": 78.2009,
+      "eval_samples_per_second": 81.841,
+      "eval_steps_per_second": 0.639,
+      "step": 1660000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.1941831241763897e-05,
+      "loss": 0.4402,
+      "step": 1661000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.1873667532140358e-05,
+      "loss": 0.439,
+      "step": 1662000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.1805748783540877e-05,
+      "loss": 0.44,
+      "step": 1663000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.1737939229421666e-05,
+      "loss": 0.4407,
+      "step": 1664000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.167037469500335e-05,
+      "loss": 0.4404,
+      "step": 1665000
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 0.41908711194992065,
+      "eval_runtime": 78.8241,
+      "eval_samples_per_second": 81.193,
+      "eval_steps_per_second": 0.634,
+      "step": 1665000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.160292012180046e-05,
+      "loss": 0.4405,
+      "step": 1666000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.1535643436230335e-05,
+      "loss": 0.4401,
+      "step": 1667000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.146854484322948e-05,
+      "loss": 0.4403,
+      "step": 1668000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.140162454719184e-05,
+      "loss": 0.4418,
+      "step": 1669000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.1334882751968192e-05,
+      "loss": 0.4397,
+      "step": 1670000
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.42122882604599,
+      "eval_runtime": 76.417,
+      "eval_samples_per_second": 83.751,
+      "eval_steps_per_second": 0.654,
+      "step": 1670000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.126838613462656e-05,
+      "loss": 0.4387,
+      "step": 1671000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.1202001771399895e-05,
+      "loss": 0.4387,
+      "step": 1672000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.1135796517072863e-05,
+      "loss": 0.4394,
+      "step": 1673000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.106977057331812e-05,
+      "loss": 0.4398,
+      "step": 1674000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.1003989897961326e-05,
+      "loss": 0.44,
+      "step": 1675000
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.41976797580718994,
+      "eval_runtime": 77.5035,
+      "eval_samples_per_second": 82.577,
+      "eval_steps_per_second": 0.645,
+      "step": 1675000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.0938388575438328e-05,
+      "loss": 0.4403,
+      "step": 1676000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.0872901407947595e-05,
+      "loss": 0.4413,
+      "step": 1677000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.080759435185324e-05,
+      "loss": 0.4397,
+      "step": 1678000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.0742467606091935e-05,
+      "loss": 0.4395,
+      "step": 1679000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.0677586225058045e-05,
+      "loss": 0.4407,
+      "step": 1680000
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.42079994082450867,
+      "eval_runtime": 79.6958,
+      "eval_samples_per_second": 80.305,
+      "eval_steps_per_second": 0.627,
+      "step": 1680000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.0612885189152567e-05,
+      "loss": 0.4399,
+      "step": 1681000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.0548300200510223e-05,
+      "loss": 0.4382,
+      "step": 1682000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.048389631205587e-05,
+      "loss": 0.4393,
+      "step": 1683000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.041967371997491e-05,
+      "loss": 0.4392,
+      "step": 1684000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.0355760520841843e-05,
+      "loss": 0.4403,
+      "step": 1685000
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.41910338401794434,
+      "eval_runtime": 79.2458,
+      "eval_samples_per_second": 80.761,
+      "eval_steps_per_second": 0.631,
+      "step": 1685000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.0291900744285765e-05,
+      "loss": 0.4397,
+      "step": 1686000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.022822284895487e-05,
+      "loss": 0.4401,
+      "step": 1687000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.016472702882308e-05,
+      "loss": 0.4395,
+      "step": 1688000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.0101476699753774e-05,
+      "loss": 0.4394,
+      "step": 1689000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 2.003840846723428e-05,
+      "loss": 0.4408,
+      "step": 1690000
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 0.41959914565086365,
+      "eval_runtime": 79.6028,
+      "eval_samples_per_second": 80.399,
+      "eval_steps_per_second": 0.628,
+      "step": 1690000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.9975459665494844e-05,
+      "loss": 0.4406,
+      "step": 1691000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.9912693708915007e-05,
+      "loss": 0.4403,
+      "step": 1692000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.9850110788690757e-05,
+      "loss": 0.4391,
+      "step": 1693000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.978771109546051e-05,
+      "loss": 0.4388,
+      "step": 1694000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.9725681193643978e-05,
+      "loss": 0.439,
+      "step": 1695000
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 0.4219348132610321,
+      "eval_runtime": 78.5115,
+      "eval_samples_per_second": 81.517,
+      "eval_steps_per_second": 0.637,
+      "step": 1695000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.9663647972981225e-05,
+      "loss": 0.4389,
+      "step": 1696000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.9601798547310563e-05,
+      "loss": 0.4396,
+      "step": 1697000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.954019467851605e-05,
+      "loss": 0.4405,
+      "step": 1698000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.9478713223216454e-05,
+      "loss": 0.4403,
+      "step": 1699000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.9417416126252245e-05,
+      "loss": 0.4394,
+      "step": 1700000
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 0.42123520374298096,
+      "eval_runtime": 78.2147,
+      "eval_samples_per_second": 81.826,
+      "eval_steps_per_second": 0.639,
+      "step": 1700000
     }
   ],
   "max_steps": 2000000,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 1.4896305656561664e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17a32ccd501686e19a8620f7d7e687e1f5c24ab7eeb4d02c97b0602fd3ef6b00
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:abc7a8543a963e582a29e31e1e0c78fea4345a1b73b925ed6cc4d7ab61edbd1e
 size 449471589