Training in progress, step 1750000

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +383 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6263ea7e43a6acbefa798ce6055706ef15240d94f08fb8faefbf26e23ac3a25
 size 893439185

 version https://git-lfs.github.com/spec/v1
+oid sha256:c223f21c9f3d69fb40b6ad537a2d1e1726b01ec615931fd84b4f155a73edb6cb
 size 893439185

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abc7a8543a963e582a29e31e1e0c78fea4345a1b73b925ed6cc4d7ab61edbd1e
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4b2f64ee4b8a3f1cf3d86fb133d82c77bc0f7052c00d93cb35fb4180acc8509
 size 449471589

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7eefc1725778458a372a52de0baec705be0fcd52c035947880ee6c60789db03
 size 21643

 version https://git-lfs.github.com/spec/v1
+oid sha256:e052c7897af7d62d87b26b3f0036377845bb2408ce5c5d3e7b4078dbe5f611ef
 size 21643

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f873a347744a9c52f42be277b16c7300feca4fe83dae00b3348477c6cab3f68
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:af6d04926cbb05a843491ada6b24ca053dbb81e1dc7c6706a5415b4d4cca0e78
 size 559

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f676f9b0130b013ba493986d64992bf63d68d6bad5cd11e3728c43b657e50e05
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd9e8ca586c336641c0b85f2a85288a9eeaaab808e84d3e0180b33f991192ef6
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.1,
-  "global_step": 1700000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -12926,11 +12926,391 @@
       "eval_samples_per_second": 81.826,
       "eval_steps_per_second": 0.639,
       "step": 1700000
     }
   ],
   "max_steps": 2000000,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 1.4896305656561664e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.125,
+  "global_step": 1750000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 81.826,
       "eval_steps_per_second": 0.639,
       "step": 1700000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.9356303574345033e-05,
+      "loss": 0.44,
+      "step": 1701000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.9295375753654256e-05,
+      "loss": 0.4406,
+      "step": 1702000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.9234693500252896e-05,
+      "loss": 0.4392,
+      "step": 1703000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.9174195978495195e-05,
+      "loss": 0.4389,
+      "step": 1704000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.9113823092023844e-05,
+      "loss": 0.4395,
+      "step": 1705000
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 0.42103949189186096,
+      "eval_runtime": 79.7626,
+      "eval_samples_per_second": 80.238,
+      "eval_steps_per_second": 0.627,
+      "step": 1705000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.9053635675406527e-05,
+      "loss": 0.4387,
+      "step": 1706000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.899363391198454e-05,
+      "loss": 0.4405,
+      "step": 1707000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.893381798453365e-05,
+      "loss": 0.4395,
+      "step": 1708000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.887418807526355e-05,
+      "loss": 0.439,
+      "step": 1709000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.8814803716459616e-05,
+      "loss": 0.439,
+      "step": 1710000
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 0.42225512862205505,
+      "eval_runtime": 77.1239,
+      "eval_samples_per_second": 82.983,
+      "eval_steps_per_second": 0.648,
+      "step": 1710000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.875560536579964e-05,
+      "loss": 0.439,
+      "step": 1711000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.8696534225358292e-05,
+      "loss": 0.4392,
+      "step": 1712000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.8637708616967782e-05,
+      "loss": 0.4397,
+      "step": 1713000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.8579010950865316e-05,
+      "loss": 0.4385,
+      "step": 1714000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.852050038374741e-05,
+      "loss": 0.4391,
+      "step": 1715000
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 0.420716792345047,
+      "eval_runtime": 78.5003,
+      "eval_samples_per_second": 81.528,
+      "eval_steps_per_second": 0.637,
+      "step": 1715000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.8462235323533128e-05,
+      "loss": 0.4395,
+      "step": 1716000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.8404099300970416e-05,
+      "loss": 0.4378,
+      "step": 1717000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.8346208764813356e-05,
+      "loss": 0.4408,
+      "step": 1718000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.8288447994466744e-05,
+      "loss": 0.4388,
+      "step": 1719000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.8230932687039617e-05,
+      "loss": 0.439,
+      "step": 1720000
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 0.41757285594940186,
+      "eval_runtime": 79.8473,
+      "eval_samples_per_second": 80.153,
+      "eval_steps_per_second": 0.626,
+      "step": 1720000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.8173547872002242e-05,
+      "loss": 0.4384,
+      "step": 1721000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.811640849341029e-05,
+      "loss": 0.4401,
+      "step": 1722000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.8059400332198968e-05,
+      "loss": 0.438,
+      "step": 1723000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.8002580852796262e-05,
+      "loss": 0.4401,
+      "step": 1724000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.7945950228284155e-05,
+      "loss": 0.4401,
+      "step": 1725000
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 0.41903457045555115,
+      "eval_runtime": 77.4134,
+      "eval_samples_per_second": 82.673,
+      "eval_steps_per_second": 0.646,
+      "step": 1725000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.788950863116934e-05,
+      "loss": 0.4383,
+      "step": 1726000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.783331239121836e-05,
+      "loss": 0.4383,
+      "step": 1727000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.7777305143227536e-05,
+      "loss": 0.4401,
+      "step": 1728000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.772143127833117e-05,
+      "loss": 0.4391,
+      "step": 1729000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.766574712475575e-05,
+      "loss": 0.439,
+      "step": 1730000
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 0.4182310104370117,
+      "eval_runtime": 75.5121,
+      "eval_samples_per_second": 84.755,
+      "eval_steps_per_second": 0.662,
+      "step": 1730000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.7610252852124898e-05,
+      "loss": 0.4387,
+      "step": 1731000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.755494862948377e-05,
+      "loss": 0.4382,
+      "step": 1732000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.7499889644232756e-05,
+      "loss": 0.4385,
+      "step": 1733000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.744496583592041e-05,
+      "loss": 0.4408,
+      "step": 1734000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.7390287219108524e-05,
+      "loss": 0.4401,
+      "step": 1735000
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 0.4186602830886841,
+      "eval_runtime": 80.3977,
+      "eval_samples_per_second": 79.604,
+      "eval_steps_per_second": 0.622,
+      "step": 1735000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.733574449368513e-05,
+      "loss": 0.4391,
+      "step": 1736000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.7281392654451555e-05,
+      "loss": 0.4401,
+      "step": 1737000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.7227339997768454e-05,
+      "loss": 0.4405,
+      "step": 1738000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.7173370044430122e-05,
+      "loss": 0.439,
+      "step": 1739000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.7119591471902336e-05,
+      "loss": 0.4397,
+      "step": 1740000
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 0.41898131370544434,
+      "eval_runtime": 77.8556,
+      "eval_samples_per_second": 82.203,
+      "eval_steps_per_second": 0.642,
+      "step": 1740000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.7066004444003927e-05,
+      "loss": 0.4388,
+      "step": 1741000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.7012609123970294e-05,
+      "loss": 0.4388,
+      "step": 1742000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.6959405674452816e-05,
+      "loss": 0.4393,
+      "step": 1743000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.6906447172961322e-05,
+      "loss": 0.4386,
+      "step": 1744000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.6853627757817506e-05,
+      "loss": 0.4379,
+      "step": 1745000
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 0.41874217987060547,
+      "eval_runtime": 79.3439,
+      "eval_samples_per_second": 80.662,
+      "eval_steps_per_second": 0.63,
+      "step": 1745000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.6801053228400387e-05,
+      "loss": 0.4407,
+      "step": 1746000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.6748618490574697e-05,
+      "loss": 0.4398,
+      "step": 1747000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.669637642742642e-05,
+      "loss": 0.4385,
+      "step": 1748000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.6644327198093962e-05,
+      "loss": 0.4376,
+      "step": 1749000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.6592522720912954e-05,
+      "loss": 0.4381,
+      "step": 1750000
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 0.42223626375198364,
+      "eval_runtime": 79.3599,
+      "eval_samples_per_second": 80.645,
+      "eval_steps_per_second": 0.63,
+      "step": 1750000
     }
   ],
   "max_steps": 2000000,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 1.533443229351936e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:abc7a8543a963e582a29e31e1e0c78fea4345a1b73b925ed6cc4d7ab61edbd1e
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4b2f64ee4b8a3f1cf3d86fb133d82c77bc0f7052c00d93cb35fb4180acc8509
 size 449471589