Training in progress, step 170000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68579b000c67ae02c93fef507e910ee24187e399ca1591a2c497efffe8459dac
 size 50044689

 version https://git-lfs.github.com/spec/v1
+oid sha256:de4f35402a55e29f80fb8c753ad6523a199f5dffc7c4e25641de3446e7dcc1e2
 size 50044689

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bce1b6fb3fb5d372a1bae3a15433a06de19284c7aa2bc4d3c1962d8f51884be2
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:c916340d7d75d5bc18c1ad33b84c353fe26c18b731b4892c4ff510dc90928bc5
 size 25761253

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6516d5b46fda40bf4c056933976209142d5376bc9d4025a968296f31b52bf24b
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f357ba8dde7396ae8bd66292dabc034f58c2eaafd10d7b87a424d8b6a4c63676
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6516d5b46fda40bf4c056933976209142d5376bc9d4025a968296f31b52bf24b
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f357ba8dde7396ae8bd66292dabc034f58c2eaafd10d7b87a424d8b6a4c63676
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6516d5b46fda40bf4c056933976209142d5376bc9d4025a968296f31b52bf24b
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f357ba8dde7396ae8bd66292dabc034f58c2eaafd10d7b87a424d8b6a4c63676
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6516d5b46fda40bf4c056933976209142d5376bc9d4025a968296f31b52bf24b
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f357ba8dde7396ae8bd66292dabc034f58c2eaafd10d7b87a424d8b6a4c63676
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6516d5b46fda40bf4c056933976209142d5376bc9d4025a968296f31b52bf24b
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f357ba8dde7396ae8bd66292dabc034f58c2eaafd10d7b87a424d8b6a4c63676
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6516d5b46fda40bf4c056933976209142d5376bc9d4025a968296f31b52bf24b
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f357ba8dde7396ae8bd66292dabc034f58c2eaafd10d7b87a424d8b6a4c63676
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6516d5b46fda40bf4c056933976209142d5376bc9d4025a968296f31b52bf24b
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f357ba8dde7396ae8bd66292dabc034f58c2eaafd10d7b87a424d8b6a4c63676
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6516d5b46fda40bf4c056933976209142d5376bc9d4025a968296f31b52bf24b
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f357ba8dde7396ae8bd66292dabc034f58c2eaafd10d7b87a424d8b6a4c63676
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc071f88617eb6afe60581ffbadbc2441a73aeec527e5556ce742e0646660ab9
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:1470898ecdc6550560113c5e2cfd1e79edea6b27c0b7d35814645546c1b5bff0
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.803921568627452,
-  "global_step": 160000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3206,11 +3206,211 @@
       "eval_samples_per_second": 780.028,
       "eval_steps_per_second": 12.48,
       "step": 160000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 16,
-  "total_flos": 2.5625979513203296e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 10.416666666666666,
+  "global_step": 170000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 780.028,
       "eval_steps_per_second": 12.48,
       "step": 160000
+    },
+    {
+      "epoch": 9.83,
+      "learning_rate": 0.00019368752321895452,
+      "loss": 0.4519,
+      "step": 160500
+    },
+    {
+      "epoch": 9.87,
+      "learning_rate": 0.00019188310403712105,
+      "loss": 0.4517,
+      "step": 161000
+    },
+    {
+      "epoch": 9.87,
+      "eval_loss": 0.8005779385566711,
+      "eval_runtime": 1.3237,
+      "eval_samples_per_second": 755.47,
+      "eval_steps_per_second": 12.088,
+      "step": 161000
+    },
+    {
+      "epoch": 9.9,
+      "learning_rate": 0.00019008363295476495,
+      "loss": 0.4516,
+      "step": 161500
+    },
+    {
+      "epoch": 9.93,
+      "learning_rate": 0.0001882891886865808,
+      "loss": 0.4514,
+      "step": 162000
+    },
+    {
+      "epoch": 9.93,
+      "eval_loss": 0.8066567182540894,
+      "eval_runtime": 1.307,
+      "eval_samples_per_second": 765.087,
+      "eval_steps_per_second": 12.241,
+      "step": 162000
+    },
+    {
+      "epoch": 9.96,
+      "learning_rate": 0.00018649984972737404,
+      "loss": 0.4513,
+      "step": 162500
+    },
+    {
+      "epoch": 9.99,
+      "learning_rate": 0.00018471569434862749,
+      "loss": 0.4512,
+      "step": 163000
+    },
+    {
+      "epoch": 9.99,
+      "eval_loss": 0.7989670038223267,
+      "eval_runtime": 1.3388,
+      "eval_samples_per_second": 746.958,
+      "eval_steps_per_second": 11.951,
+      "step": 163000
+    },
+    {
+      "epoch": 10.02,
+      "learning_rate": 0.00018293680059507713,
+      "loss": 0.4512,
+      "step": 163500
+    },
+    {
+      "epoch": 10.05,
+      "learning_rate": 0.00018116324628129882,
+      "loss": 0.4508,
+      "step": 164000
+    },
+    {
+      "epoch": 10.05,
+      "eval_loss": 0.804061770439148,
+      "eval_runtime": 1.3751,
+      "eval_samples_per_second": 727.204,
+      "eval_steps_per_second": 11.635,
+      "step": 164000
+    },
+    {
+      "epoch": 10.08,
+      "learning_rate": 0.00017939510898830357,
+      "loss": 0.4505,
+      "step": 164500
+    },
+    {
+      "epoch": 10.11,
+      "learning_rate": 0.0001776324660601446,
+      "loss": 0.4504,
+      "step": 165000
+    },
+    {
+      "epoch": 10.11,
+      "eval_loss": 0.7995474934577942,
+      "eval_runtime": 1.3093,
+      "eval_samples_per_second": 763.796,
+      "eval_steps_per_second": 12.221,
+      "step": 165000
+    },
+    {
+      "epoch": 10.14,
+      "learning_rate": 0.00017587539460053368,
+      "loss": 0.4505,
+      "step": 165500
+    },
+    {
+      "epoch": 10.17,
+      "learning_rate": 0.0001741239714694688,
+      "loss": 0.4501,
+      "step": 166000
+    },
+    {
+      "epoch": 10.17,
+      "eval_loss": 0.7978888154029846,
+      "eval_runtime": 1.2913,
+      "eval_samples_per_second": 774.39,
+      "eval_steps_per_second": 12.39,
+      "step": 166000
+    },
+    {
+      "epoch": 10.2,
+      "learning_rate": 0.0001723782732798713,
+      "loss": 0.4501,
+      "step": 166500
+    },
+    {
+      "epoch": 10.23,
+      "learning_rate": 0.00017063837639423517,
+      "loss": 0.4499,
+      "step": 167000
+    },
+    {
+      "epoch": 10.23,
+      "eval_loss": 0.796922504901886,
+      "eval_runtime": 1.3094,
+      "eval_samples_per_second": 763.7,
+      "eval_steps_per_second": 12.219,
+      "step": 167000
+    },
+    {
+      "epoch": 10.26,
+      "learning_rate": 0.00016890435692128712,
+      "loss": 0.4498,
+      "step": 167500
+    },
+    {
+      "epoch": 10.29,
+      "learning_rate": 0.0001671762907126559,
+      "loss": 0.4497,
+      "step": 168000
+    },
+    {
+      "epoch": 10.29,
+      "eval_loss": 0.8040737509727478,
+      "eval_runtime": 1.3701,
+      "eval_samples_per_second": 729.885,
+      "eval_steps_per_second": 11.678,
+      "step": 168000
+    },
+    {
+      "epoch": 10.32,
+      "learning_rate": 0.00016545425335955596,
+      "loss": 0.4498,
+      "step": 168500
+    },
+    {
+      "epoch": 10.36,
+      "learning_rate": 0.00016373832018947945,
+      "loss": 0.4495,
+      "step": 169000
+    },
+    {
+      "epoch": 10.36,
+      "eval_loss": 0.8050036430358887,
+      "eval_runtime": 1.3107,
+      "eval_samples_per_second": 762.923,
+      "eval_steps_per_second": 12.207,
+      "step": 169000
+    },
+    {
+      "epoch": 10.39,
+      "learning_rate": 0.0001620285662629024,
+      "loss": 0.4492,
+      "step": 169500
+    },
+    {
+      "epoch": 10.42,
+      "learning_rate": 0.0001603250663700002,
+      "loss": 0.4492,
+      "step": 170000
+    },
+    {
+      "epoch": 10.42,
+      "eval_loss": 0.7998891472816467,
+      "eval_runtime": 1.3642,
+      "eval_samples_per_second": 733.005,
+      "eval_steps_per_second": 11.728,
+      "step": 170000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 16,
+  "total_flos": 2.7227559436825185e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bce1b6fb3fb5d372a1bae3a15433a06de19284c7aa2bc4d3c1962d8f51884be2
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:c916340d7d75d5bc18c1ad33b84c353fe26c18b731b4892c4ff510dc90928bc5
 size 25761253