Training in progress, step 50000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b2aa3ac438aafc200ae70f8085f90242dc992cf907ac3f0294370fe40a0df68
 size 50044241

 version https://git-lfs.github.com/spec/v1
+oid sha256:44519022516715e3b4aa9fbebd26a8f16d69cc1037c43939223444845c039b2a
 size 50044241

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d18c8e7e9886f3271a24bd5849f3f89c80dbc60739565e2d86ced010c5eeb20
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:c31ddb9e289da6dc236cf93f3881df915ba1b345fb3bc4108ca78271c87c7807
 size 25761253

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ede58e3004a4327d493f9d870219b307a5ef56e0c4fc6821301c4f24058b122
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e95236c288314cf7e95c084d5233e1be1e022395a42503d56c52a71f4cff32b4
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ede58e3004a4327d493f9d870219b307a5ef56e0c4fc6821301c4f24058b122
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e95236c288314cf7e95c084d5233e1be1e022395a42503d56c52a71f4cff32b4
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ede58e3004a4327d493f9d870219b307a5ef56e0c4fc6821301c4f24058b122
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e95236c288314cf7e95c084d5233e1be1e022395a42503d56c52a71f4cff32b4
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ede58e3004a4327d493f9d870219b307a5ef56e0c4fc6821301c4f24058b122
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e95236c288314cf7e95c084d5233e1be1e022395a42503d56c52a71f4cff32b4
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ede58e3004a4327d493f9d870219b307a5ef56e0c4fc6821301c4f24058b122
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e95236c288314cf7e95c084d5233e1be1e022395a42503d56c52a71f4cff32b4
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ede58e3004a4327d493f9d870219b307a5ef56e0c4fc6821301c4f24058b122
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e95236c288314cf7e95c084d5233e1be1e022395a42503d56c52a71f4cff32b4
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ede58e3004a4327d493f9d870219b307a5ef56e0c4fc6821301c4f24058b122
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e95236c288314cf7e95c084d5233e1be1e022395a42503d56c52a71f4cff32b4
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ede58e3004a4327d493f9d870219b307a5ef56e0c4fc6821301c4f24058b122
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e95236c288314cf7e95c084d5233e1be1e022395a42503d56c52a71f4cff32b4
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7750ccd53e61fd7fcec6ad8e54086c4abb8aa56c6a0781b4ecadd56cbb87c42
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9511edec0a698219a4fec94630f2bf1ec60055a31bda0393e6aadb5a36db13d
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.7844396859386151,
-  "global_step": 40000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -806,11 +806,211 @@
       "eval_samples_per_second": 1057.979,
       "eval_steps_per_second": 16.581,
       "step": 40000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 12,
-  "total_flos": 6.406648794810428e+20,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.230549607423269,
+  "global_step": 50000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1057.979,
       "eval_steps_per_second": 16.581,
       "step": 40000
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.0005799963048115559,
+      "loss": 0.6757,
+      "step": 40500
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.0005792840633370341,
+      "loss": 0.6575,
+      "step": 41000
+    },
+    {
+      "epoch": 1.83,
+      "eval_loss": 0.6465174555778503,
+      "eval_runtime": 2.2243,
+      "eval_samples_per_second": 1032.694,
+      "eval_steps_per_second": 16.185,
+      "step": 41000
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.0005785598237890247,
+      "loss": 0.6461,
+      "step": 41500
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.0005778236178481119,
+      "loss": 0.6373,
+      "step": 42000
+    },
+    {
+      "epoch": 1.87,
+      "eval_loss": 0.631793737411499,
+      "eval_runtime": 2.22,
+      "eval_samples_per_second": 1034.694,
+      "eval_steps_per_second": 16.216,
+      "step": 42000
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.0005770754777183285,
+      "loss": 0.6309,
+      "step": 42500
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.0005763154361257473,
+      "loss": 0.6257,
+      "step": 43000
+    },
+    {
+      "epoch": 1.92,
+      "eval_loss": 0.6184197664260864,
+      "eval_runtime": 2.2848,
+      "eval_samples_per_second": 1005.32,
+      "eval_steps_per_second": 15.756,
+      "step": 43000
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0005755435263170498,
+      "loss": 0.623,
+      "step": 43500
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.0005747597820580717,
+      "loss": 0.621,
+      "step": 44000
+    },
+    {
+      "epoch": 1.96,
+      "eval_loss": 0.6136025786399841,
+      "eval_runtime": 2.2706,
+      "eval_samples_per_second": 1011.621,
+      "eval_steps_per_second": 15.855,
+      "step": 44000
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.000573964237632326,
+      "loss": 0.6195,
+      "step": 44500
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.0005731569278395029,
+      "loss": 0.6183,
+      "step": 45000
+    },
+    {
+      "epoch": 2.01,
+      "eval_loss": 0.6127315163612366,
+      "eval_runtime": 2.1317,
+      "eval_samples_per_second": 1077.566,
+      "eval_steps_per_second": 16.888,
+      "step": 45000
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 0.0005723378879939481,
+      "loss": 0.6172,
+      "step": 45500
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 0.0005715071539231178,
+      "loss": 0.6165,
+      "step": 46000
+    },
+    {
+      "epoch": 2.05,
+      "eval_loss": 0.6103396415710449,
+      "eval_runtime": 2.1687,
+      "eval_samples_per_second": 1059.145,
+      "eval_steps_per_second": 16.6,
+      "step": 46000
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 0.0005706647619660116,
+      "loss": 0.6155,
+      "step": 46500
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.0005698107489715823,
+      "loss": 0.612,
+      "step": 47000
+    },
+    {
+      "epoch": 2.1,
+      "eval_loss": 0.6013069748878479,
+      "eval_runtime": 2.2612,
+      "eval_samples_per_second": 1015.821,
+      "eval_steps_per_second": 15.921,
+      "step": 47000
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.0005689451522971252,
+      "loss": 0.6068,
+      "step": 47500
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.0005680680098066429,
+      "loss": 0.6037,
+      "step": 48000
+    },
+    {
+      "epoch": 2.14,
+      "eval_loss": 0.5942632555961609,
+      "eval_runtime": 2.2238,
+      "eval_samples_per_second": 1032.912,
+      "eval_steps_per_second": 16.188,
+      "step": 48000
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 0.0005671793598691895,
+      "loss": 0.6015,
+      "step": 48500
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.0005662792413571921,
+      "loss": 0.6,
+      "step": 49000
+    },
+    {
+      "epoch": 2.19,
+      "eval_loss": 0.5915176868438721,
+      "eval_runtime": 2.2389,
+      "eval_samples_per_second": 1025.951,
+      "eval_steps_per_second": 16.079,
+      "step": 49000
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 0.0005653676936447504,
+      "loss": 0.5986,
+      "step": 49500
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.0005644447566059142,
+      "loss": 0.5973,
+      "step": 50000
+    },
+    {
+      "epoch": 2.23,
+      "eval_loss": 0.5880685448646545,
+      "eval_runtime": 2.2056,
+      "eval_samples_per_second": 1041.459,
+      "eval_steps_per_second": 16.322,
+      "step": 50000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 12,
+  "total_flos": 8.008257503646733e+20,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d18c8e7e9886f3271a24bd5849f3f89c80dbc60739565e2d86ced010c5eeb20
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:c31ddb9e289da6dc236cf93f3881df915ba1b345fb3bc4108ca78271c87c7807
 size 25761253