Training in progress, step 50000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0dff537922713b87383b64684bd79e5a7ae236a98cba1517816ac46551a11ebb
 size 50044241

 version https://git-lfs.github.com/spec/v1
+oid sha256:dadcb41aea0d881ec7489fc153864312daace23a87556e2dabeb7f00ab20de52
 size 50044241

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb889cc10aaf071995df6da342ff4aec3f65438039925fc96cfdce7c89df56fc
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf773b1bedf0e3d4076d93eb3be69d1083c7a6321f77e59758b3adc872017b3a
 size 25761253

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:315800999724442b576d330985cea2d1b63fff0d8573a95c6cd16e9183cf5350
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:39febded125ea43849ae44cc91a2089d4c554f45131ad78886b088e5c989bab9
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:315800999724442b576d330985cea2d1b63fff0d8573a95c6cd16e9183cf5350
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:39febded125ea43849ae44cc91a2089d4c554f45131ad78886b088e5c989bab9
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:315800999724442b576d330985cea2d1b63fff0d8573a95c6cd16e9183cf5350
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:39febded125ea43849ae44cc91a2089d4c554f45131ad78886b088e5c989bab9
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:315800999724442b576d330985cea2d1b63fff0d8573a95c6cd16e9183cf5350
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:39febded125ea43849ae44cc91a2089d4c554f45131ad78886b088e5c989bab9
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:315800999724442b576d330985cea2d1b63fff0d8573a95c6cd16e9183cf5350
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:39febded125ea43849ae44cc91a2089d4c554f45131ad78886b088e5c989bab9
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:315800999724442b576d330985cea2d1b63fff0d8573a95c6cd16e9183cf5350
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:39febded125ea43849ae44cc91a2089d4c554f45131ad78886b088e5c989bab9
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:315800999724442b576d330985cea2d1b63fff0d8573a95c6cd16e9183cf5350
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:39febded125ea43849ae44cc91a2089d4c554f45131ad78886b088e5c989bab9
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:315800999724442b576d330985cea2d1b63fff0d8573a95c6cd16e9183cf5350
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:39febded125ea43849ae44cc91a2089d4c554f45131ad78886b088e5c989bab9
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7750ccd53e61fd7fcec6ad8e54086c4abb8aa56c6a0781b4ecadd56cbb87c42
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9511edec0a698219a4fec94630f2bf1ec60055a31bda0393e6aadb5a36db13d
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.450980392156863,
-  "global_step": 40000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -806,11 +806,211 @@
       "eval_samples_per_second": 746.204,
       "eval_steps_per_second": 11.939,
       "step": 40000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 16,
-  "total_flos": 6.406519904559862e+20,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.063725490196078,
+  "global_step": 50000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 746.204,
       "eval_steps_per_second": 11.939,
       "step": 40000
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 0.0005799963048115559,
+      "loss": 0.5353,
+      "step": 40500
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.0005792840633370341,
+      "loss": 0.5336,
+      "step": 41000
+    },
+    {
+      "epoch": 2.51,
+      "eval_loss": 0.8631040453910828,
+      "eval_runtime": 1.3088,
+      "eval_samples_per_second": 764.037,
+      "eval_steps_per_second": 12.225,
+      "step": 41000
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 0.0005785598237890247,
+      "loss": 0.5327,
+      "step": 41500
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.0005778236178481119,
+      "loss": 0.5316,
+      "step": 42000
+    },
+    {
+      "epoch": 2.57,
+      "eval_loss": 0.8605585098266602,
+      "eval_runtime": 1.2836,
+      "eval_samples_per_second": 779.077,
+      "eval_steps_per_second": 12.465,
+      "step": 42000
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 0.0005770754777183285,
+      "loss": 0.5306,
+      "step": 42500
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.0005763154361257473,
+      "loss": 0.5297,
+      "step": 43000
+    },
+    {
+      "epoch": 2.63,
+      "eval_loss": 0.8589205145835876,
+      "eval_runtime": 1.2763,
+      "eval_samples_per_second": 783.485,
+      "eval_steps_per_second": 12.536,
+      "step": 43000
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.0005755435263170498,
+      "loss": 0.5287,
+      "step": 43500
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 0.0005747597820580717,
+      "loss": 0.5305,
+      "step": 44000
+    },
+    {
+      "epoch": 2.7,
+      "eval_loss": 0.8569635152816772,
+      "eval_runtime": 1.2713,
+      "eval_samples_per_second": 786.624,
+      "eval_steps_per_second": 12.586,
+      "step": 44000
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.000573964237632326,
+      "loss": 0.527,
+      "step": 44500
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 0.0005731569278395029,
+      "loss": 0.5262,
+      "step": 45000
+    },
+    {
+      "epoch": 2.76,
+      "eval_loss": 0.8558768033981323,
+      "eval_runtime": 1.2738,
+      "eval_samples_per_second": 785.051,
+      "eval_steps_per_second": 12.561,
+      "step": 45000
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 0.0005723378879939481,
+      "loss": 0.5254,
+      "step": 45500
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 0.0005715071539231178,
+      "loss": 0.5247,
+      "step": 46000
+    },
+    {
+      "epoch": 2.82,
+      "eval_loss": 0.8633874654769897,
+      "eval_runtime": 1.2747,
+      "eval_samples_per_second": 784.504,
+      "eval_steps_per_second": 12.552,
+      "step": 46000
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 0.0005706647619660116,
+      "loss": 0.5243,
+      "step": 46500
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 0.0005698107489715823,
+      "loss": 0.5235,
+      "step": 47000
+    },
+    {
+      "epoch": 2.88,
+      "eval_loss": 0.8606237769126892,
+      "eval_runtime": 1.3283,
+      "eval_samples_per_second": 752.838,
+      "eval_steps_per_second": 12.045,
+      "step": 47000
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.0005689451522971252,
+      "loss": 0.5228,
+      "step": 47500
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 0.0005680680098066429,
+      "loss": 0.5227,
+      "step": 48000
+    },
+    {
+      "epoch": 2.94,
+      "eval_loss": 0.8610469698905945,
+      "eval_runtime": 1.2783,
+      "eval_samples_per_second": 782.274,
+      "eval_steps_per_second": 12.516,
+      "step": 48000
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 0.0005671793598691895,
+      "loss": 0.5215,
+      "step": 48500
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 0.0005662792413571921,
+      "loss": 0.5206,
+      "step": 49000
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.8610268235206604,
+      "eval_runtime": 1.3555,
+      "eval_samples_per_second": 737.72,
+      "eval_steps_per_second": 11.804,
+      "step": 49000
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 0.0005653676936447504,
+      "loss": 0.5201,
+      "step": 49500
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 0.0005644447566059142,
+      "loss": 0.5194,
+      "step": 50000
+    },
+    {
+      "epoch": 3.06,
+      "eval_loss": 0.8611247539520264,
+      "eval_runtime": 1.2902,
+      "eval_samples_per_second": 775.099,
+      "eval_steps_per_second": 12.402,
+      "step": 50000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 16,
+  "total_flos": 8.008099828181752e+20,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb889cc10aaf071995df6da342ff4aec3f65438039925fc96cfdce7c89df56fc
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf773b1bedf0e3d4076d93eb3be69d1083c7a6321f77e59758b3adc872017b3a
 size 25761253