Training in progress, step 20000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +2 -2
last-checkpoint/rng_state_1.pth +2 -2
last-checkpoint/rng_state_2.pth +2 -2
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +2 -2
last-checkpoint/rng_state_5.pth +2 -2
last-checkpoint/rng_state_6.pth +2 -2
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd828ba7ef8ea24e9898f36028e0bfcbe153ca9a3923e68f4700aa63dbe463ee
 size 202193937

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0da2970bb6a3a42f4eead306605a961254c0210bad87f083e81965051a1ad3a
 size 202193937

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ec554c5a9407361db53dbc3a5bc565b9715aa07e26b5d436e96c5f33a969a4f
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:40868d6c39d293c12d7773c27c15f6382f00c3ba8e481d497b2c196ab25b69a3
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5aee72ba109a77ece7e93839ea5b944c74b444f95a4a7e3506e2f271a753f709
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:b33f31ec9e20c699cd93c0e314986de5d82cb7c411b0e3c7eee0d17f6a92609c
+size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d6b4f6bb290629ef6ff58cebc910922165a7b64378c821482ede0a323e7316f
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:316d605eec494bdea5793151464c1da876fa7ec2313f7cda46a35a7d559d963f
+size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6e91c5fb97c4d0872bc2824093f3151672a82be386d78d70f3edda8b7a52d2a
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:31fe7f2ccf79f0fbd307b03672872f533b41579145e63a7888aec3a5ade7df01
+size 14439

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fbff09a94017eb5aba3b3a88f94cbfa48bfc39530dfe5202253b96c272f427d7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:78efd1d120d3afada7840d4e2f7658c3af4d720391b574486645b700463cee2d
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69fc93171f2f853578f597eabd1baaec1d2eca44eb9de37d8bb8af004252d5ea
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e5c86a710cd0b786d4795e0813f5ead76a96818b39198d12f9f42f9e7430fc1
+size 14439

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc9d54fdd5cd3334f781a7de4fbb5ce5ada6b339db039d010b182c77b8255b2a
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:1056e9825f4d978bcf0e45dd46c3696fe25102ae04b2b7933b12a49c991f391e
+size 14567

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af2fefd89293fd9d4c4a57965497fa0734843a17de222db53f9517e0b4669625
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:fdf986c9430e05e7ba964c9e0374d3c9a4f51eff82b71408f66ef54212334841
+size 14439

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39a5f16726749755ba4ce0b054ae00befe2707e77c306d86f695af2305776553
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:81cd2c15231d48fe730759995854c7a6c86a749356ccc31327860314d1e21be9
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4931c97be633a6e3808391ac03b792837805ded64ff2a578babfa79e60dc22a7
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:c84272d9e8a15cd78c706d16b77833d53dbfbd182e8ad79e3cd658ef6c3eaaf6
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.30638193572106986,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -206,11 +206,211 @@
       "eval_samples_per_second": 1966.828,
       "eval_steps_per_second": 31.469,
       "step": 10000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 3.194871387745e+20,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6127638714421397,
+  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1966.828,
       "eval_steps_per_second": 31.469,
       "step": 10000
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00012599999999999997,
+      "loss": 0.6275,
+      "step": 10500
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00013199999999999998,
+      "loss": 0.6079,
+      "step": 11000
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 0.8707549571990967,
+      "eval_runtime": 0.5111,
+      "eval_samples_per_second": 1956.647,
+      "eval_steps_per_second": 31.306,
+      "step": 11000
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.000138,
+      "loss": 0.5977,
+      "step": 11500
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00014399999999999998,
+      "loss": 0.5907,
+      "step": 12000
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 0.8676372766494751,
+      "eval_runtime": 0.5179,
+      "eval_samples_per_second": 1930.992,
+      "eval_steps_per_second": 30.896,
+      "step": 12000
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00015,
+      "loss": 0.5834,
+      "step": 12500
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.000156,
+      "loss": 0.5764,
+      "step": 13000
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.8676320910453796,
+      "eval_runtime": 0.5238,
+      "eval_samples_per_second": 1909.011,
+      "eval_steps_per_second": 30.544,
+      "step": 13000
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.000162,
+      "loss": 0.5696,
+      "step": 13500
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.000168,
+      "loss": 0.5648,
+      "step": 14000
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 0.860458254814148,
+      "eval_runtime": 0.5396,
+      "eval_samples_per_second": 1853.225,
+      "eval_steps_per_second": 29.652,
+      "step": 14000
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00017399999999999997,
+      "loss": 0.5602,
+      "step": 14500
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00017999999999999998,
+      "loss": 0.556,
+      "step": 15000
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 0.8584501147270203,
+      "eval_runtime": 0.5323,
+      "eval_samples_per_second": 1878.593,
+      "eval_steps_per_second": 30.057,
+      "step": 15000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.000186,
+      "loss": 0.5519,
+      "step": 15500
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00019199999999999998,
+      "loss": 0.5459,
+      "step": 16000
+    },
+    {
+      "epoch": 0.49,
+      "eval_loss": 0.8554501533508301,
+      "eval_runtime": 0.5107,
+      "eval_samples_per_second": 1957.988,
+      "eval_steps_per_second": 31.328,
+      "step": 16000
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.000198,
+      "loss": 0.5412,
+      "step": 16500
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.000204,
+      "loss": 0.5374,
+      "step": 17000
+    },
+    {
+      "epoch": 0.52,
+      "eval_loss": 0.8554509282112122,
+      "eval_runtime": 0.5145,
+      "eval_samples_per_second": 1943.819,
+      "eval_steps_per_second": 31.101,
+      "step": 17000
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00020999999999999998,
+      "loss": 0.5338,
+      "step": 17500
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00021599999999999996,
+      "loss": 0.5305,
+      "step": 18000
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 0.8557196259498596,
+      "eval_runtime": 0.5163,
+      "eval_samples_per_second": 1936.818,
+      "eval_steps_per_second": 30.989,
+      "step": 18000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00022199999999999998,
+      "loss": 0.5273,
+      "step": 18500
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00022799999999999999,
+      "loss": 0.5243,
+      "step": 19000
+    },
+    {
+      "epoch": 0.58,
+      "eval_loss": 0.8606428503990173,
+      "eval_runtime": 0.5087,
+      "eval_samples_per_second": 1965.911,
+      "eval_steps_per_second": 31.455,
+      "step": 19000
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.000234,
+      "loss": 0.5215,
+      "step": 19500
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00023999999999999998,
+      "loss": 0.5188,
+      "step": 20000
+    },
+    {
+      "epoch": 0.61,
+      "eval_loss": 0.8626545071601868,
+      "eval_runtime": 0.4996,
+      "eval_samples_per_second": 2001.549,
+      "eval_steps_per_second": 32.025,
+      "step": 20000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 6.38974277549e+20,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ec554c5a9407361db53dbc3a5bc565b9715aa07e26b5d436e96c5f33a969a4f
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:40868d6c39d293c12d7773c27c15f6382f00c3ba8e481d497b2c196ab25b69a3
 size 102501541