Training in progress, step 40000

Browse files

Files changed (6) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +303 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:991640a131f2a0a32a17ba1af542f31b7776932281bd0a73639dd3a4960e3a40
 size 100170757

 version https://git-lfs.github.com/spec/v1
+oid sha256:88a75430873048d1c55c1dfe2ccd053acab1fd15a8dcedf646948c68737b2e5a
 size 100170757

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c10b0dd9b3e24c2c1ca2db9a9e924f901a4d183202a5c32479436a975f462f9d
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:484db98ddb6ed91b4ea5f15498a85d452cda43038e8130ac0e093318895988c2
 size 146774203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f754532050c5b1775c36eee5da06c337e5bc03296f22630efbd5a1c263b25446
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:88f2a279490e0c3b8efb66c61c4617ccf8fdba17e1e5c57bdf6bbd4c4665d937
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd2f5c3de2046b6ec35a993f60879cf7288b2cb7906fdbd23f2869d9429fbe1b
 size 246897640

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8a8e57edadd6965f548754431358c0af914fc344d18e1de094a5af2d8025b1c
 size 246897640

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.1289213579716373,
-  "global_step": 30000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -906,11 +906,311 @@
       "learning_rate": 0.00013167302452368236,
       "loss": 3.5359,
       "step": 30000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 3,
-  "total_flos": 4.781489946624e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.17189514396218306,
+  "global_step": 40000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00013167302452368236,
       "loss": 3.5359,
       "step": 30000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0001328582549574664,
+      "loss": 3.5252,
+      "step": 30200
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00013405027824677038,
+      "loss": 3.5104,
+      "step": 30400
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00013524907347614926,
+      "loss": 3.5253,
+      "step": 30600
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00013645461961133603,
+      "loss": 3.5249,
+      "step": 30800
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00013766689549961136,
+      "loss": 3.5374,
+      "step": 31000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00013888587987017427,
+      "loss": 3.5093,
+      "step": 31200
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00014011155133451586,
+      "loss": 3.5465,
+      "step": 31400
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00014134388838679408,
+      "loss": 3.5362,
+      "step": 31600
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00014258286940421164,
+      "loss": 3.5233,
+      "step": 31800
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00014382847264739456,
+      "loss": 3.5425,
+      "step": 32000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00014508067626077482,
+      "loss": 3.5178,
+      "step": 32200
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00014633945827297273,
+      "loss": 3.5288,
+      "step": 32400
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00014760479659718304,
+      "loss": 3.52,
+      "step": 32600
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00014887666903156218,
+      "loss": 3.5121,
+      "step": 32800
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0001501550532596183,
+      "loss": 3.5191,
+      "step": 33000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00015143992685060208,
+      "loss": 3.5097,
+      "step": 33200
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00015273126725990098,
+      "loss": 3.5034,
+      "step": 33400
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00015402905182943438,
+      "loss": 3.484,
+      "step": 33600
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00015533325778805166,
+      "loss": 3.5111,
+      "step": 33800
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00015664386225193092,
+      "loss": 3.5041,
+      "step": 34000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00015796084222498145,
+      "loss": 3.5126,
+      "step": 34200
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0001592841745992464,
+      "loss": 3.4939,
+      "step": 34400
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00016061383615530893,
+      "loss": 3.4728,
+      "step": 34600
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0001619498035626989,
+      "loss": 3.4671,
+      "step": 34800
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00016329205338030289,
+      "loss": 3.5058,
+      "step": 35000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00016464056205677522,
+      "loss": 3.4973,
+      "step": 35200
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0001659953059309513,
+      "loss": 3.488,
+      "step": 35400
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00016735626123226218,
+      "loss": 3.4953,
+      "step": 35600
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00016872340408115283,
+      "loss": 3.4772,
+      "step": 35800
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00017009671048950003,
+      "loss": 3.4866,
+      "step": 36000
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00017147615636103365,
+      "loss": 3.4752,
+      "step": 36200
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00017286171749175986,
+      "loss": 3.4878,
+      "step": 36400
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001742533695703849,
+      "loss": 3.468,
+      "step": 36600
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001756510881787427,
+      "loss": 3.4708,
+      "step": 36800
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00017705484879222265,
+      "loss": 3.4879,
+      "step": 37000
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001784646267801997,
+      "loss": 3.4787,
+      "step": 37200
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00017988039740646764,
+      "loss": 3.4673,
+      "step": 37400
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00018130213582967188,
+      "loss": 3.4794,
+      "step": 37600
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00018272981710374596,
+      "loss": 3.4561,
+      "step": 37800
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00018416341617834915,
+      "loss": 3.4599,
+      "step": 38000
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00018560290789930596,
+      "loss": 3.454,
+      "step": 38200
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00018704826700904756,
+      "loss": 3.4628,
+      "step": 38400
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00018849946814705483,
+      "loss": 3.4557,
+      "step": 38600
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0001899564858503036,
+      "loss": 3.4584,
+      "step": 38800
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00019141929455371092,
+      "loss": 3.4492,
+      "step": 39000
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00019288786859058442,
+      "loss": 3.4641,
+      "step": 39200
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00019436218219307173,
+      "loss": 3.4665,
+      "step": 39400
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00019584220949261325,
+      "loss": 3.4503,
+      "step": 39600
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00019732792452039607,
+      "loss": 3.4438,
+      "step": 39800
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00019881930120780906,
+      "loss": 3.4454,
+      "step": 40000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 3,
+  "total_flos": 6.375319928832e+16,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c10b0dd9b3e24c2c1ca2db9a9e924f901a4d183202a5c32479436a975f462f9d
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:484db98ddb6ed91b4ea5f15498a85d452cda43038e8130ac0e093318895988c2
 size 146774203