Training in progress, step 30000

Browse files

Files changed (6) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +303 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8999b8d69ea2c480c61524c89efac987588c6717adbe72d4a81fa8728d4c9449
 size 100170757

 version https://git-lfs.github.com/spec/v1
+oid sha256:991640a131f2a0a32a17ba1af542f31b7776932281bd0a73639dd3a4960e3a40
 size 100170757

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2086ad80db4aea83ae4e401109af83f1badcb088ad6d8e2646435f614981265
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:c10b0dd9b3e24c2c1ca2db9a9e924f901a4d183202a5c32479436a975f462f9d
 size 146774203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:baddf50e1f62d0d009af36c5769a89381444f87b64cb66458a109849b3e81eff
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f754532050c5b1775c36eee5da06c337e5bc03296f22630efbd5a1c263b25446
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d84da135b4e1f71d4d4cedad216f0163422e7daea6dbfb3d8920ec2c7486ef2f
 size 246897640

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd2f5c3de2046b6ec35a993f60879cf7288b2cb7906fdbd23f2869d9429fbe1b
 size 246897640

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.08594757198109153,
-  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -606,11 +606,311 @@
       "learning_rate": 8.149872553192528e-05,
       "loss": 3.606,
       "step": 20000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 3,
-  "total_flos": 3.187659964416e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.1289213579716373,
+  "global_step": 30000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 8.149872553192528e-05,
       "loss": 3.606,
       "step": 20000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 8.232037327492777e-05,
+      "loss": 3.6232,
+      "step": 20200
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 8.314970061979832e-05,
+      "loss": 3.6182,
+      "step": 20400
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 8.398669301501699e-05,
+      "loss": 3.5904,
+      "step": 20600
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 8.483133577457161e-05,
+      "loss": 3.6162,
+      "step": 20800
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 8.568361407821506e-05,
+      "loss": 3.6084,
+      "step": 21000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 8.65435129717262e-05,
+      "loss": 3.598,
+      "step": 21200
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 8.74110173671712e-05,
+      "loss": 3.6229,
+      "step": 21400
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 8.828611204316915e-05,
+      "loss": 3.6101,
+      "step": 21600
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 8.916878164515847e-05,
+      "loss": 3.5859,
+      "step": 21800
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 9.005901068566706e-05,
+      "loss": 3.6207,
+      "step": 22000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.095678354458317e-05,
+      "loss": 3.6058,
+      "step": 22200
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.18620844694301e-05,
+      "loss": 3.5935,
+      "step": 22400
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.27748975756424e-05,
+      "loss": 3.5917,
+      "step": 22600
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.369520684684475e-05,
+      "loss": 3.5861,
+      "step": 22800
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.462299613513243e-05,
+      "loss": 3.5976,
+      "step": 23000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.555824916135554e-05,
+      "loss": 3.5914,
+      "step": 23200
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.650094951540393e-05,
+      "loss": 3.5778,
+      "step": 23400
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.745108065649507e-05,
+      "loss": 3.6049,
+      "step": 23600
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.840862591346507e-05,
+      "loss": 3.5878,
+      "step": 23800
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.93735684850606e-05,
+      "loss": 3.5918,
+      "step": 24000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00010034589144023332,
+      "loss": 3.59,
+      "step": 24200
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00010132557771843796,
+      "loss": 3.5815,
+      "step": 24400
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00010231261012993076,
+      "loss": 3.5806,
+      "step": 24600
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0001033069713560718,
+      "loss": 3.5927,
+      "step": 24800
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00010430864394962811,
+      "loss": 3.595,
+      "step": 25000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00010531761033508039,
+      "loss": 3.5751,
+      "step": 25200
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00010633385280893134,
+      "loss": 3.5741,
+      "step": 25400
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00010735735354001593,
+      "loss": 3.5752,
+      "step": 25600
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00010838809456981471,
+      "loss": 3.5666,
+      "step": 25800
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00010942605781276871,
+      "loss": 3.5594,
+      "step": 26000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00011047122505659652,
+      "loss": 3.5652,
+      "step": 26200
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00011152357796261427,
+      "loss": 3.5546,
+      "step": 26400
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00011258309806605742,
+      "loss": 3.5427,
+      "step": 26600
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00011364976677640404,
+      "loss": 3.5766,
+      "step": 26800
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00011472356537770196,
+      "loss": 3.5791,
+      "step": 27000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00011580447502889649,
+      "loss": 3.5722,
+      "step": 27200
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00011689247676416152,
+      "loss": 3.5775,
+      "step": 27400
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00011798755149323179,
+      "loss": 3.5579,
+      "step": 27600
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00011908968000173793,
+      "loss": 3.5618,
+      "step": 27800
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00012019884295154414,
+      "loss": 3.5614,
+      "step": 28000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00012131502088108667,
+      "loss": 3.5444,
+      "step": 28200
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00012243819420571607,
+      "loss": 3.5463,
+      "step": 28400
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00012356834321804048,
+      "loss": 3.5502,
+      "step": 28600
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00012470544808827115,
+      "loss": 3.5287,
+      "step": 28800
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00012584948886457082,
+      "loss": 3.5414,
+      "step": 29000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00012700044547340377,
+      "loss": 3.5504,
+      "step": 29200
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00012815829771988744,
+      "loss": 3.5381,
+      "step": 29400
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00012932302528814797,
+      "loss": 3.5551,
+      "step": 29600
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00013049460774167522,
+      "loss": 3.5331,
+      "step": 29800
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00013167302452368236,
+      "loss": 3.5359,
+      "step": 30000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 3,
+  "total_flos": 4.781489946624e+16,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2086ad80db4aea83ae4e401109af83f1badcb088ad6d8e2646435f614981265
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:c10b0dd9b3e24c2c1ca2db9a9e924f901a4d183202a5c32479436a975f462f9d
 size 146774203