Training in progress, step 110000

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +303 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0978bc6ba8af6107f37b1ce0de2823f6ffed0e6f3357ff497f2e879a2e834ef3
 size 586828837

 version https://git-lfs.github.com/spec/v1
+oid sha256:66a5ef622dbe8d56e7b956a8e46b2dc79895c2e55948ea096cb19b5071a69a55
 size 586828837

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbd29e5163387c30aab8a8890d9ee62efc996b56b102107768b0eabf5e23817e
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4ef7a37dd78952cbb4fc37873637ea684f070d1e44bde74352b791d0c661cd4
 size 146774203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c1dca87fa841c98848654f4170210b8999092daa8068e42b3812f3ab2a9ca99
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:e483b397451e40991ea9aa448be1d4addf388b682e3c225fd31dfc476ba76800
 size 14503

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43c91aaff4049dd76fbb2e0bcf40a0522c406dbf03765ebea50f6fb1be9645c2
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:42dbbdc5cc13bd878c323aa5fdc58a0d0d735dc686a8a6a2c1206cf27279185b
 size 559

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9fc0cfe80fceb3705f7126b83f3fe0e36d87dafa6df093df20b056316ba4fd28
 size 733555848

 version https://git-lfs.github.com/spec/v1
+oid sha256:645860789a54b6c41f5c11e77f6f0318ed7d04c0720af434b0a590d8b30f84c0
 size 733555848

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.42972493307034165,
-  "global_step": 100000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3006,11 +3006,311 @@
       "learning_rate": 0.0027978817870494,
       "loss": 8.5906,
       "step": 100000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 5,
-  "total_flos": 1.593829982208e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.47269742637737583,
+  "global_step": 110000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0027978817870494,
       "loss": 8.5906,
       "step": 100000
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0028065907522651585,
+      "loss": 8.5938,
+      "step": 100200
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.002815310216214826,
+      "loss": 8.5887,
+      "step": 100400
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00282404014065031,
+      "loss": 8.5922,
+      "step": 100600
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0028327804872776367,
+      "loss": 8.5926,
+      "step": 100800
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.002841531217757113,
+      "loss": 8.5978,
+      "step": 101000
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0028502922937035,
+      "loss": 8.5984,
+      "step": 101200
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0028590636766861726,
+      "loss": 8.6046,
+      "step": 101400
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0028678453282293013,
+      "loss": 8.6093,
+      "step": 101600
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0028766372098120076,
+      "loss": 8.6083,
+      "step": 101800
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0028854392828685377,
+      "loss": 8.6057,
+      "step": 102000
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0028942515087884407,
+      "loss": 8.6146,
+      "step": 102200
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00290307384891672,
+      "loss": 8.608,
+      "step": 102400
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00291190626455402,
+      "loss": 8.6081,
+      "step": 102600
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0029207044797924615,
+      "loss": 8.6164,
+      "step": 102800
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0029295568802797795,
+      "loss": 8.6008,
+      "step": 103000
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0029384192401078115,
+      "loss": 8.6166,
+      "step": 103200
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00294729152040165,
+      "loss": 8.5962,
+      "step": 103400
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.002956173682242877,
+      "loss": 8.6129,
+      "step": 103600
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.002965065686669722,
+      "loss": 8.6092,
+      "step": 103800
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0029739674946772463,
+      "loss": 8.6189,
+      "step": 104000
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.002982879067217503,
+      "loss": 8.612,
+      "step": 104200
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0029918003651997144,
+      "loss": 8.6135,
+      "step": 104400
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.003000731349490442,
+      "loss": 8.6182,
+      "step": 104600
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0030096719809137584,
+      "loss": 8.6423,
+      "step": 104800
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.003018622220251419,
+      "loss": 8.6145,
+      "step": 105000
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0030275372054660438,
+      "loss": 8.6249,
+      "step": 105200
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0030365064952603237,
+      "loss": 8.6265,
+      "step": 105400
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0030454852752588536,
+      "loss": 8.6304,
+      "step": 105600
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0030544735060760494,
+      "loss": 8.6309,
+      "step": 105800
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0030634711482848704,
+      "loss": 8.6258,
+      "step": 106000
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.003072478162416994,
+      "loss": 8.6328,
+      "step": 106200
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.003081494508962985,
+      "loss": 8.6298,
+      "step": 106400
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0030905201483724717,
+      "loss": 8.639,
+      "step": 106600
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0030995550410543226,
+      "loss": 8.6212,
+      "step": 106800
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0031085991473768114,
+      "loss": 8.6374,
+      "step": 107000
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.003117652427667799,
+      "loss": 8.6326,
+      "step": 107200
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0031267148422149046,
+      "loss": 8.6291,
+      "step": 107400
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.003135740971163656,
+      "loss": 8.6375,
+      "step": 107600
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0031448214897512507,
+      "loss": 8.6226,
+      "step": 107800
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.003153911023417371,
+      "loss": 8.6359,
+      "step": 108000
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.003163009532290608,
+      "loss": 8.6491,
+      "step": 108200
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0031721169764601844,
+      "loss": 8.6405,
+      "step": 108400
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0031812333159761293,
+      "loss": 8.632,
+      "step": 108600
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.003190358510849451,
+      "loss": 8.6363,
+      "step": 108800
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0031994925210523124,
+      "loss": 8.6316,
+      "step": 109000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0032086353065182106,
+      "loss": 8.6423,
+      "step": 109200
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.003217786827142146,
+      "loss": 8.6274,
+      "step": 109400
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.003226947042780804,
+      "loss": 8.6366,
+      "step": 109600
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.003236070047437989,
+      "loss": 8.6388,
+      "step": 109800
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.003245247489550804,
+      "loss": 8.6364,
+      "step": 110000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 5,
+  "total_flos": 1.7532129804288e+17,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbd29e5163387c30aab8a8890d9ee62efc996b56b102107768b0eabf5e23817e
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4ef7a37dd78952cbb4fc37873637ea684f070d1e44bde74352b791d0c661cd4
 size 146774203