Training in progress, step 100000

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +303 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bfd1649a8e5d50f87eac5a90bc2a42a9752d57108ef7a99b6144b52498eb940
 size 586828837

 version https://git-lfs.github.com/spec/v1
+oid sha256:0978bc6ba8af6107f37b1ce0de2823f6ffed0e6f3357ff497f2e879a2e834ef3
 size 586828837

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46d445756ee98f80cf0e1304f296d090935c2b25cf534d2e63f2d43ea00b4692
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbd29e5163387c30aab8a8890d9ee62efc996b56b102107768b0eabf5e23817e
 size 146774203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5252389f795734ddbef71d5136d373788bd8e3e087e463a80c7908b475ee5a4e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c1dca87fa841c98848654f4170210b8999092daa8068e42b3812f3ab2a9ca99
 size 14503

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1244415d9126f95bf4be9e42d3ed475037eeb14b80d36ceaa79ab4bc1c4e659
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:43c91aaff4049dd76fbb2e0bcf40a0522c406dbf03765ebea50f6fb1be9645c2
 size 559

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13e05de43b6a246107bb811a862a5a339039221c691d4bd76ad5704b725f4612
 size 733555848

 version https://git-lfs.github.com/spec/v1
+oid sha256:9fc0cfe80fceb3705f7126b83f3fe0e36d87dafa6df093df20b056316ba4fd28
 size 733555848

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.38675243976330753,
-  "global_step": 90000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2706,11 +2706,311 @@
       "learning_rate": 0.0023768946429473976,
       "loss": 8.4846,
       "step": 90000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 5,
-  "total_flos": 1.4344469839872e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.42972493307034165,
+  "global_step": 100000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0023768946429473976,
       "loss": 8.4846,
       "step": 90000
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.002385031338735963,
+      "loss": 8.4866,
+      "step": 90200
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0023931803824365962,
+      "loss": 8.4847,
+      "step": 90400
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.002401300900956714,
+      "loss": 8.4934,
+      "step": 90600
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.002409474471896992,
+      "loss": 8.4872,
+      "step": 90800
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0024176602835290807,
+      "loss": 8.4977,
+      "step": 91000
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0024258582999457665,
+      "loss": 8.4967,
+      "step": 91200
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0024340684851863,
+      "loss": 8.505,
+      "step": 91400
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.002442290803236551,
+      "loss": 8.5126,
+      "step": 91600
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0024505252180291688,
+      "loss": 8.5033,
+      "step": 91800
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0024587304311256865,
+      "loss": 8.513,
+      "step": 92000
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0024669888709567232,
+      "loss": 8.5082,
+      "step": 92200
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0024752592991915973,
+      "loss": 8.517,
+      "step": 92400
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0024835416795519205,
+      "loss": 8.5293,
+      "step": 92600
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.002491835975706881,
+      "loss": 8.5094,
+      "step": 92800
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0025001421512733943,
+      "loss": 8.5139,
+      "step": 93000
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0025084601698162666,
+      "loss": 8.5099,
+      "step": 93200
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0025167899948483575,
+      "loss": 8.5185,
+      "step": 93400
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0025251315898307336,
+      "loss": 8.5143,
+      "step": 93600
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.002533484918172837,
+      "loss": 8.5277,
+      "step": 93800
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0025418499432326358,
+      "loss": 8.5231,
+      "step": 94000
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.002550184715947826,
+      "loss": 8.5436,
+      "step": 94200
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0025585729662869474,
+      "loss": 8.5373,
+      "step": 94400
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.002566972803294579,
+      "loss": 8.5347,
+      "step": 94600
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00257538419012468,
+      "loss": 8.5544,
+      "step": 94800
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0025838070898805453,
+      "loss": 8.5339,
+      "step": 95000
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.002592241465614974,
+      "loss": 8.5405,
+      "step": 95200
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.002600687280330416,
+      "loss": 8.5501,
+      "step": 95400
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0026091444969791513,
+      "loss": 8.5344,
+      "step": 95600
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.002617613078463441,
+      "loss": 8.5477,
+      "step": 95800
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.002626092987635699,
+      "loss": 8.5443,
+      "step": 96000
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.002634541703276827,
+      "loss": 8.5398,
+      "step": 96200
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.002643044100010169,
+      "loss": 8.5523,
+      "step": 96400
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.002651557712877833,
+      "loss": 8.5562,
+      "step": 96600
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0026600825045346955,
+      "loss": 8.5525,
+      "step": 96800
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0026686184375866043,
+      "loss": 8.5728,
+      "step": 97000
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.002677165474590528,
+      "loss": 8.5631,
+      "step": 97200
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.002685723578054729,
+      "loss": 8.5658,
+      "step": 97400
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0026942927104389334,
+      "loss": 8.566,
+      "step": 97600
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.002702872834154482,
+      "loss": 8.5716,
+      "step": 97800
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0027114639115645017,
+      "loss": 8.5697,
+      "step": 98000
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.002720022867925799,
+      "loss": 8.5726,
+      "step": 98200
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0027286356853246747,
+      "loss": 8.5718,
+      "step": 98400
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0027372593434088002,
+      "loss": 8.5716,
+      "step": 98600
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.002745893804350339,
+      "loss": 8.5767,
+      "step": 98800
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00275453903027407,
+      "loss": 8.5957,
+      "step": 99000
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0027631949832575475,
+      "loss": 8.5881,
+      "step": 99200
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.002771861625331276,
+      "loss": 8.5835,
+      "step": 99400
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.002780495505581529,
+      "loss": 8.5905,
+      "step": 99600
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.002789183358769584,
+      "loss": 8.5938,
+      "step": 99800
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0027978817870494,
+      "loss": 8.5906,
+      "step": 100000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 5,
+  "total_flos": 1.593829982208e+17,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46d445756ee98f80cf0e1304f296d090935c2b25cf534d2e63f2d43ea00b4692
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbd29e5163387c30aab8a8890d9ee62efc996b56b102107768b0eabf5e23817e
 size 146774203