Training in progress, step 560000

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +303 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d17d11c6b724af8ea30fb05f7b9f206f1931ddd49ca15fc7205cddd2e9832348
 size 586828837

 version https://git-lfs.github.com/spec/v1
+oid sha256:047de29e872fa886935b0856cae368679a5024ec78d3b02056971d0dafe03f46
 size 586828837

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15c30ebd022a5fa50904724c61cf334da708e967be5166a0a78886697c74d050
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2db06e17c94930e25ba4fa153fb1d09bc548975dd61b046eadd4ef82210ad5b
 size 146774203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e43e0eaad579d0c939892b8662eb3e95a1d059dc213782ff9d052bd6e7270801
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:6925d15f0ca8b085673c2a9c495fa03dd265589a6d0e5da63276f20be7165697
 size 14503

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b6e2b6cd430c3d4500f9b7bb538e1dd473e0b991a8a35061eb4ed746fc98502
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1866493c6437f9be9b061bda7fb54561f6f075e18eb8ff9def3d978f033c740
 size 559

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db8055e57f05540543729c217695af567f894e03204f78d3fde07bec2149433d
 size 733555848

 version https://git-lfs.github.com/spec/v1
+oid sha256:f637d7b8ff1440e6b42939ee3d5db1515f248a64a9ccc57bfd7e929c8ce06320
 size 733555848

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.3634871318868793,
-  "global_step": 550000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -16506,11 +16506,311 @@
       "learning_rate": 0.007174402227596965,
       "loss": 8.0567,
       "step": 550000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 5,
-  "total_flos": 8.766050956131656e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.4064596251939134,
+  "global_step": 560000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.007174402227596965,
       "loss": 8.0567,
       "step": 550000
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 0.007170359981885019,
+      "loss": 8.0657,
+      "step": 550200
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.007166315987569351,
+      "loss": 8.0443,
+      "step": 550400
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.007162270247908135,
+      "loss": 8.0611,
+      "step": 550600
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.00715824300789773,
+      "loss": 8.061,
+      "step": 550800
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.007154193796011567,
+      "loss": 8.0521,
+      "step": 551000
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.007150142848546487,
+      "loss": 8.057,
+      "step": 551200
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.007146090168766263,
+      "loss": 8.0605,
+      "step": 551400
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.007142035759936066,
+      "loss": 8.0472,
+      "step": 551600
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.007137979625322462,
+      "loss": 8.0535,
+      "step": 551800
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.0071339217681934035,
+      "loss": 8.0519,
+      "step": 552000
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.007129862191818233,
+      "loss": 8.0626,
+      "step": 552200
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.007125800899467677,
+      "loss": 8.0612,
+      "step": 552400
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.007121737894413849,
+      "loss": 8.051,
+      "step": 552600
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.007117693507749444,
+      "loss": 8.0404,
+      "step": 552800
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.0071136270956335375,
+      "loss": 8.0493,
+      "step": 553000
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.007109558980622571,
+      "loss": 8.0652,
+      "step": 553200
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.007105489165994151,
+      "loss": 8.0499,
+      "step": 553400
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.007101417655027253,
+      "loss": 8.0657,
+      "step": 553600
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.007097344451002222,
+      "loss": 8.0415,
+      "step": 553800
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.0070932695572007605,
+      "loss": 8.0431,
+      "step": 554000
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.007089192976905942,
+      "loss": 8.0563,
+      "step": 554200
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.007085114713402188,
+      "loss": 8.0635,
+      "step": 554400
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.007081034769975286,
+      "loss": 8.0628,
+      "step": 554600
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.00707697356217788,
+      "loss": 8.0692,
+      "step": 554800
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.007072890277125996,
+      "loss": 8.0654,
+      "step": 555000
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.00706880532199997,
+      "loss": 8.0595,
+      "step": 555200
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.007064718700090976,
+      "loss": 8.0514,
+      "step": 555400
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.007060630414691535,
+      "loss": 8.0607,
+      "step": 555600
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.0070565404690954995,
+      "loss": 8.0671,
+      "step": 555800
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.007052448866598068,
+      "loss": 8.0563,
+      "step": 556000
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.00704835561049577,
+      "loss": 8.0695,
+      "step": 556200
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.007044260704086468,
+      "loss": 8.0473,
+      "step": 556400
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.007040164150669354,
+      "loss": 8.0468,
+      "step": 556600
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.007036086448613831,
+      "loss": 8.0611,
+      "step": 556800
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.007031986619277786,
+      "loss": 8.0643,
+      "step": 557000
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.0070278851528229385,
+      "loss": 8.0717,
+      "step": 557200
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.0070237820525537635,
+      "loss": 8.0483,
+      "step": 557400
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.007019677321776058,
+      "loss": 8.0599,
+      "step": 557600
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.007015570963796927,
+      "loss": 8.0636,
+      "step": 557800
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.00701146298192479,
+      "loss": 8.0634,
+      "step": 558000
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.007007353379469375,
+      "loss": 8.0698,
+      "step": 558200
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.007003242159741711,
+      "loss": 8.0581,
+      "step": 558400
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.0069991293260541374,
+      "loss": 8.0534,
+      "step": 558600
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.006995035457942955,
+      "loss": 8.0641,
+      "step": 558800
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.006990919414306169,
+      "loss": 8.0571,
+      "step": 559000
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.0069868017666376864,
+      "loss": 8.0577,
+      "step": 559200
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.006982703118473221,
+      "loss": 8.0753,
+      "step": 559400
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.006978582280673894,
+      "loss": 8.0559,
+      "step": 559600
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.006974459848782675,
+      "loss": 8.0529,
+      "step": 559800
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.006970335826120932,
+      "loss": 8.046,
+      "step": 560000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 5,
+  "total_flos": 8.925433954352456e+17,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15c30ebd022a5fa50904724c61cf334da708e967be5166a0a78886697c74d050
 size 146774203

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2db06e17c94930e25ba4fa153fb1d09bc548975dd61b046eadd4ef82210ad5b
 size 146774203