Training in progress, step 5000

Browse files

Files changed (13) hide show

config.json +1 -1
last-checkpoint/config.json +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +23 -1463
last-checkpoint/training_args.bin +1 -1
pytorch_model.bin +1 -1
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -20,7 +20,7 @@
   "mask_ratio": 0.25,
   "model_type": "pixel",
   "norm_pix_input": true,
-  "norm_pix_loss": true,
   "num_attention_heads": 6,
   "num_channels": 3,
   "num_hidden_layers": 12,

   "mask_ratio": 0.25,
   "model_type": "pixel",
   "norm_pix_input": true,
+  "norm_pix_loss": false,
   "num_attention_heads": 6,
   "num_channels": 3,
   "num_hidden_layers": 12,

last-checkpoint/config.json CHANGED Viewed

@@ -20,7 +20,7 @@
   "mask_ratio": 0.25,
   "model_type": "pixel",
   "norm_pix_input": true,
-  "norm_pix_loss": true,
   "num_attention_heads": 6,
   "num_channels": 3,
   "num_hidden_layers": 12,

   "mask_ratio": 0.25,
   "model_type": "pixel",
   "norm_pix_input": true,
+  "norm_pix_loss": false,
   "num_attention_heads": 6,
   "num_channels": 3,
   "num_hidden_layers": 12,

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6cb3d0e61b5d108ce8144603307306d33ec57a740054d047b674d88a24d4047f
-size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd08e118d8510f2cb4a9c2891ba7cb95c1953052e571d833019de6ce82573790
+size 202193937

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01986e29e7b00ff5ed5012297e50124030c090218d489d0fb41425e1a13097b1
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:e31313ef25632d40f04a4d20bebc02ef847b472d4200e8e9085e3e9835ffafaa
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c0b6dc93078eb284ca60353df2fed8bb86e0d867e2ab46b3e3f4b2755de65b8
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9eb26b59330b615a98e78d6fa6f00cb6141e029593d57c287ed1c46236d2e017
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c0b6dc93078eb284ca60353df2fed8bb86e0d867e2ab46b3e3f4b2755de65b8
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9eb26b59330b615a98e78d6fa6f00cb6141e029593d57c287ed1c46236d2e017
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c0b6dc93078eb284ca60353df2fed8bb86e0d867e2ab46b3e3f4b2755de65b8
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9eb26b59330b615a98e78d6fa6f00cb6141e029593d57c287ed1c46236d2e017
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c0b6dc93078eb284ca60353df2fed8bb86e0d867e2ab46b3e3f4b2755de65b8
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9eb26b59330b615a98e78d6fa6f00cb6141e029593d57c287ed1c46236d2e017
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72ec509fe27f6bd7a85a63791b7907f44298546cc560f9361537aced29997e23
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:e42b82e9522a85b7c37d23355628f9314507631e34b534ae0e598c498d2271b9
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,1516 +1,76 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.91490942514649,
-  "global_step": 125000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
-      "learning_rate": 2.9999999999999997e-06,
-      "loss": 0.7239,
       "step": 500
     },
     {
       "epoch": 0.02,
-      "learning_rate": 5.999999999999999e-06,
-      "loss": 0.2594,
       "step": 1000
     },
     {
       "epoch": 0.02,
-      "learning_rate": 8.999999999999999e-06,
-      "loss": 0.0798,
       "step": 1500
     },
     {
       "epoch": 0.03,
-      "learning_rate": 1.1999999999999999e-05,
-      "loss": 0.0611,
       "step": 2000
     },
     {
       "epoch": 0.04,
-      "learning_rate": 1.4999999999999999e-05,
-      "loss": 0.0603,
       "step": 2500
     },
     {
       "epoch": 0.05,
-      "learning_rate": 1.7999999999999997e-05,
-      "loss": 0.06,
       "step": 3000
     },
     {
       "epoch": 0.05,
-      "learning_rate": 2.1e-05,
-      "loss": 0.0597,
       "step": 3500
     },
     {
       "epoch": 0.06,
-      "learning_rate": 2.3999999999999997e-05,
-      "loss": 0.0596,
       "step": 4000
     },
     {
       "epoch": 0.07,
-      "learning_rate": 2.6999999999999996e-05,
-      "loss": 0.0595,
       "step": 4500
     },
     {
       "epoch": 0.08,
-      "learning_rate": 2.9999999999999997e-05,
-      "loss": 0.0594,
       "step": 5000
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 3.2999999999999996e-05,
-      "loss": 0.0593,
-      "step": 5500
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 3.5999999999999994e-05,
-      "loss": 0.0592,
-      "step": 6000
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 3.9e-05,
-      "loss": 0.0591,
-      "step": 6500
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 4.2e-05,
-      "loss": 0.0589,
-      "step": 7000
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 4.4999999999999996e-05,
-      "loss": 0.0585,
-      "step": 7500
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 4.7999999999999994e-05,
-      "loss": 0.0582,
-      "step": 8000
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 5.1e-05,
-      "loss": 0.0581,
-      "step": 8500
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 5.399999999999999e-05,
-      "loss": 0.058,
-      "step": 9000
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 5.6999999999999996e-05,
-      "loss": 0.058,
-      "step": 9500
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 5.9999999999999995e-05,
-      "loss": 0.058,
-      "step": 10000
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 6.299999999999999e-05,
-      "loss": 0.0579,
-      "step": 10500
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 6.599999999999999e-05,
-      "loss": 0.0579,
-      "step": 11000
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 6.9e-05,
-      "loss": 0.0579,
-      "step": 11500
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 7.199999999999999e-05,
-      "loss": 0.0579,
-      "step": 12000
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 7.5e-05,
-      "loss": 0.0579,
-      "step": 12500
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 7.8e-05,
-      "loss": 0.0578,
-      "step": 13000
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 8.1e-05,
-      "loss": 0.0574,
-      "step": 13500
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 8.4e-05,
-      "loss": 0.056,
-      "step": 14000
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 8.699999999999999e-05,
-      "loss": 0.0543,
-      "step": 14500
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 8.999999999999999e-05,
-      "loss": 0.052,
-      "step": 15000
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 9.3e-05,
-      "loss": 0.0496,
-      "step": 15500
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 9.599999999999999e-05,
-      "loss": 0.0483,
-      "step": 16000
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 9.9e-05,
-      "loss": 0.0474,
-      "step": 16500
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 0.000102,
-      "loss": 0.0467,
-      "step": 17000
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 0.00010499999999999999,
-      "loss": 0.0462,
-      "step": 17500
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 0.00010799999999999998,
-      "loss": 0.0458,
-      "step": 18000
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 0.00011099999999999999,
-      "loss": 0.0454,
-      "step": 18500
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 0.00011399999999999999,
-      "loss": 0.0451,
-      "step": 19000
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 0.000117,
-      "loss": 0.0448,
-      "step": 19500
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 0.00011999999999999999,
-      "loss": 0.0446,
-      "step": 20000
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 0.00012299999999999998,
-      "loss": 0.0443,
-      "step": 20500
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 0.00012599999999999997,
-      "loss": 0.0441,
-      "step": 21000
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 0.000129,
-      "loss": 0.0439,
-      "step": 21500
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 0.00013199999999999998,
-      "loss": 0.0437,
-      "step": 22000
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 0.000135,
-      "loss": 0.0436,
-      "step": 22500
-    },
-    {
-      "epoch": 0.35,
-      "learning_rate": 0.000138,
-      "loss": 0.0434,
-      "step": 23000
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.00014099999999999998,
-      "loss": 0.0432,
-      "step": 23500
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 0.00014399999999999998,
-      "loss": 0.0431,
-      "step": 24000
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 0.000147,
-      "loss": 0.0429,
-      "step": 24500
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 0.00015,
-      "loss": 0.0424,
-      "step": 25000
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 0.00014999960357580777,
-      "loss": 0.0422,
-      "step": 25500
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 0.0001499984143075663,
-      "loss": 0.042,
-      "step": 26000
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 0.0001499964322082812,
-      "loss": 0.0419,
-      "step": 26500
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 0.00014999365729962845,
-      "loss": 0.0417,
-      "step": 27000
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 0.000149990089611954,
-      "loss": 0.0415,
-      "step": 27500
-    },
-    {
-      "epoch": 0.43,
-      "learning_rate": 0.00014998572918427345,
-      "loss": 0.0414,
-      "step": 28000
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 0.00014998057606427183,
-      "loss": 0.0412,
-      "step": 28500
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 0.00014997463030830277,
-      "loss": 0.041,
-      "step": 29000
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 0.0001499678919813881,
-      "loss": 0.0408,
-      "step": 29500
-    },
-    {
-      "epoch": 0.46,
-      "learning_rate": 0.00014996036115721712,
-      "loss": 0.0406,
-      "step": 30000
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 0.0001499520379181457,
-      "loss": 0.0405,
-      "step": 30500
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 0.00014994292235519547,
-      "loss": 0.0403,
-      "step": 31000
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 0.0001499330145680527,
-      "loss": 0.0402,
-      "step": 31500
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 0.00014992231466506745,
-      "loss": 0.04,
-      "step": 32000
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 0.0001499108227632521,
-      "loss": 0.0399,
-      "step": 32500
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 0.00014989853898828023,
-      "loss": 0.0397,
-      "step": 33000
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 0.00014988546347448526,
-      "loss": 0.0396,
-      "step": 33500
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 0.0001498715963648589,
-      "loss": 0.0395,
-      "step": 34000
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 0.00014985693781104968,
-      "loss": 0.0394,
-      "step": 34500
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 0.00014984148797336113,
-      "loss": 0.0393,
-      "step": 35000
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 0.00014982524702075026,
-      "loss": 0.0391,
-      "step": 35500
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 0.00014980821513082548,
-      "loss": 0.039,
-      "step": 36000
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 0.00014979039248984487,
-      "loss": 0.0389,
-      "step": 36500
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 0.0001497717792927139,
-      "loss": 0.0388,
-      "step": 37000
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 0.00014975237574298356,
-      "loss": 0.0387,
-      "step": 37500
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 0.00014973218205284794,
-      "loss": 0.0386,
-      "step": 38000
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 0.000149711198443142,
-      "loss": 0.0385,
-      "step": 38500
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 0.00014968942514333915,
-      "loss": 0.0384,
-      "step": 39000
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 0.00014966686239154873,
-      "loss": 0.0383,
-      "step": 39500
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 0.00014964351043451332,
-      "loss": 0.0383,
-      "step": 40000
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 0.00014961936952760622,
-      "loss": 0.0382,
-      "step": 40500
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 0.0001495944399348285,
-      "loss": 0.0381,
-      "step": 41000
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 0.00014956872192880622,
-      "loss": 0.038,
-      "step": 41500
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 0.00014954221579078732,
-      "loss": 0.0379,
-      "step": 42000
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 0.00014951492181063876,
-      "loss": 0.0378,
-      "step": 42500
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 0.00014948684028684306,
-      "loss": 0.0377,
-      "step": 43000
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 0.00014945797152649532,
-      "loss": 0.0376,
-      "step": 43500
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 0.00014942831584529963,
-      "loss": 0.0374,
-      "step": 44000
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 0.0001493978735675658,
-      "loss": 0.0372,
-      "step": 44500
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 0.00014936664502620569,
-      "loss": 0.0371,
-      "step": 45000
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 0.00014933463056272963,
-      "loss": 0.037,
-      "step": 45500
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 0.00014930183052724267,
-      "loss": 0.0369,
-      "step": 46000
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 0.00014926824527844071,
-      "loss": 0.0368,
-      "step": 46500
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 0.00014923387518360668,
-      "loss": 0.0367,
-      "step": 47000
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 0.00014919872061860644,
-      "loss": 0.0365,
-      "step": 47500
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 0.00014916278196788467,
-      "loss": 0.0364,
-      "step": 48000
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 0.0001491260596244607,
-      "loss": 0.0363,
-      "step": 48500
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 0.00014908855398992416,
-      "loss": 0.0362,
-      "step": 49000
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 0.00014905026547443068,
-      "loss": 0.0361,
-      "step": 49500
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 0.00014901119449669737,
-      "loss": 0.036,
-      "step": 50000
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 0.0001489713414839981,
-      "loss": 0.0359,
-      "step": 50500
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 0.00014893070687215914,
-      "loss": 0.0358,
-      "step": 51000
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 0.000148889291105554,
-      "loss": 0.0357,
-      "step": 51500
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 0.00014884709463709893,
-      "loss": 0.0356,
-      "step": 52000
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 0.0001488041179282477,
-      "loss": 0.0355,
-      "step": 52500
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 0.00014876036144898677,
-      "loss": 0.0354,
-      "step": 53000
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 0.00014871582567782993,
-      "loss": 0.0353,
-      "step": 53500
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 0.00014867051110181327,
-      "loss": 0.0352,
-      "step": 54000
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 0.00014862441821648968,
-      "loss": 0.0352,
-      "step": 54500
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 0.00014857754752592366,
-      "loss": 0.0351,
-      "step": 55000
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 0.0001485298995426855,
-      "loss": 0.035,
-      "step": 55500
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 0.00014848147478784598,
-      "loss": 0.0349,
-      "step": 56000
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 0.00014843227379097038,
-      "loss": 0.0348,
-      "step": 56500
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 0.00014838229709011297,
-      "loss": 0.0348,
-      "step": 57000
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 0.00014833154523181095,
-      "loss": 0.0347,
-      "step": 57500
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 0.00014828001877107845,
-      "loss": 0.0346,
-      "step": 58000
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 0.00014822771827140065,
-      "loss": 0.0345,
-      "step": 58500
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 0.00014817464430472743,
-      "loss": 0.0345,
-      "step": 59000
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 0.00014812079745146715,
-      "loss": 0.0344,
-      "step": 59500
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 0.00014806617830048042,
-      "loss": 0.0343,
-      "step": 60000
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 0.00014801078744907346,
-      "loss": 0.0343,
-      "step": 60500
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 0.00014795462550299182,
-      "loss": 0.0342,
-      "step": 61000
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 0.0001478976930764135,
-      "loss": 0.0341,
-      "step": 61500
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 0.0001478399907919424,
-      "loss": 0.0341,
-      "step": 62000
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 0.00014778151928060144,
-      "loss": 0.034,
-      "step": 62500
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 0.00014772227918182575,
-      "loss": 0.034,
-      "step": 63000
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 0.00014766227114345552,
-      "loss": 0.0339,
-      "step": 63500
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 0.00014760149582172905,
-      "loss": 0.0338,
-      "step": 64000
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 0.00014753995388127553,
-      "loss": 0.0338,
-      "step": 64500
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 0.00014747764599510777,
-      "loss": 0.0337,
-      "step": 65000
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 0.0001474145728446148,
-      "loss": 0.0337,
-      "step": 65500
-    },
-    {
-      "epoch": 1.01,
-      "learning_rate": 0.00014735073511955453,
-      "loss": 0.0336,
-      "step": 66000
-    },
-    {
-      "epoch": 1.02,
-      "learning_rate": 0.00014728613351804604,
-      "loss": 0.0336,
-      "step": 66500
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 0.00014722076874656214,
-      "loss": 0.0335,
-      "step": 67000
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 0.00014715464151992148,
-      "loss": 0.0335,
-      "step": 67500
-    },
-    {
-      "epoch": 1.04,
-      "learning_rate": 0.0001470877525612808,
-      "loss": 0.0334,
-      "step": 68000
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 0.00014702010260212708,
-      "loss": 0.0334,
-      "step": 68500
-    },
-    {
-      "epoch": 1.06,
-      "learning_rate": 0.0001469516923822694,
-      "loss": 0.0333,
-      "step": 69000
-    },
-    {
-      "epoch": 1.06,
-      "learning_rate": 0.00014688252264983097,
-      "loss": 0.0333,
-      "step": 69500
-    },
-    {
-      "epoch": 1.07,
-      "learning_rate": 0.00014681259416124092,
-      "loss": 0.0332,
-      "step": 70000
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 0.00014674190768122595,
-      "loss": 0.0332,
-      "step": 70500
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 0.00014667046398280213,
-      "loss": 0.0331,
-      "step": 71000
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 0.0001465982638472663,
-      "loss": 0.0331,
-      "step": 71500
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 0.00014652530806418755,
-      "loss": 0.033,
-      "step": 72000
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 0.00014645159743139862,
-      "loss": 0.033,
-      "step": 72500
-    },
-    {
-      "epoch": 1.12,
-      "learning_rate": 0.0001463771327549872,
-      "loss": 0.033,
-      "step": 73000
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 0.00014630191484928709,
-      "loss": 0.0329,
-      "step": 73500
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 0.00014622594453686923,
-      "loss": 0.0329,
-      "step": 74000
-    },
-    {
-      "epoch": 1.14,
-      "learning_rate": 0.00014614922264853276,
-      "loss": 0.0328,
-      "step": 74500
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 0.000146071750023296,
-      "loss": 0.0328,
-      "step": 75000
-    },
-    {
-      "epoch": 1.16,
-      "learning_rate": 0.00014599352750838715,
-      "loss": 0.0327,
-      "step": 75500
-    },
-    {
-      "epoch": 1.16,
-      "learning_rate": 0.0001459145559592351,
-      "loss": 0.0327,
-      "step": 76000
-    },
-    {
-      "epoch": 1.17,
-      "learning_rate": 0.00014583483623946004,
-      "loss": 0.0326,
-      "step": 76500
-    },
-    {
-      "epoch": 1.18,
-      "learning_rate": 0.00014575436922086412,
-      "loss": 0.0326,
-      "step": 77000
-    },
-    {
-      "epoch": 1.19,
-      "learning_rate": 0.00014567315578342167,
-      "loss": 0.0325,
-      "step": 77500
-    },
-    {
-      "epoch": 1.19,
-      "learning_rate": 0.0001455911968152699,
-      "loss": 0.0325,
-      "step": 78000
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 0.00014550849321269896,
-      "loss": 0.0324,
-      "step": 78500
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 0.0001454250458801421,
-      "loss": 0.0323,
-      "step": 79000
-    },
-    {
-      "epoch": 1.22,
-      "learning_rate": 0.00014534085573016613,
-      "loss": 0.0323,
-      "step": 79500
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 0.0001452559236834609,
-      "loss": 0.0323,
-      "step": 80000
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 0.00014517025066882974,
-      "loss": 0.0322,
-      "step": 80500
-    },
-    {
-      "epoch": 1.24,
-      "learning_rate": 0.00014508383762317902,
-      "loss": 0.0321,
-      "step": 81000
-    },
-    {
-      "epoch": 1.25,
-      "learning_rate": 0.00014499668549150792,
-      "loss": 0.0321,
-      "step": 81500
-    },
-    {
-      "epoch": 1.26,
-      "learning_rate": 0.0001449087952268982,
-      "loss": 0.0321,
-      "step": 82000
-    },
-    {
-      "epoch": 1.26,
-      "learning_rate": 0.00014482016779050375,
-      "loss": 0.032,
-      "step": 82500
-    },
-    {
-      "epoch": 1.27,
-      "learning_rate": 0.00014473080415153999,
-      "loss": 0.032,
-      "step": 83000
-    },
-    {
-      "epoch": 1.28,
-      "learning_rate": 0.00014464070528727332,
-      "loss": 0.0319,
-      "step": 83500
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 0.00014454987218301055,
-      "loss": 0.0319,
-      "step": 84000
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 0.00014445830583208793,
-      "loss": 0.0318,
-      "step": 84500
-    },
-    {
-      "epoch": 1.3,
-      "learning_rate": 0.00014436600723586037,
-      "loss": 0.0318,
-      "step": 85000
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.0001442729774036906,
-      "loss": 0.0317,
-      "step": 85500
-    },
-    {
-      "epoch": 1.32,
-      "learning_rate": 0.0001441792173529379,
-      "loss": 0.0317,
-      "step": 86000
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 0.00014408472810894718,
-      "loss": 0.0316,
-      "step": 86500
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 0.00014398951070503766,
-      "loss": 0.0315,
-      "step": 87000
-    },
-    {
-      "epoch": 1.34,
-      "learning_rate": 0.00014389356618249165,
-      "loss": 0.0314,
-      "step": 87500
-    },
-    {
-      "epoch": 1.35,
-      "learning_rate": 0.00014379689559054304,
-      "loss": 0.0312,
-      "step": 88000
-    },
-    {
-      "epoch": 1.36,
-      "learning_rate": 0.000143699499986366,
-      "loss": 0.0311,
-      "step": 88500
-    },
-    {
-      "epoch": 1.36,
-      "learning_rate": 0.00014360138043506318,
-      "loss": 0.031,
-      "step": 89000
-    },
-    {
-      "epoch": 1.37,
-      "learning_rate": 0.0001435025380096543,
-      "loss": 0.031,
-      "step": 89500
-    },
-    {
-      "epoch": 1.38,
-      "learning_rate": 0.00014340297379106427,
-      "loss": 0.031,
-      "step": 90000
-    },
-    {
-      "epoch": 1.39,
-      "learning_rate": 0.00014330268886811147,
-      "loss": 0.0309,
-      "step": 90500
-    },
-    {
-      "epoch": 1.39,
-      "learning_rate": 0.00014320168433749572,
-      "loss": 0.0308,
-      "step": 91000
-    },
-    {
-      "epoch": 1.4,
-      "learning_rate": 0.0001430999613037864,
-      "loss": 0.0308,
-      "step": 91500
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 0.0001429975208794103,
-      "loss": 0.0308,
-      "step": 92000
-    },
-    {
-      "epoch": 1.42,
-      "learning_rate": 0.00014289436418463952,
-      "loss": 0.0307,
-      "step": 92500
-    },
-    {
-      "epoch": 1.42,
-      "learning_rate": 0.0001427904923475791,
-      "loss": 0.0307,
-      "step": 93000
-    },
-    {
-      "epoch": 1.43,
-      "learning_rate": 0.00014268590650415482,
-      "loss": 0.0306,
-      "step": 93500
-    },
-    {
-      "epoch": 1.44,
-      "learning_rate": 0.0001425806077981007,
-      "loss": 0.0306,
-      "step": 94000
-    },
-    {
-      "epoch": 1.45,
-      "learning_rate": 0.0001424745973809466,
-      "loss": 0.0305,
-      "step": 94500
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 0.00014236787641200535,
-      "loss": 0.0305,
-      "step": 95000
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 0.0001422604460583604,
-      "loss": 0.0304,
-      "step": 95500
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 0.00014215230749485292,
-      "loss": 0.0304,
-      "step": 96000
-    },
-    {
-      "epoch": 1.48,
-      "learning_rate": 0.00014204346190406888,
-      "loss": 0.0303,
-      "step": 96500
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 0.00014193391047632623,
-      "loss": 0.0303,
-      "step": 97000
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 0.00014182365440966184,
-      "loss": 0.0303,
-      "step": 97500
-    },
-    {
-      "epoch": 1.5,
-      "learning_rate": 0.00014171269490981838,
-      "loss": 0.0302,
-      "step": 98000
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 0.0001416010331902312,
-      "loss": 0.0302,
-      "step": 98500
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 0.00014148867047201493,
-      "loss": 0.0302,
-      "step": 99000
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 0.00014137560798395025,
-      "loss": 0.0301,
-      "step": 99500
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 0.00014126184696247043,
-      "loss": 0.0301,
-      "step": 100000
-    },
-    {
-      "epoch": 1.54,
-      "learning_rate": 0.0001411473886516478,
-      "loss": 0.03,
-      "step": 100500
-    },
-    {
-      "epoch": 1.55,
-      "learning_rate": 0.0001410322343031801,
-      "loss": 0.03,
-      "step": 101000
-    },
-    {
-      "epoch": 1.55,
-      "learning_rate": 0.00014091638517637681,
-      "loss": 0.03,
-      "step": 101500
-    },
-    {
-      "epoch": 1.56,
-      "learning_rate": 0.00014079984253814544,
-      "loss": 0.03,
-      "step": 102000
-    },
-    {
-      "epoch": 1.57,
-      "learning_rate": 0.00014068260766297757,
-      "loss": 0.0299,
-      "step": 102500
-    },
-    {
-      "epoch": 1.58,
-      "learning_rate": 0.00014056468183293511,
-      "loss": 0.0299,
-      "step": 103000
-    },
-    {
-      "epoch": 1.59,
-      "learning_rate": 0.00014044606633763592,
-      "loss": 0.0298,
-      "step": 103500
-    },
-    {
-      "epoch": 1.59,
-      "learning_rate": 0.00014032676247424016,
-      "loss": 0.0298,
-      "step": 104000
-    },
-    {
-      "epoch": 1.6,
-      "learning_rate": 0.00014020677154743567,
-      "loss": 0.0298,
-      "step": 104500
-    },
-    {
-      "epoch": 1.61,
-      "learning_rate": 0.0001400860948694241,
-      "loss": 0.0298,
-      "step": 105000
-    },
-    {
-      "epoch": 1.62,
-      "learning_rate": 0.0001399647337599062,
-      "loss": 0.0297,
-      "step": 105500
-    },
-    {
-      "epoch": 1.62,
-      "learning_rate": 0.00013984268954606762,
-      "loss": 0.0297,
-      "step": 106000
-    },
-    {
-      "epoch": 1.63,
-      "learning_rate": 0.00013971996356256435,
-      "loss": 0.0297,
-      "step": 106500
-    },
-    {
-      "epoch": 1.64,
-      "learning_rate": 0.0001395965571515081,
-      "loss": 0.0296,
-      "step": 107000
-    },
-    {
-      "epoch": 1.65,
-      "learning_rate": 0.00013947247166245158,
-      "loss": 0.0296,
-      "step": 107500
-    },
-    {
-      "epoch": 1.65,
-      "learning_rate": 0.0001393477084523738,
-      "loss": 0.0296,
-      "step": 108000
-    },
-    {
-      "epoch": 1.66,
-      "learning_rate": 0.0001392222688856653,
-      "loss": 0.0296,
-      "step": 108500
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 0.00013909615433411305,
-      "loss": 0.0295,
-      "step": 109000
-    },
-    {
-      "epoch": 1.68,
-      "learning_rate": 0.00013896936617688554,
-      "loss": 0.0295,
-      "step": 109500
-    },
-    {
-      "epoch": 1.69,
-      "learning_rate": 0.0001388419058005178,
-      "loss": 0.0294,
-      "step": 110000
-    },
-    {
-      "epoch": 1.69,
-      "learning_rate": 0.0001387137745988961,
-      "loss": 0.0294,
-      "step": 110500
-    },
-    {
-      "epoch": 1.7,
-      "learning_rate": 0.00013858497397324266,
-      "loss": 0.0294,
-      "step": 111000
-    },
-    {
-      "epoch": 1.71,
-      "learning_rate": 0.00013845550533210052,
-      "loss": 0.0293,
-      "step": 111500
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 0.00013832537009131804,
-      "loss": 0.0293,
-      "step": 112000
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 0.0001381945696740333,
-      "loss": 0.0293,
-      "step": 112500
-    },
-    {
-      "epoch": 1.73,
-      "learning_rate": 0.00013806310551065876,
-      "loss": 0.0293,
-      "step": 113000
-    },
-    {
-      "epoch": 1.74,
-      "learning_rate": 0.00013793097903886542,
-      "loss": 0.0293,
-      "step": 113500
-    },
-    {
-      "epoch": 1.75,
-      "learning_rate": 0.00013779819170356718,
-      "loss": 0.0292,
-      "step": 114000
-    },
-    {
-      "epoch": 1.75,
-      "learning_rate": 0.00013766474495690513,
-      "loss": 0.0292,
-      "step": 114500
-    },
-    {
-      "epoch": 1.76,
-      "learning_rate": 0.00013753064025823143,
-      "loss": 0.0291,
-      "step": 115000
-    },
-    {
-      "epoch": 1.77,
-      "learning_rate": 0.00013739587907409366,
-      "loss": 0.0291,
-      "step": 115500
-    },
-    {
-      "epoch": 1.78,
-      "learning_rate": 0.0001372604628782185,
-      "loss": 0.0291,
-      "step": 116000
-    },
-    {
-      "epoch": 1.78,
-      "learning_rate": 0.00013712439315149579,
-      "loss": 0.0291,
-      "step": 116500
-    },
-    {
-      "epoch": 1.79,
-      "learning_rate": 0.0001369876713819622,
-      "loss": 0.029,
-      "step": 117000
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 0.0001368502990647852,
-      "loss": 0.0291,
-      "step": 117500
-    },
-    {
-      "epoch": 1.81,
-      "learning_rate": 0.00013671227770224636,
-      "loss": 0.029,
-      "step": 118000
-    },
-    {
-      "epoch": 1.82,
-      "learning_rate": 0.0001365736088037252,
-      "loss": 0.029,
-      "step": 118500
-    },
-    {
-      "epoch": 1.82,
-      "learning_rate": 0.00013643429388568264,
-      "loss": 0.029,
-      "step": 119000
-    },
-    {
-      "epoch": 1.83,
-      "learning_rate": 0.0001362943344716442,
-      "loss": 0.0289,
-      "step": 119500
-    },
-    {
-      "epoch": 1.84,
-      "learning_rate": 0.0001361537320921837,
-      "loss": 0.0289,
-      "step": 120000
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 0.00013601248828490616,
-      "loss": 0.0289,
-      "step": 120500
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 0.0001358706045944313,
-      "loss": 0.0289,
-      "step": 121000
-    },
-    {
-      "epoch": 1.86,
-      "learning_rate": 0.00013572808257237637,
-      "loss": 0.0289,
-      "step": 121500
-    },
-    {
-      "epoch": 1.87,
-      "learning_rate": 0.0001355849237773394,
-      "loss": 0.0288,
-      "step": 122000
-    },
-    {
-      "epoch": 1.88,
-      "learning_rate": 0.00013544112977488204,
-      "loss": 0.0288,
-      "step": 122500
-    },
-    {
-      "epoch": 1.88,
-      "learning_rate": 0.00013529670213751244,
-      "loss": 0.0288,
-      "step": 123000
-    },
-    {
-      "epoch": 1.89,
-      "learning_rate": 0.00013515164244466812,
-      "loss": 0.0287,
-      "step": 123500
-    },
-    {
-      "epoch": 1.9,
-      "learning_rate": 0.00013500595228269863,
-      "loss": 0.0287,
-      "step": 124000
-    },
-    {
-      "epoch": 1.91,
-      "learning_rate": 0.00013485963324484825,
-      "loss": 0.0287,
-      "step": 124500
-    },
-    {
-      "epoch": 1.91,
-      "learning_rate": 0.00013471268693123853,
-      "loss": 0.0287,
-      "step": 125000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 8,
-  "total_flos": 1.996802604193089e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.07659607062157711,
+  "global_step": 5000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.01,
+      "learning_rate": 3.0000000000000004e-07,
+      "loss": 0.8817,
       "step": 500
     },
     {
       "epoch": 0.02,
+      "learning_rate": 6.000000000000001e-07,
+      "loss": 0.7274,
       "step": 1000
     },
     {
       "epoch": 0.02,
+      "learning_rate": 9e-07,
+      "loss": 0.5446,
       "step": 1500
     },
     {
       "epoch": 0.03,
+      "learning_rate": 1.2000000000000002e-06,
+      "loss": 0.3974,
       "step": 2000
     },
     {
       "epoch": 0.04,
+      "learning_rate": 1.5e-06,
+      "loss": 0.2731,
       "step": 2500
     },
     {
       "epoch": 0.05,
+      "learning_rate": 1.8e-06,
+      "loss": 0.1759,
       "step": 3000
     },
     {
       "epoch": 0.05,
+      "learning_rate": 2.1000000000000002e-06,
+      "loss": 0.112,
       "step": 3500
     },
     {
       "epoch": 0.06,
+      "learning_rate": 2.4000000000000003e-06,
+      "loss": 0.0785,
       "step": 4000
     },
     {
       "epoch": 0.07,
+      "learning_rate": 2.7e-06,
+      "loss": 0.0652,
       "step": 4500
     },
     {
       "epoch": 0.08,
+      "learning_rate": 3e-06,
+      "loss": 0.0614,
       "step": 5000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 8,
+  "total_flos": 7.9871784693625e+19,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05fc0c551198ca4907e70bb4b0044b0f6f08d72a20ab8c2f1ed25d998371c8a9
 size 3247

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab366a33e91138d5d6c5aa5a082b4d18493ea68b9488d5d44ed4bcabf1978754
 size 3247

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01986e29e7b00ff5ed5012297e50124030c090218d489d0fb41425e1a13097b1
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:e31313ef25632d40f04a4d20bebc02ef847b472d4200e8e9085e3e9835ffafaa
 size 102501541

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05fc0c551198ca4907e70bb4b0044b0f6f08d72a20ab8c2f1ed25d998371c8a9
 size 3247

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab366a33e91138d5d6c5aa5a082b4d18493ea68b9488d5d44ed4bcabf1978754
 size 3247