Training in progress, step 100

Browse files

Files changed (12) hide show

all_results.json +14 -14
eval_results.json +5 -5
pytorch_model.bin +2 -2
runs/Feb01_01-06-33_node1/events.out.tfevents.1643648939.node1 +2 -2
runs/Feb01_01-06-33_node1/events.out.tfevents.1643650886.node1 +3 -0
runs/Feb02_15-36-39_node1/1643787479.5351586/events.out.tfevents.1643787479.node1 +3 -0
runs/Feb02_15-36-39_node1/events.out.tfevents.1643787479.node1 +3 -0
test_results.json +5 -5
train_results.json +4 -4
trainer_state.json +515 -68
training_args.bin +1 -1
training_config.json +1 -1

all_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
     "epoch": 20.0,
-    "eval_average_metrics": 52.55846445665645,
-    "eval_loss": 0.22525694966316223,
-    "eval_matthews_correlation": 52.55846445665645,
-    "eval_runtime": 1.2083,
-    "eval_samples_per_second": 431.173,
-    "test_average_metrics": 63.756766360647745,
-    "test_loss": 0.18106061220169067,
-    "test_matthews_correlation": 63.756766360647745,
-    "test_runtime": 1.2266,
-    "test_samples_per_second": 425.574,
-    "train_loss": 0.5282898814179177,
-    "train_runtime": 422.8779,
     "train_samples": 8551,
-    "train_samples_per_second": 404.419,
-    "train_steps_per_second": 4.067
 }

 {
     "epoch": 20.0,
+    "eval_average_metrics": 57.44529093644265,
+    "eval_loss": 0.3295034170150757,
+    "eval_matthews_correlation": 57.44529093644265,
+    "eval_runtime": 2.7455,
+    "eval_samples_per_second": 189.766,
+    "test_average_metrics": 65.53508820181627,
+    "test_loss": 0.24821974337100983,
+    "test_matthews_correlation": 65.53508820181627,
+    "test_runtime": 2.6525,
+    "test_samples_per_second": 196.792,
+    "train_loss": 0.09369400846424387,
+    "train_runtime": 1943.2968,
     "train_samples": 8551,
+    "train_samples_per_second": 88.005,
+    "train_steps_per_second": 2.758
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "eval_average_metrics": 52.55846445665645,
-    "eval_loss": 0.22525694966316223,
-    "eval_matthews_correlation": 52.55846445665645,
-    "eval_runtime": 1.2083,
-    "eval_samples_per_second": 431.173
 }

 {
     "epoch": 20.0,
+    "eval_average_metrics": 57.44529093644265,
+    "eval_loss": 0.3295034170150757,
+    "eval_matthews_correlation": 57.44529093644265,
+    "eval_runtime": 2.7455,
+    "eval_samples_per_second": 189.766
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0945f3c7aad759762b12203d23323095284cacf37863e0ea080e92333f926d39
-size 7551621

 version https://git-lfs.github.com/spec/v1
+oid sha256:55c80c3cf471635d74443ea6f3989a98b7640648f068de82d53caf6e65e6b772
+size 2631685

runs/Feb01_01-06-33_node1/events.out.tfevents.1643648939.node1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6497074669eaf43c586790e38f6fbdba6469f77b06e7337d674f8b74a7d00b01
-size 23566

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2e5a7775376dbec22edf7715a8df6b877218c8b93cbdf239f1ca0821de5667d
+size 23920

runs/Feb01_01-06-33_node1/events.out.tfevents.1643650886.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:360bcc40e8b81309f4a524d56f4c1824af07ccc8eb2bfda2b8aff5195e596b76
+size 708

runs/Feb02_15-36-39_node1/1643787479.5351586/events.out.tfevents.1643787479.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f01b12cbd7b221739abbd656e79c42a0da8fde74270e69eb10af5e0450c26ec
+size 5011

runs/Feb02_15-36-39_node1/events.out.tfevents.1643787479.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:749050a816da65523dd286152d5851cb67bfffe5834292afbd924e4c3d75b498
+size 4300

test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "test_average_metrics": 63.756766360647745,
-    "test_loss": 0.18106061220169067,
-    "test_matthews_correlation": 63.756766360647745,
-    "test_runtime": 1.2266,
-    "test_samples_per_second": 425.574
 }

 {
     "epoch": 20.0,
+    "test_average_metrics": 65.53508820181627,
+    "test_loss": 0.24821974337100983,
+    "test_matthews_correlation": 65.53508820181627,
+    "test_runtime": 2.6525,
+    "test_samples_per_second": 196.792
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "train_loss": 0.5282898814179177,
-    "train_runtime": 422.8779,
     "train_samples": 8551,
-    "train_samples_per_second": 404.419,
-    "train_steps_per_second": 4.067
 }

 {
     "epoch": 20.0,
+    "train_loss": 0.09369400846424387,
+    "train_runtime": 1943.2968,
     "train_samples": 8551,
+    "train_samples_per_second": 88.005,
+    "train_steps_per_second": 2.758
 }

trainer_state.json CHANGED Viewed

@@ -1,115 +1,562 @@
 {
-  "best_metric": 52.55846445665645,
-  "best_model_checkpoint": "outputs/bitfit/t5-base/cola/checkpoint-800",
   "epoch": 20.0,
-  "global_step": 1720,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 2.33,
-      "eval_average_metrics": 21.053609210794303,
-      "eval_loss": 0.2652588486671448,
-      "eval_matthews_correlation": 21.053609210794303,
-      "eval_runtime": 0.8287,
-      "eval_samples_per_second": 628.717,
       "step": 200
     },
     {
-      "epoch": 4.65,
-      "eval_average_metrics": 44.5285953164197,
-      "eval_loss": 0.23253390192985535,
-      "eval_matthews_correlation": 44.5285953164197,
-      "eval_runtime": 0.8258,
-      "eval_samples_per_second": 630.924,
       "step": 400
     },
     {
-      "epoch": 5.81,
-      "learning_rate": 0.0003,
-      "loss": 1.3817,
       "step": 500
     },
     {
-      "epoch": 6.98,
-      "eval_average_metrics": 47.511676688521085,
-      "eval_loss": 0.25159838795661926,
-      "eval_matthews_correlation": 47.511676688521085,
-      "eval_runtime": 0.8388,
-      "eval_samples_per_second": 621.09,
       "step": 600
     },
     {
-      "epoch": 9.3,
-      "eval_average_metrics": 52.55846445665645,
-      "eval_loss": 0.22525694966316223,
-      "eval_matthews_correlation": 52.55846445665645,
-      "eval_runtime": 1.5205,
-      "eval_samples_per_second": 342.658,
       "step": 800
     },
     {
-      "epoch": 11.63,
-      "learning_rate": 0.00017704918032786883,
-      "loss": 0.1859,
       "step": 1000
     },
     {
-      "epoch": 11.63,
-      "eval_average_metrics": 50.296653045050874,
-      "eval_loss": 0.23001490533351898,
-      "eval_matthews_correlation": 50.296653045050874,
-      "eval_runtime": 1.2989,
-      "eval_samples_per_second": 401.107,
       "step": 1000
     },
     {
-      "epoch": 13.95,
-      "eval_average_metrics": 51.11915736464516,
-      "eval_loss": 0.22642329335212708,
-      "eval_matthews_correlation": 51.11915736464516,
-      "eval_runtime": 1.2231,
-      "eval_samples_per_second": 425.968,
       "step": 1200
     },
     {
-      "epoch": 16.28,
-      "eval_average_metrics": 50.87277150375961,
-      "eval_loss": 0.22626039385795593,
-      "eval_matthews_correlation": 50.87277150375961,
-      "eval_runtime": 1.1916,
-      "eval_samples_per_second": 437.245,
       "step": 1400
     },
     {
-      "epoch": 17.44,
-      "learning_rate": 5.40983606557377e-05,
-      "loss": 0.1748,
       "step": 1500
     },
     {
-      "epoch": 18.6,
-      "eval_average_metrics": 52.035569173764515,
-      "eval_loss": 0.22766831517219543,
-      "eval_matthews_correlation": 52.035569173764515,
-      "eval_runtime": 1.2214,
-      "eval_samples_per_second": 426.575,
       "step": 1600
     },
     {
       "epoch": 20.0,
-      "step": 1720,
-      "total_flos": 6646762904679216.0,
-      "train_loss": 0.5282898814179177,
-      "train_runtime": 422.8779,
-      "train_samples_per_second": 404.419,
-      "train_steps_per_second": 4.067
     }
   ],
-  "max_steps": 1720,
   "num_train_epochs": 20,
-  "total_flos": 6646762904679216.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 57.44529093644265,
+  "best_model_checkpoint": "outputs/bitfit/t5-base/cola/checkpoint-4000",
   "epoch": 20.0,
+  "global_step": 5360,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.37,
+      "eval_average_metrics": 27.46135364047117,
+      "eval_loss": 0.3107774257659912,
+      "eval_matthews_correlation": 27.46135364047117,
+      "eval_runtime": 2.9522,
+      "eval_samples_per_second": 176.481,
+      "step": 100
+    },
+    {
+      "epoch": 0.75,
+      "eval_average_metrics": 43.62200421342928,
+      "eval_loss": 0.2646695375442505,
+      "eval_matthews_correlation": 43.62200421342928,
+      "eval_runtime": 3.3847,
+      "eval_samples_per_second": 153.928,
       "step": 200
     },
     {
+      "epoch": 1.12,
+      "eval_average_metrics": 51.31099678726934,
+      "eval_loss": 0.2175331562757492,
+      "eval_matthews_correlation": 51.31099678726934,
+      "eval_runtime": 2.9782,
+      "eval_samples_per_second": 174.94,
+      "step": 300
+    },
+    {
+      "epoch": 1.49,
+      "eval_average_metrics": 42.848826643479434,
+      "eval_loss": 0.2941688299179077,
+      "eval_matthews_correlation": 42.848826643479434,
+      "eval_runtime": 2.9687,
+      "eval_samples_per_second": 175.497,
       "step": 400
     },
     {
+      "epoch": 1.87,
+      "learning_rate": 0.0002720149253731343,
+      "loss": 0.2517,
+      "step": 500
+    },
+    {
+      "epoch": 1.87,
+      "eval_average_metrics": 50.68713663164287,
+      "eval_loss": 0.21350961923599243,
+      "eval_matthews_correlation": 50.68713663164287,
+      "eval_runtime": 3.4719,
+      "eval_samples_per_second": 150.063,
       "step": 500
     },
     {
+      "epoch": 2.24,
+      "eval_average_metrics": 54.06763660847515,
+      "eval_loss": 0.2589772045612335,
+      "eval_matthews_correlation": 54.06763660847515,
+      "eval_runtime": 3.055,
+      "eval_samples_per_second": 170.539,
       "step": 600
     },
     {
+      "epoch": 2.61,
+      "eval_average_metrics": 54.418704464065094,
+      "eval_loss": 0.2500777244567871,
+      "eval_matthews_correlation": 54.418704464065094,
+      "eval_runtime": 2.2921,
+      "eval_samples_per_second": 227.305,
+      "step": 700
+    },
+    {
+      "epoch": 2.99,
+      "eval_average_metrics": 44.23948334299169,
+      "eval_loss": 0.27688324451446533,
+      "eval_matthews_correlation": 44.23948334299169,
+      "eval_runtime": 3.2049,
+      "eval_samples_per_second": 162.565,
       "step": 800
     },
     {
+      "epoch": 3.36,
+      "eval_average_metrics": 55.40444800370546,
+      "eval_loss": 0.22049109637737274,
+      "eval_matthews_correlation": 55.40444800370546,
+      "eval_runtime": 2.8578,
+      "eval_samples_per_second": 182.307,
+      "step": 900
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 0.00024402985074626864,
+      "loss": 0.1579,
       "step": 1000
     },
     {
+      "epoch": 3.73,
+      "eval_average_metrics": 55.43262482569132,
+      "eval_loss": 0.21021293103694916,
+      "eval_matthews_correlation": 55.43262482569132,
+      "eval_runtime": 2.1787,
+      "eval_samples_per_second": 239.129,
       "step": 1000
     },
     {
+      "epoch": 4.1,
+      "eval_average_metrics": 53.94791613066161,
+      "eval_loss": 0.29473602771759033,
+      "eval_matthews_correlation": 53.94791613066161,
+      "eval_runtime": 2.097,
+      "eval_samples_per_second": 248.449,
+      "step": 1100
+    },
+    {
+      "epoch": 4.48,
+      "eval_average_metrics": 54.06763660847515,
+      "eval_loss": 0.29593780636787415,
+      "eval_matthews_correlation": 54.06763660847515,
+      "eval_runtime": 3.848,
+      "eval_samples_per_second": 135.396,
       "step": 1200
     },
     {
+      "epoch": 4.85,
+      "eval_average_metrics": 53.83714743780037,
+      "eval_loss": 0.20928645133972168,
+      "eval_matthews_correlation": 53.83714743780037,
+      "eval_runtime": 3.5965,
+      "eval_samples_per_second": 144.863,
+      "step": 1300
+    },
+    {
+      "epoch": 5.22,
+      "eval_average_metrics": 56.53240387686201,
+      "eval_loss": 0.20188479125499725,
+      "eval_matthews_correlation": 56.53240387686201,
+      "eval_runtime": 3.5287,
+      "eval_samples_per_second": 147.648,
       "step": 1400
     },
     {
+      "epoch": 5.6,
+      "learning_rate": 0.00021604477611940296,
+      "loss": 0.1323,
+      "step": 1500
+    },
+    {
+      "epoch": 5.6,
+      "eval_average_metrics": 51.82186256208148,
+      "eval_loss": 0.2522253096103668,
+      "eval_matthews_correlation": 51.82186256208148,
+      "eval_runtime": 3.8704,
+      "eval_samples_per_second": 134.61,
       "step": 1500
     },
     {
+      "epoch": 5.97,
+      "eval_average_metrics": 50.583530922188714,
+      "eval_loss": 0.2909224331378937,
+      "eval_matthews_correlation": 50.583530922188714,
+      "eval_runtime": 3.3986,
+      "eval_samples_per_second": 153.3,
       "step": 1600
     },
+    {
+      "epoch": 6.34,
+      "eval_average_metrics": 54.97554166332294,
+      "eval_loss": 0.2564501464366913,
+      "eval_matthews_correlation": 54.97554166332294,
+      "eval_runtime": 2.9165,
+      "eval_samples_per_second": 178.641,
+      "step": 1700
+    },
+    {
+      "epoch": 6.72,
+      "eval_average_metrics": 55.88010902837207,
+      "eval_loss": 0.2708810269832611,
+      "eval_matthews_correlation": 55.88010902837207,
+      "eval_runtime": 3.5399,
+      "eval_samples_per_second": 147.178,
+      "step": 1800
+    },
+    {
+      "epoch": 7.09,
+      "eval_average_metrics": 55.50804902976887,
+      "eval_loss": 0.22388166189193726,
+      "eval_matthews_correlation": 55.50804902976887,
+      "eval_runtime": 3.2756,
+      "eval_samples_per_second": 159.054,
+      "step": 1900
+    },
+    {
+      "epoch": 7.46,
+      "learning_rate": 0.0001880597014925373,
+      "loss": 0.1072,
+      "step": 2000
+    },
+    {
+      "epoch": 7.46,
+      "eval_average_metrics": 53.431088355542556,
+      "eval_loss": 0.29746949672698975,
+      "eval_matthews_correlation": 53.431088355542556,
+      "eval_runtime": 3.5394,
+      "eval_samples_per_second": 147.2,
+      "step": 2000
+    },
+    {
+      "epoch": 7.84,
+      "eval_average_metrics": 52.16870923231859,
+      "eval_loss": 0.2395256757736206,
+      "eval_matthews_correlation": 52.16870923231859,
+      "eval_runtime": 3.8667,
+      "eval_samples_per_second": 134.741,
+      "step": 2100
+    },
+    {
+      "epoch": 8.21,
+      "eval_average_metrics": 52.805058715954964,
+      "eval_loss": 0.26214492321014404,
+      "eval_matthews_correlation": 52.805058715954964,
+      "eval_runtime": 3.163,
+      "eval_samples_per_second": 164.718,
+      "step": 2200
+    },
+    {
+      "epoch": 8.58,
+      "eval_average_metrics": 54.89797128262298,
+      "eval_loss": 0.27266305685043335,
+      "eval_matthews_correlation": 54.89797128262298,
+      "eval_runtime": 3.2482,
+      "eval_samples_per_second": 160.398,
+      "step": 2300
+    },
+    {
+      "epoch": 8.96,
+      "eval_average_metrics": 57.042628378400074,
+      "eval_loss": 0.24082112312316895,
+      "eval_matthews_correlation": 57.042628378400074,
+      "eval_runtime": 3.4083,
+      "eval_samples_per_second": 152.861,
+      "step": 2400
+    },
+    {
+      "epoch": 9.33,
+      "learning_rate": 0.00016007462686567163,
+      "loss": 0.0851,
+      "step": 2500
+    },
+    {
+      "epoch": 9.33,
+      "eval_average_metrics": 55.361147823719584,
+      "eval_loss": 0.33417803049087524,
+      "eval_matthews_correlation": 55.361147823719584,
+      "eval_runtime": 3.5689,
+      "eval_samples_per_second": 145.983,
+      "step": 2500
+    },
+    {
+      "epoch": 9.7,
+      "eval_average_metrics": 55.361147823719584,
+      "eval_loss": 0.28497520089149475,
+      "eval_matthews_correlation": 55.361147823719584,
+      "eval_runtime": 3.5734,
+      "eval_samples_per_second": 145.799,
+      "step": 2600
+    },
+    {
+      "epoch": 10.07,
+      "eval_average_metrics": 57.398346484757035,
+      "eval_loss": 0.30509620904922485,
+      "eval_matthews_correlation": 57.398346484757035,
+      "eval_runtime": 3.4023,
+      "eval_samples_per_second": 153.13,
+      "step": 2700
+    },
+    {
+      "epoch": 10.45,
+      "eval_average_metrics": 52.283190960824186,
+      "eval_loss": 0.36139407753944397,
+      "eval_matthews_correlation": 52.283190960824186,
+      "eval_runtime": 2.5435,
+      "eval_samples_per_second": 204.835,
+      "step": 2800
+    },
+    {
+      "epoch": 10.82,
+      "eval_average_metrics": 53.35094771244464,
+      "eval_loss": 0.295946329832077,
+      "eval_matthews_correlation": 53.35094771244464,
+      "eval_runtime": 3.7591,
+      "eval_samples_per_second": 138.596,
+      "step": 2900
+    },
+    {
+      "epoch": 11.19,
+      "learning_rate": 0.00013208955223880596,
+      "loss": 0.0698,
+      "step": 3000
+    },
+    {
+      "epoch": 11.19,
+      "eval_average_metrics": 51.86777415841536,
+      "eval_loss": 0.3895832896232605,
+      "eval_matthews_correlation": 51.86777415841536,
+      "eval_runtime": 3.4344,
+      "eval_samples_per_second": 151.698,
+      "step": 3000
+    },
+    {
+      "epoch": 11.57,
+      "eval_average_metrics": 55.87264481190009,
+      "eval_loss": 0.29485803842544556,
+      "eval_matthews_correlation": 55.87264481190009,
+      "eval_runtime": 2.9553,
+      "eval_samples_per_second": 176.296,
+      "step": 3100
+    },
+    {
+      "epoch": 11.94,
+      "eval_average_metrics": 54.38420414410802,
+      "eval_loss": 0.3401205539703369,
+      "eval_matthews_correlation": 54.38420414410802,
+      "eval_runtime": 3.2955,
+      "eval_samples_per_second": 158.095,
+      "step": 3200
+    },
+    {
+      "epoch": 12.31,
+      "eval_average_metrics": 55.92006900638419,
+      "eval_loss": 0.339764803647995,
+      "eval_matthews_correlation": 55.92006900638419,
+      "eval_runtime": 3.7048,
+      "eval_samples_per_second": 140.627,
+      "step": 3300
+    },
+    {
+      "epoch": 12.69,
+      "eval_average_metrics": 56.456262266607325,
+      "eval_loss": 0.3011990487575531,
+      "eval_matthews_correlation": 56.456262266607325,
+      "eval_runtime": 3.3867,
+      "eval_samples_per_second": 153.835,
+      "step": 3400
+    },
+    {
+      "epoch": 13.06,
+      "learning_rate": 0.00010410447761194029,
+      "loss": 0.0584,
+      "step": 3500
+    },
+    {
+      "epoch": 13.06,
+      "eval_average_metrics": 52.86688288819721,
+      "eval_loss": 0.3278854191303253,
+      "eval_matthews_correlation": 52.86688288819721,
+      "eval_runtime": 3.5162,
+      "eval_samples_per_second": 148.171,
+      "step": 3500
+    },
+    {
+      "epoch": 13.43,
+      "eval_average_metrics": 54.85489612485023,
+      "eval_loss": 0.35325002670288086,
+      "eval_matthews_correlation": 54.85489612485023,
+      "eval_runtime": 2.3667,
+      "eval_samples_per_second": 220.136,
+      "step": 3600
+    },
+    {
+      "epoch": 13.81,
+      "eval_average_metrics": 53.48615572958882,
+      "eval_loss": 0.36301782727241516,
+      "eval_matthews_correlation": 53.48615572958882,
+      "eval_runtime": 2.5827,
+      "eval_samples_per_second": 201.728,
+      "step": 3700
+    },
+    {
+      "epoch": 14.18,
+      "eval_average_metrics": 56.389461061844216,
+      "eval_loss": 0.31869834661483765,
+      "eval_matthews_correlation": 56.389461061844216,
+      "eval_runtime": 3.4446,
+      "eval_samples_per_second": 151.25,
+      "step": 3800
+    },
+    {
+      "epoch": 14.55,
+      "eval_average_metrics": 55.92006900638419,
+      "eval_loss": 0.37227579951286316,
+      "eval_matthews_correlation": 55.92006900638419,
+      "eval_runtime": 3.5335,
+      "eval_samples_per_second": 147.446,
+      "step": 3900
+    },
+    {
+      "epoch": 14.93,
+      "learning_rate": 7.611940298507463e-05,
+      "loss": 0.0487,
+      "step": 4000
+    },
+    {
+      "epoch": 14.93,
+      "eval_average_metrics": 57.44529093644265,
+      "eval_loss": 0.3295034170150757,
+      "eval_matthews_correlation": 57.44529093644265,
+      "eval_runtime": 2.9916,
+      "eval_samples_per_second": 174.155,
+      "step": 4000
+    },
+    {
+      "epoch": 15.3,
+      "eval_average_metrics": 54.8564185833095,
+      "eval_loss": 0.3849255442619324,
+      "eval_matthews_correlation": 54.8564185833095,
+      "eval_runtime": 3.2493,
+      "eval_samples_per_second": 160.342,
+      "step": 4100
+    },
+    {
+      "epoch": 15.67,
+      "eval_average_metrics": 52.77755663379653,
+      "eval_loss": 0.37294790148735046,
+      "eval_matthews_correlation": 52.77755663379653,
+      "eval_runtime": 3.3801,
+      "eval_samples_per_second": 154.137,
+      "step": 4200
+    },
+    {
+      "epoch": 16.04,
+      "eval_average_metrics": 52.32534052948778,
+      "eval_loss": 0.36685994267463684,
+      "eval_matthews_correlation": 52.32534052948778,
+      "eval_runtime": 3.873,
+      "eval_samples_per_second": 134.522,
+      "step": 4300
+    },
+    {
+      "epoch": 16.42,
+      "eval_average_metrics": 54.437572540197074,
+      "eval_loss": 0.36487194895744324,
+      "eval_matthews_correlation": 54.437572540197074,
+      "eval_runtime": 3.2085,
+      "eval_samples_per_second": 162.381,
+      "step": 4400
+    },
+    {
+      "epoch": 16.79,
+      "learning_rate": 4.813432835820895e-05,
+      "loss": 0.0385,
+      "step": 4500
+    },
+    {
+      "epoch": 16.79,
+      "eval_average_metrics": 54.87289928629483,
+      "eval_loss": 0.38992583751678467,
+      "eval_matthews_correlation": 54.87289928629483,
+      "eval_runtime": 3.4485,
+      "eval_samples_per_second": 151.079,
+      "step": 4500
+    },
+    {
+      "epoch": 17.16,
+      "eval_average_metrics": 54.847754008390616,
+      "eval_loss": 0.38383200764656067,
+      "eval_matthews_correlation": 54.847754008390616,
+      "eval_runtime": 3.3769,
+      "eval_samples_per_second": 154.283,
+      "step": 4600
+    },
+    {
+      "epoch": 17.54,
+      "eval_average_metrics": 53.816197444380734,
+      "eval_loss": 0.37992334365844727,
+      "eval_matthews_correlation": 53.816197444380734,
+      "eval_runtime": 3.4693,
+      "eval_samples_per_second": 150.175,
+      "step": 4700
+    },
+    {
+      "epoch": 17.91,
+      "eval_average_metrics": 54.89061573818697,
+      "eval_loss": 0.3707120716571808,
+      "eval_matthews_correlation": 54.89061573818697,
+      "eval_runtime": 3.351,
+      "eval_samples_per_second": 155.474,
+      "step": 4800
+    },
+    {
+      "epoch": 18.28,
+      "eval_average_metrics": 53.8685492100217,
+      "eval_loss": 0.4207901954650879,
+      "eval_matthews_correlation": 53.8685492100217,
+      "eval_runtime": 3.7792,
+      "eval_samples_per_second": 137.86,
+      "step": 4900
+    },
+    {
+      "epoch": 18.66,
+      "learning_rate": 2.014925373134328e-05,
+      "loss": 0.0327,
+      "step": 5000
+    },
+    {
+      "epoch": 18.66,
+      "eval_average_metrics": 56.40477323211171,
+      "eval_loss": 0.4069698750972748,
+      "eval_matthews_correlation": 56.40477323211171,
+      "eval_runtime": 3.0613,
+      "eval_samples_per_second": 170.192,
+      "step": 5000
+    },
+    {
+      "epoch": 19.03,
+      "eval_average_metrics": 55.87248612624084,
+      "eval_loss": 0.38561907410621643,
+      "eval_matthews_correlation": 55.87248612624084,
+      "eval_runtime": 3.0206,
+      "eval_samples_per_second": 172.481,
+      "step": 5100
+    },
+    {
+      "epoch": 19.4,
+      "eval_average_metrics": 55.88027222130694,
+      "eval_loss": 0.3679342567920685,
+      "eval_matthews_correlation": 55.88027222130694,
+      "eval_runtime": 3.4222,
+      "eval_samples_per_second": 152.242,
+      "step": 5200
+    },
+    {
+      "epoch": 19.78,
+      "eval_average_metrics": 56.389461061844216,
+      "eval_loss": 0.38738054037094116,
+      "eval_matthews_correlation": 56.389461061844216,
+      "eval_runtime": 2.4581,
+      "eval_samples_per_second": 211.949,
+      "step": 5300
+    },
     {
       "epoch": 20.0,
+      "step": 5360,
+      "total_flos": 5846454037239552.0,
+      "train_loss": 0.09369400846424387,
+      "train_runtime": 1943.2968,
+      "train_samples_per_second": 88.005,
+      "train_steps_per_second": 2.758
     }
   ],
+  "max_steps": 5360,
   "num_train_epochs": 20,
+  "total_flos": 5846454037239552.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74f49ee56a79b35e01e6ec19b78d08fc0573bd2831cd5b548892c75c4c3fabf2
 size 3183

 version https://git-lfs.github.com/spec/v1
+oid sha256:9fc389561a9087ed9ef38e78165fe8b7afe4b52382655fc678f176c464c9a458
 size 3183

training_config.json CHANGED Viewed

@@ -1 +1 @@

- {"~~bottleneck_dim": 24, "~~dataset_config_name": ["en"], "delta_type": "~~adapter~~", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "cola", "eval_steps": 100, "evaluation_strategy": "steps", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "max_source_length": 128, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 20, "output_dir": "outputs/bitfit/t5-base/cola", "overwrite_output_dir": true, "per_device_eval_batch_size": 32, "per_device_train_batch_size": 32, "predict_with_generate": true, "push_to_hub": true, "save_steps": 100, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "cola", "test_dataset_config_name": ["en"], "test_dataset_name": "cola", "tokenizer_name": "../../../../plm_cache/t5-base", "unfrozen_modules": ["deltas", "layer_norm", "final_layer_norm"], "warmup_steps": 0}

+ {"dataset_config_name": ["en"], "delta_type": "lora", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "cola", "eval_steps": 100, "evaluation_strategy": "steps", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "lora_r": 8, "max_source_length": 128, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 20, "output_dir": "outputs/bitfit/t5-base/cola", "overwrite_output_dir": true, "per_device_eval_batch_size": 32, "per_device_train_batch_size": 32, "predict_with_generate": true, "push_to_hub": true, "save_steps": 100, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "cola", "test_dataset_config_name": ["en"], "test_dataset_name": "cola", "tokenizer_name": "../../../../plm_cache/t5-base", "unfrozen_modules": ["deltas", "layer_norm", "final_layer_norm"], "warmup_steps": 0}