Training in progress, step 100

Browse files

Files changed (12) hide show

all_results.json +14 -14
eval_results.json +5 -5
pytorch_model.bin +2 -2
runs/Feb01_06-49-55_node1/events.out.tfevents.1643669464.node1 +2 -2
runs/Feb01_06-49-55_node1/events.out.tfevents.1643670922.node1 +3 -0
runs/Feb02_18-14-58_node1/1643796963.6869369/events.out.tfevents.1643796963.node1 +3 -0
runs/Feb02_18-14-58_node1/events.out.tfevents.1643796963.node1 +3 -0
test_results.json +5 -5
train_results.json +4 -4
trainer_state.json +247 -94
training_args.bin +1 -1
training_config.json +1 -1

all_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 71.47335423197492,
-    "eval_average_metrics": 71.47335423197492,
-    "eval_loss": 0.2988086938858032,
-    "eval_runtime": 0.8126,
-    "eval_samples_per_second": 392.589,
-    "test_accuracy": 69.27899686520375,
-    "test_average_metrics": 69.27899686520375,
-    "test_loss": 0.2875460088253021,
-    "test_runtime": 0.8027,
-    "test_samples_per_second": 397.401,
-    "train_loss": 0.2150040188957663,
-    "train_runtime": 491.7183,
     "train_samples": 5428,
-    "train_samples_per_second": 220.777,
-    "train_steps_per_second": 6.915
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 70.84639498432603,
+    "eval_average_metrics": 70.84639498432603,
+    "eval_loss": 0.4690648913383484,
+    "eval_runtime": 1.8144,
+    "eval_samples_per_second": 175.82,
+    "test_accuracy": 67.7115987460815,
+    "test_average_metrics": 67.7115987460815,
+    "test_loss": 0.48792609572410583,
+    "test_runtime": 1.6468,
+    "test_samples_per_second": 193.706,
+    "train_loss": 0.0949506963000578,
+    "train_runtime": 1454.9221,
     "train_samples": 5428,
+    "train_samples_per_second": 74.616,
+    "train_steps_per_second": 2.337
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 71.47335423197492,
-    "eval_average_metrics": 71.47335423197492,
-    "eval_loss": 0.2988086938858032,
-    "eval_runtime": 0.8126,
-    "eval_samples_per_second": 392.589
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 70.84639498432603,
+    "eval_average_metrics": 70.84639498432603,
+    "eval_loss": 0.4690648913383484,
+    "eval_runtime": 1.8144,
+    "eval_samples_per_second": 175.82
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:966e269ab94880e5284fd75c374ebef3c43b7a3f2b868d2022d66e30f55a0efd
-size 7551621

 version https://git-lfs.github.com/spec/v1
+oid sha256:aff2614350b293dad2d6ae82715e397ab9ceb21b4b77949ae04ebcdf52c8b07f
+size 2631685

runs/Feb01_06-49-55_node1/events.out.tfevents.1643669464.node1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f31934e5a4b92c0f2192e2f975422c0b2c4f343f28522ecd9f507ca2d1bccbe0
-size 15567

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee5277355201115aac2d88d1d183052efcef7b11c5793719e2cd59bb4ab1afd4
+size 16565

runs/Feb01_06-49-55_node1/events.out.tfevents.1643670922.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9db180bef957074b16990a2dab72b84c35acd54b7f3860acbe0817769f2318c
+size 684

runs/Feb02_18-14-58_node1/1643796963.6869369/events.out.tfevents.1643796963.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b0a783c92cd57a8e8ffd4eb423e89d000c6183b6f122f1fa5858810206e6221
+size 5038

runs/Feb02_18-14-58_node1/events.out.tfevents.1643796963.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8222c4d151f5adce7080499b7d80f8ae972dcf3aa0fd23fd723ec4e8c39b248
+size 4327

test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "test_accuracy": 69.27899686520375,
-    "test_average_metrics": 69.27899686520375,
-    "test_loss": 0.2875460088253021,
-    "test_runtime": 0.8027,
-    "test_samples_per_second": 397.401
 }

 {
     "epoch": 20.0,
+    "test_accuracy": 67.7115987460815,
+    "test_average_metrics": 67.7115987460815,
+    "test_loss": 0.48792609572410583,
+    "test_runtime": 1.6468,
+    "test_samples_per_second": 193.706
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "train_loss": 0.2150040188957663,
-    "train_runtime": 491.7183,
     "train_samples": 5428,
-    "train_samples_per_second": 220.777,
-    "train_steps_per_second": 6.915
 }

 {
     "epoch": 20.0,
+    "train_loss": 0.0949506963000578,
+    "train_runtime": 1454.9221,
     "train_samples": 5428,
+    "train_samples_per_second": 74.616,
+    "train_steps_per_second": 2.337
 }

trainer_state.json CHANGED Viewed

@@ -1,214 +1,367 @@
 {
-  "best_metric": 71.47335423197492,
-  "best_model_checkpoint": "outputs/bitfit/t5-base/superglue-wic/checkpoint-2000",
   "epoch": 20.0,
   "global_step": 3400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.18,
-      "eval_accuracy": 63.63636363636363,
-      "eval_average_metrics": 63.63636363636363,
-      "eval_loss": 0.27316540479660034,
-      "eval_runtime": 0.8596,
-      "eval_samples_per_second": 371.101,
       "step": 200
     },
     {
       "epoch": 2.35,
-      "eval_accuracy": 66.77115987460816,
-      "eval_average_metrics": 66.77115987460816,
-      "eval_loss": 0.27486181259155273,
-      "eval_runtime": 0.7485,
-      "eval_samples_per_second": 426.175,
       "step": 400
     },
     {
       "epoch": 2.94,
       "learning_rate": 0.0002558823529411764,
-      "loss": 0.3481,
       "step": 500
     },
     {
       "epoch": 3.53,
-      "eval_accuracy": 66.77115987460816,
-      "eval_average_metrics": 66.77115987460816,
-      "eval_loss": 0.299835741519928,
-      "eval_runtime": 0.7521,
-      "eval_samples_per_second": 424.118,
       "step": 600
     },
     {
       "epoch": 4.71,
-      "eval_accuracy": 68.96551724137932,
-      "eval_average_metrics": 68.96551724137932,
-      "eval_loss": 0.30409565567970276,
-      "eval_runtime": 0.8111,
-      "eval_samples_per_second": 393.309,
       "step": 800
     },
     {
       "epoch": 5.88,
       "learning_rate": 0.00021176470588235295,
-      "loss": 0.2116,
       "step": 1000
     },
     {
       "epoch": 5.88,
-      "eval_accuracy": 68.3385579937304,
-      "eval_average_metrics": 68.3385579937304,
-      "eval_loss": 0.3004938066005707,
-      "eval_runtime": 0.837,
-      "eval_samples_per_second": 381.134,
       "step": 1000
     },
     {
       "epoch": 7.06,
-      "eval_accuracy": 66.4576802507837,
-      "eval_average_metrics": 66.4576802507837,
-      "eval_loss": 0.3050723671913147,
-      "eval_runtime": 0.8243,
-      "eval_samples_per_second": 386.998,
       "step": 1200
     },
     {
       "epoch": 8.24,
-      "eval_accuracy": 68.65203761755487,
-      "eval_average_metrics": 68.65203761755487,
-      "eval_loss": 0.306122362613678,
-      "eval_runtime": 0.7807,
-      "eval_samples_per_second": 408.604,
       "step": 1400
     },
     {
       "epoch": 8.82,
       "learning_rate": 0.0001676470588235294,
-      "loss": 0.2002,
       "step": 1500
     },
     {
       "epoch": 9.41,
-      "eval_accuracy": 69.59247648902821,
-      "eval_average_metrics": 69.59247648902821,
-      "eval_loss": 0.3002206087112427,
-      "eval_runtime": 0.7938,
-      "eval_samples_per_second": 401.848,
       "step": 1600
     },
     {
       "epoch": 10.59,
-      "eval_accuracy": 69.90595611285266,
-      "eval_average_metrics": 69.90595611285266,
-      "eval_loss": 0.3040717840194702,
-      "eval_runtime": 0.7501,
-      "eval_samples_per_second": 425.262,
       "step": 1800
     },
     {
       "epoch": 11.76,
       "learning_rate": 0.00012352941176470587,
-      "loss": 0.191,
       "step": 2000
     },
     {
       "epoch": 11.76,
-      "eval_accuracy": 71.47335423197492,
-      "eval_average_metrics": 71.47335423197492,
-      "eval_loss": 0.2988086938858032,
-      "eval_runtime": 0.8123,
-      "eval_samples_per_second": 392.721,
       "step": 2000
     },
     {
       "epoch": 12.94,
-      "eval_accuracy": 69.59247648902821,
-      "eval_average_metrics": 69.59247648902821,
-      "eval_loss": 0.3100716471672058,
-      "eval_runtime": 0.782,
-      "eval_samples_per_second": 407.937,
       "step": 2200
     },
     {
-      "epoch": 14.12,
       "eval_accuracy": 69.27899686520375,
       "eval_average_metrics": 69.27899686520375,
-      "eval_loss": 0.3199401795864105,
-      "eval_runtime": 0.7323,
-      "eval_samples_per_second": 435.642,
       "step": 2400
     },
     {
       "epoch": 14.71,
       "learning_rate": 7.941176470588235e-05,
-      "loss": 0.1875,
       "step": 2500
     },
     {
-      "epoch": 15.29,
       "eval_accuracy": 68.3385579937304,
       "eval_average_metrics": 68.3385579937304,
-      "eval_loss": 0.316545695066452,
-      "eval_runtime": 0.8139,
-      "eval_samples_per_second": 391.955,
       "step": 2600
     },
     {
-      "epoch": 16.47,
       "eval_accuracy": 68.96551724137932,
       "eval_average_metrics": 68.96551724137932,
-      "eval_loss": 0.3149982690811157,
-      "eval_runtime": 0.9277,
-      "eval_samples_per_second": 343.845,
       "step": 2800
     },
     {
       "epoch": 17.65,
       "learning_rate": 3.529411764705882e-05,
-      "loss": 0.1808,
       "step": 3000
     },
     {
       "epoch": 17.65,
       "eval_accuracy": 69.27899686520375,
       "eval_average_metrics": 69.27899686520375,
-      "eval_loss": 0.3163623511791229,
-      "eval_runtime": 0.7966,
-      "eval_samples_per_second": 400.465,
       "step": 3000
     },
     {
       "epoch": 18.82,
-      "eval_accuracy": 69.59247648902821,
-      "eval_average_metrics": 69.59247648902821,
-      "eval_loss": 0.3151997923851013,
-      "eval_runtime": 0.7837,
-      "eval_samples_per_second": 407.019,
       "step": 3200
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 69.27899686520375,
-      "eval_average_metrics": 69.27899686520375,
-      "eval_loss": 0.3175739645957947,
-      "eval_runtime": 0.7847,
-      "eval_samples_per_second": 406.504,
       "step": 3400
     },
     {
       "epoch": 20.0,
       "step": 3400,
-      "total_flos": 7171341817136256.0,
-      "train_loss": 0.2150040188957663,
-      "train_runtime": 491.7183,
-      "train_samples_per_second": 220.777,
-      "train_steps_per_second": 6.915
     }
   ],
   "max_steps": 3400,
   "num_train_epochs": 20,
-  "total_flos": 7171341817136256.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 70.84639498432603,
+  "best_model_checkpoint": "outputs/bitfit/t5-base/superglue-wic/checkpoint-1700",
   "epoch": 20.0,
   "global_step": 3400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.59,
+      "eval_accuracy": 64.57680250783699,
+      "eval_average_metrics": 64.57680250783699,
+      "eval_loss": 0.2697466313838959,
+      "eval_runtime": 1.3478,
+      "eval_samples_per_second": 236.682,
+      "step": 100
+    },
     {
       "epoch": 1.18,
+      "eval_accuracy": 65.51724137931035,
+      "eval_average_metrics": 65.51724137931035,
+      "eval_loss": 0.3369597792625427,
+      "eval_runtime": 1.5122,
+      "eval_samples_per_second": 210.954,
       "step": 200
     },
+    {
+      "epoch": 1.76,
+      "eval_accuracy": 67.39811912225704,
+      "eval_average_metrics": 67.39811912225704,
+      "eval_loss": 0.29254111647605896,
+      "eval_runtime": 1.6714,
+      "eval_samples_per_second": 190.86,
+      "step": 300
+    },
     {
       "epoch": 2.35,
+      "eval_accuracy": 65.51724137931035,
+      "eval_average_metrics": 65.51724137931035,
+      "eval_loss": 0.30159813165664673,
+      "eval_runtime": 1.399,
+      "eval_samples_per_second": 228.019,
       "step": 400
     },
     {
       "epoch": 2.94,
       "learning_rate": 0.0002558823529411764,
+      "loss": 0.2549,
+      "step": 500
+    },
+    {
+      "epoch": 2.94,
+      "eval_accuracy": 69.90595611285266,
+      "eval_average_metrics": 69.90595611285266,
+      "eval_loss": 0.30272728204727173,
+      "eval_runtime": 1.7009,
+      "eval_samples_per_second": 187.551,
       "step": 500
     },
     {
       "epoch": 3.53,
+      "eval_accuracy": 67.39811912225704,
+      "eval_average_metrics": 67.39811912225704,
+      "eval_loss": 0.3448639512062073,
+      "eval_runtime": 1.6869,
+      "eval_samples_per_second": 189.1,
       "step": 600
     },
+    {
+      "epoch": 4.12,
+      "eval_accuracy": 69.27899686520375,
+      "eval_average_metrics": 69.27899686520375,
+      "eval_loss": 0.37638065218925476,
+      "eval_runtime": 1.3564,
+      "eval_samples_per_second": 235.188,
+      "step": 700
+    },
     {
       "epoch": 4.71,
+      "eval_accuracy": 68.02507836990596,
+      "eval_average_metrics": 68.02507836990596,
+      "eval_loss": 0.3278528153896332,
+      "eval_runtime": 1.436,
+      "eval_samples_per_second": 222.137,
       "step": 800
     },
+    {
+      "epoch": 5.29,
+      "eval_accuracy": 65.8307210031348,
+      "eval_average_metrics": 65.8307210031348,
+      "eval_loss": 0.37711796164512634,
+      "eval_runtime": 1.7367,
+      "eval_samples_per_second": 183.683,
+      "step": 900
+    },
     {
       "epoch": 5.88,
       "learning_rate": 0.00021176470588235295,
+      "loss": 0.1531,
       "step": 1000
     },
     {
       "epoch": 5.88,
+      "eval_accuracy": 68.96551724137932,
+      "eval_average_metrics": 68.96551724137932,
+      "eval_loss": 0.37187883257865906,
+      "eval_runtime": 1.5128,
+      "eval_samples_per_second": 210.871,
       "step": 1000
     },
+    {
+      "epoch": 6.47,
+      "eval_accuracy": 66.14420062695925,
+      "eval_average_metrics": 66.14420062695925,
+      "eval_loss": 0.4265880882740021,
+      "eval_runtime": 1.6439,
+      "eval_samples_per_second": 194.053,
+      "step": 1100
+    },
     {
       "epoch": 7.06,
+      "eval_accuracy": 67.0846394984326,
+      "eval_average_metrics": 67.0846394984326,
+      "eval_loss": 0.4190385937690735,
+      "eval_runtime": 1.694,
+      "eval_samples_per_second": 188.316,
       "step": 1200
     },
+    {
+      "epoch": 7.65,
+      "eval_accuracy": 67.7115987460815,
+      "eval_average_metrics": 67.7115987460815,
+      "eval_loss": 0.4279927611351013,
+      "eval_runtime": 1.6705,
+      "eval_samples_per_second": 190.965,
+      "step": 1300
+    },
     {
       "epoch": 8.24,
+      "eval_accuracy": 68.96551724137932,
+      "eval_average_metrics": 68.96551724137932,
+      "eval_loss": 0.4631330370903015,
+      "eval_runtime": 1.6505,
+      "eval_samples_per_second": 193.272,
       "step": 1400
     },
     {
       "epoch": 8.82,
       "learning_rate": 0.0001676470588235294,
+      "loss": 0.0995,
+      "step": 1500
+    },
+    {
+      "epoch": 8.82,
+      "eval_accuracy": 67.7115987460815,
+      "eval_average_metrics": 67.7115987460815,
+      "eval_loss": 0.46376463770866394,
+      "eval_runtime": 1.4266,
+      "eval_samples_per_second": 223.612,
       "step": 1500
     },
     {
       "epoch": 9.41,
+      "eval_accuracy": 68.96551724137932,
+      "eval_average_metrics": 68.96551724137932,
+      "eval_loss": 0.509791374206543,
+      "eval_runtime": 1.5279,
+      "eval_samples_per_second": 208.785,
       "step": 1600
     },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 70.84639498432603,
+      "eval_average_metrics": 70.84639498432603,
+      "eval_loss": 0.4690648913383484,
+      "eval_runtime": 1.3636,
+      "eval_samples_per_second": 233.934,
+      "step": 1700
+    },
     {
       "epoch": 10.59,
+      "eval_accuracy": 69.27899686520375,
+      "eval_average_metrics": 69.27899686520375,
+      "eval_loss": 0.5513712763786316,
+      "eval_runtime": 1.6761,
+      "eval_samples_per_second": 190.323,
       "step": 1800
     },
+    {
+      "epoch": 11.18,
+      "eval_accuracy": 68.65203761755487,
+      "eval_average_metrics": 68.65203761755487,
+      "eval_loss": 0.5640075206756592,
+      "eval_runtime": 1.498,
+      "eval_samples_per_second": 212.948,
+      "step": 1900
+    },
     {
       "epoch": 11.76,
       "learning_rate": 0.00012352941176470587,
+      "loss": 0.0627,
       "step": 2000
     },
     {
       "epoch": 11.76,
+      "eval_accuracy": 68.3385579937304,
+      "eval_average_metrics": 68.3385579937304,
+      "eval_loss": 0.5400956273078918,
+      "eval_runtime": 1.7505,
+      "eval_samples_per_second": 182.237,
       "step": 2000
     },
+    {
+      "epoch": 12.35,
+      "eval_accuracy": 66.77115987460816,
+      "eval_average_metrics": 66.77115987460816,
+      "eval_loss": 0.6046501994132996,
+      "eval_runtime": 1.6979,
+      "eval_samples_per_second": 187.882,
+      "step": 2100
+    },
     {
       "epoch": 12.94,
+      "eval_accuracy": 70.53291536050156,
+      "eval_average_metrics": 70.53291536050156,
+      "eval_loss": 0.6463834047317505,
+      "eval_runtime": 1.3771,
+      "eval_samples_per_second": 231.652,
       "step": 2200
     },
     {
+      "epoch": 13.53,
       "eval_accuracy": 69.27899686520375,
       "eval_average_metrics": 69.27899686520375,
+      "eval_loss": 0.6423152089118958,
+      "eval_runtime": 1.6672,
+      "eval_samples_per_second": 191.343,
+      "step": 2300
+    },
+    {
+      "epoch": 14.12,
+      "eval_accuracy": 68.96551724137932,
+      "eval_average_metrics": 68.96551724137932,
+      "eval_loss": 0.6988397240638733,
+      "eval_runtime": 1.6913,
+      "eval_samples_per_second": 188.613,
       "step": 2400
     },
     {
       "epoch": 14.71,
       "learning_rate": 7.941176470588235e-05,
+      "loss": 0.037,
       "step": 2500
     },
     {
+      "epoch": 14.71,
       "eval_accuracy": 68.3385579937304,
       "eval_average_metrics": 68.3385579937304,
+      "eval_loss": 0.7036728858947754,
+      "eval_runtime": 1.7114,
+      "eval_samples_per_second": 186.402,
+      "step": 2500
+    },
+    {
+      "epoch": 15.29,
+      "eval_accuracy": 68.65203761755487,
+      "eval_average_metrics": 68.65203761755487,
+      "eval_loss": 0.6903794407844543,
+      "eval_runtime": 1.6091,
+      "eval_samples_per_second": 198.248,
       "step": 2600
     },
     {
+      "epoch": 15.88,
       "eval_accuracy": 68.96551724137932,
       "eval_average_metrics": 68.96551724137932,
+      "eval_loss": 0.7062700390815735,
+      "eval_runtime": 1.7338,
+      "eval_samples_per_second": 183.989,
+      "step": 2700
+    },
+    {
+      "epoch": 16.47,
+      "eval_accuracy": 70.21943573667711,
+      "eval_average_metrics": 70.21943573667711,
+      "eval_loss": 0.7178221940994263,
+      "eval_runtime": 1.3196,
+      "eval_samples_per_second": 241.74,
       "step": 2800
     },
+    {
+      "epoch": 17.06,
+      "eval_accuracy": 68.96551724137932,
+      "eval_average_metrics": 68.96551724137932,
+      "eval_loss": 0.7901595234870911,
+      "eval_runtime": 1.6693,
+      "eval_samples_per_second": 191.103,
+      "step": 2900
+    },
     {
       "epoch": 17.65,
       "learning_rate": 3.529411764705882e-05,
+      "loss": 0.0252,
       "step": 3000
     },
     {
       "epoch": 17.65,
       "eval_accuracy": 69.27899686520375,
       "eval_average_metrics": 69.27899686520375,
+      "eval_loss": 0.8428929448127747,
+      "eval_runtime": 1.6724,
+      "eval_samples_per_second": 190.74,
       "step": 3000
     },
+    {
+      "epoch": 18.24,
+      "eval_accuracy": 68.96551724137932,
+      "eval_average_metrics": 68.96551724137932,
+      "eval_loss": 0.824032187461853,
+      "eval_runtime": 1.1559,
+      "eval_samples_per_second": 275.979,
+      "step": 3100
+    },
     {
       "epoch": 18.82,
+      "eval_accuracy": 69.27899686520375,
+      "eval_average_metrics": 69.27899686520375,
+      "eval_loss": 0.8500473499298096,
+      "eval_runtime": 1.7687,
+      "eval_samples_per_second": 180.362,
       "step": 3200
     },
+    {
+      "epoch": 19.41,
+      "eval_accuracy": 68.3385579937304,
+      "eval_average_metrics": 68.3385579937304,
+      "eval_loss": 0.8623896241188049,
+      "eval_runtime": 1.7067,
+      "eval_samples_per_second": 186.905,
+      "step": 3300
+    },
     {
       "epoch": 20.0,
+      "eval_accuracy": 68.3385579937304,
+      "eval_average_metrics": 68.3385579937304,
+      "eval_loss": 0.8675826787948608,
+      "eval_runtime": 1.7047,
+      "eval_samples_per_second": 187.128,
       "step": 3400
     },
     {
       "epoch": 20.0,
       "step": 3400,
+      "total_flos": 7227776409587712.0,
+      "train_loss": 0.0949506963000578,
+      "train_runtime": 1454.9221,
+      "train_samples_per_second": 74.616,
+      "train_steps_per_second": 2.337
     }
   ],
   "max_steps": 3400,
   "num_train_epochs": 20,
+  "total_flos": 7227776409587712.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39961be8916a7a4027a7bea7ee448ceffcf6b80b1a505293bcee68d6fe5fbe36
 size 3183

 version https://git-lfs.github.com/spec/v1
+oid sha256:49357d69ca929ce39aa55fa0c5e58329d29fbab1145e7ac0e58a4d4056492e11
 size 3183

training_config.json CHANGED Viewed

@@ -1 +1 @@

- {"~~bottleneck_dim": 24, "~~dataset_config_name": ["en"], "delta_type": "~~adapter~~", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "superglue-wic", "eval_steps": 100, "evaluation_strategy": "steps", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "max_source_length": 256, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 20, "output_dir": "outputs/bitfit/t5-base/superglue-wic", "overwrite_output_dir": true, "per_device_eval_batch_size": 32, "per_device_train_batch_size": 32, "predict_with_generate": true, "push_to_hub": true, "save_steps": 100, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "superglue-wic", "test_dataset_config_name": ["en"], "test_dataset_name": "superglue-wic", "tokenizer_name": "../../../../plm_cache/t5-base", "unfrozen_modules": ["deltas", "layer_norm", "final_layer_norm"], "warmup_steps": 0}

+ {"dataset_config_name": ["en"], "delta_type": "lora", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "superglue-wic", "eval_steps": 100, "evaluation_strategy": "steps", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "lora_r": 8, "max_source_length": 256, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 20, "output_dir": "outputs/bitfit/t5-base/superglue-wic", "overwrite_output_dir": true, "per_device_eval_batch_size": 32, "per_device_train_batch_size": 32, "predict_with_generate": true, "push_to_hub": true, "save_steps": 100, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "superglue-wic", "test_dataset_config_name": ["en"], "test_dataset_name": "superglue-wic", "tokenizer_name": "../../../../plm_cache/t5-base", "unfrozen_modules": ["deltas", "layer_norm", "final_layer_norm"], "warmup_steps": 0}