Training in progress, step 200

Browse files

Files changed (12) hide show

all_results.json +14 -14
eval_results.json +5 -5
pytorch_model.bin +2 -2
runs/Feb01_02-19-43_node2/1643653271.165788/events.out.tfevents.1643653271.node2 +3 -0
runs/Feb01_02-19-43_node2/events.out.tfevents.1643653271.node2 +3 -0
runs/Jan31_20-58-56_node1/events.out.tfevents.1643634109.node1 +2 -2
runs/Jan31_20-58-56_node1/events.out.tfevents.1643637198.node1 +3 -0
test_results.json +5 -5
train_results.json +4 -4
trainer_state.json +240 -159
training_args.bin +1 -1
training_config.json +1 -1

all_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 72.47706422018348,
-    "eval_average_metrics": 72.47706422018348,
-    "eval_loss": 0.27757981419563293,
-    "eval_runtime": 4.7969,
-    "eval_samples_per_second": 340.847,
-    "test_accuracy": 70.58103975535168,
-    "test_average_metrics": 70.58103975535168,
-    "test_loss": 0.2894817888736725,
-    "test_runtime": 4.7627,
-    "test_samples_per_second": 343.293,
-    "train_loss": 0.2005054286374884,
-    "train_runtime": 1293.5612,
     "train_samples": 9427,
-    "train_samples_per_second": 145.753,
-    "train_steps_per_second": 4.561
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 80.30581039755351,
+    "eval_average_metrics": 80.30581039755351,
+    "eval_loss": 0.19154316186904907,
+    "eval_runtime": 17.148,
+    "eval_samples_per_second": 95.346,
+    "test_accuracy": 79.7553516819572,
+    "test_average_metrics": 79.7553516819572,
+    "test_loss": 0.195680171251297,
+    "test_runtime": 16.947,
+    "test_samples_per_second": 96.477,
+    "train_loss": 0.20100380073159427,
+    "train_runtime": 3071.6757,
     "train_samples": 9427,
+    "train_samples_per_second": 61.38,
+    "train_steps_per_second": 1.921
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 72.47706422018348,
-    "eval_average_metrics": 72.47706422018348,
-    "eval_loss": 0.27757981419563293,
-    "eval_runtime": 4.7969,
-    "eval_samples_per_second": 340.847
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 80.30581039755351,
+    "eval_average_metrics": 80.30581039755351,
+    "eval_loss": 0.19154316186904907,
+    "eval_runtime": 17.148,
+    "eval_samples_per_second": 95.346
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d907e117080258b82f53f820a08988498f89966c5617a158cfd5096e79b285e7
-size 1084131

 version https://git-lfs.github.com/spec/v1
+oid sha256:93702f2d5657da40d960e58c0d8a207b7b6665c7511c220276bc5870e1229f3c
+size 7551621

runs/Feb01_02-19-43_node2/1643653271.165788/events.out.tfevents.1643653271.node2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27b588b667de3756bb574b0790936ea051f3054dd34b04455df005e66d0e9bfb
+size 5044

runs/Feb01_02-19-43_node2/events.out.tfevents.1643653271.node2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aaa08ff2b0b29d280b9ce591126682b27ad4ad26343fa7714d6f90dd98bd22a3
+size 4333

runs/Jan31_20-58-56_node1/events.out.tfevents.1643634109.node1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d0625210d64e8317920bc3bf2bbdd4c716e747700612e69b2917e299c1d7049
-size 15076

 version https://git-lfs.github.com/spec/v1
+oid sha256:668c52d279f48f36addf8c932a25b2cad84c9178c36e0cff80f5e558e31a8849
+size 15752

runs/Jan31_20-58-56_node1/events.out.tfevents.1643637198.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b626167b86719a374ddb37c8ab47614b8b66cf90adbd4e8a141fc0db128dad03
+size 684

test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "test_accuracy": 70.58103975535168,
-    "test_average_metrics": 70.58103975535168,
-    "test_loss": 0.2894817888736725,
-    "test_runtime": 4.7627,
-    "test_samples_per_second": 343.293
 }

 {
     "epoch": 20.0,
+    "test_accuracy": 79.7553516819572,
+    "test_average_metrics": 79.7553516819572,
+    "test_loss": 0.195680171251297,
+    "test_runtime": 16.947,
+    "test_samples_per_second": 96.477
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "train_loss": 0.2005054286374884,
-    "train_runtime": 1293.5612,
     "train_samples": 9427,
-    "train_samples_per_second": 145.753,
-    "train_steps_per_second": 4.561
 }

 {
     "epoch": 20.0,
+    "train_loss": 0.20100380073159427,
+    "train_runtime": 3071.6757,
     "train_samples": 9427,
+    "train_samples_per_second": 61.38,
+    "train_steps_per_second": 1.921
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 72.47706422018348,
-  "best_model_checkpoint": "outputs/adapter/superglue-boolq/checkpoint-3835",
   "epoch": 20.0,
   "global_step": 5900,
   "is_hyper_param_search": false,
@@ -8,264 +8,345 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_accuracy": 62.62996941896024,
-      "eval_average_metrics": 62.62996941896024,
-      "eval_loss": 0.2848173677921295,
-      "eval_runtime": 4.5081,
-      "eval_samples_per_second": 362.682,
-      "step": 295
     },
     {
       "epoch": 1.69,
       "learning_rate": 0.00027457627118644066,
-      "loss": 0.3238,
       "step": 500
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 62.62996941896024,
-      "eval_average_metrics": 62.62996941896024,
-      "eval_loss": 0.27746617794036865,
-      "eval_runtime": 4.4839,
-      "eval_samples_per_second": 364.64,
-      "step": 590
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 62.62996941896024,
-      "eval_average_metrics": 62.62996941896024,
-      "eval_loss": 0.2767568826675415,
-      "eval_runtime": 4.4969,
-      "eval_samples_per_second": 363.585,
-      "step": 885
     },
     {
       "epoch": 3.39,
       "learning_rate": 0.00024915254237288135,
-      "loss": 0.2896,
       "step": 1000
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 62.75229357798165,
-      "eval_average_metrics": 62.75229357798165,
-      "eval_loss": 0.2767893373966217,
-      "eval_runtime": 4.7449,
-      "eval_samples_per_second": 344.579,
-      "step": 1180
     },
     {
-      "epoch": 5.0,
-      "eval_accuracy": 63.36391437308868,
-      "eval_average_metrics": 63.36391437308868,
-      "eval_loss": 0.26716169714927673,
-      "eval_runtime": 4.7487,
-      "eval_samples_per_second": 344.302,
-      "step": 1475
     },
     {
       "epoch": 5.08,
       "learning_rate": 0.000223728813559322,
-      "loss": 0.2823,
       "step": 1500
     },
     {
-      "epoch": 6.0,
-      "eval_accuracy": 66.11620795107034,
-      "eval_average_metrics": 66.11620795107034,
-      "eval_loss": 0.2606015205383301,
-      "eval_runtime": 4.7538,
-      "eval_samples_per_second": 343.936,
-      "step": 1770
     },
     {
       "epoch": 6.78,
       "learning_rate": 0.0001983050847457627,
-      "loss": 0.2715,
       "step": 2000
     },
     {
-      "epoch": 7.0,
-      "eval_accuracy": 69.0519877675841,
-      "eval_average_metrics": 69.0519877675841,
-      "eval_loss": 0.25209498405456543,
-      "eval_runtime": 4.7471,
-      "eval_samples_per_second": 344.422,
-      "step": 2065
     },
     {
-      "epoch": 8.0,
-      "eval_accuracy": 69.2354740061162,
-      "eval_average_metrics": 69.2354740061162,
-      "eval_loss": 0.25652435421943665,
-      "eval_runtime": 4.7461,
-      "eval_samples_per_second": 344.493,
-      "step": 2360
     },
     {
       "epoch": 8.47,
       "learning_rate": 0.0001728813559322034,
-      "loss": 0.236,
       "step": 2500
     },
     {
-      "epoch": 9.0,
-      "eval_accuracy": 71.0091743119266,
-      "eval_average_metrics": 71.0091743119266,
-      "eval_loss": 0.24900275468826294,
-      "eval_runtime": 4.7529,
-      "eval_samples_per_second": 344.002,
-      "step": 2655
     },
     {
-      "epoch": 10.0,
-      "eval_accuracy": 71.80428134556574,
-      "eval_average_metrics": 71.80428134556574,
-      "eval_loss": 0.2635628283023834,
-      "eval_runtime": 4.7533,
-      "eval_samples_per_second": 343.974,
-      "step": 2950
     },
     {
       "epoch": 10.17,
       "learning_rate": 0.00014745762711864405,
-      "loss": 0.2038,
       "step": 3000
     },
     {
-      "epoch": 11.0,
-      "eval_accuracy": 70.70336391437309,
-      "eval_average_metrics": 70.70336391437309,
-      "eval_loss": 0.26442670822143555,
-      "eval_runtime": 4.7661,
-      "eval_samples_per_second": 343.05,
-      "step": 3245
     },
     {
       "epoch": 11.86,
       "learning_rate": 0.00012203389830508474,
-      "loss": 0.1743,
       "step": 3500
     },
     {
-      "epoch": 12.0,
-      "eval_accuracy": 71.49847094801223,
-      "eval_average_metrics": 71.49847094801223,
-      "eval_loss": 0.2672346830368042,
-      "eval_runtime": 4.761,
-      "eval_samples_per_second": 343.414,
-      "step": 3540
     },
     {
-      "epoch": 13.0,
-      "eval_accuracy": 72.47706422018348,
-      "eval_average_metrics": 72.47706422018348,
-      "eval_loss": 0.27757981419563293,
-      "eval_runtime": 4.7532,
-      "eval_samples_per_second": 343.982,
-      "step": 3835
     },
     {
       "epoch": 13.56,
       "learning_rate": 9.661016949152541e-05,
-      "loss": 0.1493,
       "step": 4000
     },
     {
-      "epoch": 14.0,
-      "eval_accuracy": 70.8868501529052,
-      "eval_average_metrics": 70.8868501529052,
-      "eval_loss": 0.29447805881500244,
-      "eval_runtime": 4.7492,
-      "eval_samples_per_second": 344.268,
-      "step": 4130
     },
     {
-      "epoch": 15.0,
-      "eval_accuracy": 70.21406727828746,
-      "eval_average_metrics": 70.21406727828746,
-      "eval_loss": 0.2965507209300995,
-      "eval_runtime": 4.7633,
-      "eval_samples_per_second": 343.251,
-      "step": 4425
     },
     {
       "epoch": 15.25,
       "learning_rate": 7.11864406779661e-05,
-      "loss": 0.1336,
       "step": 4500
     },
     {
-      "epoch": 16.0,
-      "eval_accuracy": 72.29357798165138,
-      "eval_average_metrics": 72.29357798165138,
-      "eval_loss": 0.3127536177635193,
-      "eval_runtime": 4.7675,
-      "eval_samples_per_second": 342.95,
-      "step": 4720
     },
     {
       "epoch": 16.95,
       "learning_rate": 4.576271186440678e-05,
-      "loss": 0.1166,
       "step": 5000
     },
     {
-      "epoch": 17.0,
-      "eval_accuracy": 70.9480122324159,
-      "eval_average_metrics": 70.9480122324159,
-      "eval_loss": 0.3478758931159973,
-      "eval_runtime": 4.7792,
-      "eval_samples_per_second": 342.105,
-      "step": 5015
     },
     {
-      "epoch": 18.0,
-      "eval_accuracy": 72.17125382262996,
-      "eval_average_metrics": 72.17125382262996,
-      "eval_loss": 0.33715757727622986,
-      "eval_runtime": 4.7549,
-      "eval_samples_per_second": 343.858,
-      "step": 5310
     },
     {
       "epoch": 18.64,
       "learning_rate": 2.0338983050847455e-05,
-      "loss": 0.1059,
       "step": 5500
     },
     {
-      "epoch": 19.0,
-      "eval_accuracy": 71.92660550458716,
-      "eval_average_metrics": 71.92660550458716,
-      "eval_loss": 0.34181272983551025,
-      "eval_runtime": 4.753,
-      "eval_samples_per_second": 343.993,
-      "step": 5605
     },
     {
-      "epoch": 20.0,
-      "eval_accuracy": 71.80428134556574,
-      "eval_average_metrics": 71.80428134556574,
-      "eval_loss": 0.34913983941078186,
-      "eval_runtime": 4.7538,
-      "eval_samples_per_second": 343.937,
-      "step": 5900
     },
     {
       "epoch": 20.0,
       "step": 5900,
-      "total_flos": 5.78564930408256e+16,
-      "train_loss": 0.2005054286374884,
-      "train_runtime": 1293.5612,
-      "train_samples_per_second": 145.753,
-      "train_steps_per_second": 4.561
     }
   ],
   "max_steps": 5900,
   "num_train_epochs": 20,
-  "total_flos": 5.78564930408256e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 80.30581039755351,
+  "best_model_checkpoint": "outputs/bitfit/t5-base/superglue-boolq/checkpoint-2600",
   "epoch": 20.0,
   "global_step": 5900,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.68,
+      "eval_accuracy": 74.6788990825688,
+      "eval_average_metrics": 74.6788990825688,
+      "eval_loss": 0.21743574738502502,
+      "eval_runtime": 16.9831,
+      "eval_samples_per_second": 96.272,
+      "step": 200
+    },
+    {
+      "epoch": 1.36,
+      "eval_accuracy": 75.71865443425077,
+      "eval_average_metrics": 75.71865443425077,
+      "eval_loss": 0.21506452560424805,
+      "eval_runtime": 14.6109,
+      "eval_samples_per_second": 111.903,
+      "step": 400
     },
     {
       "epoch": 1.69,
       "learning_rate": 0.00027457627118644066,
+      "loss": 0.374,
       "step": 500
     },
     {
+      "epoch": 2.03,
+      "eval_accuracy": 77.18654434250764,
+      "eval_average_metrics": 77.18654434250764,
+      "eval_loss": 0.20255930721759796,
+      "eval_runtime": 17.1645,
+      "eval_samples_per_second": 95.254,
+      "step": 600
     },
     {
+      "epoch": 2.71,
+      "eval_accuracy": 76.5137614678899,
+      "eval_average_metrics": 76.5137614678899,
+      "eval_loss": 0.220754012465477,
+      "eval_runtime": 17.1929,
+      "eval_samples_per_second": 95.097,
+      "step": 800
     },
     {
       "epoch": 3.39,
       "learning_rate": 0.00024915254237288135,
+      "loss": 0.2114,
+      "step": 1000
+    },
+    {
+      "epoch": 3.39,
+      "eval_accuracy": 78.1651376146789,
+      "eval_average_metrics": 78.1651376146789,
+      "eval_loss": 0.19822736084461212,
+      "eval_runtime": 14.5865,
+      "eval_samples_per_second": 112.09,
       "step": 1000
     },
     {
+      "epoch": 4.07,
+      "eval_accuracy": 78.71559633027523,
+      "eval_average_metrics": 78.71559633027523,
+      "eval_loss": 0.19769148528575897,
+      "eval_runtime": 17.1866,
+      "eval_samples_per_second": 95.132,
+      "step": 1200
     },
     {
+      "epoch": 4.75,
+      "eval_accuracy": 78.2262996941896,
+      "eval_average_metrics": 78.2262996941896,
+      "eval_loss": 0.1974276602268219,
+      "eval_runtime": 17.1722,
+      "eval_samples_per_second": 95.212,
+      "step": 1400
     },
     {
       "epoch": 5.08,
       "learning_rate": 0.000223728813559322,
+      "loss": 0.1997,
       "step": 1500
     },
     {
+      "epoch": 5.42,
+      "eval_accuracy": 78.71559633027523,
+      "eval_average_metrics": 78.71559633027523,
+      "eval_loss": 0.19954562187194824,
+      "eval_runtime": 14.5679,
+      "eval_samples_per_second": 112.233,
+      "step": 1600
+    },
+    {
+      "epoch": 6.1,
+      "eval_accuracy": 78.2262996941896,
+      "eval_average_metrics": 78.2262996941896,
+      "eval_loss": 0.20299072563648224,
+      "eval_runtime": 17.2624,
+      "eval_samples_per_second": 94.714,
+      "step": 1800
     },
     {
       "epoch": 6.78,
       "learning_rate": 0.0001983050847457627,
+      "loss": 0.1934,
       "step": 2000
     },
     {
+      "epoch": 6.78,
+      "eval_accuracy": 79.63302752293579,
+      "eval_average_metrics": 79.63302752293579,
+      "eval_loss": 0.19578830897808075,
+      "eval_runtime": 17.2808,
+      "eval_samples_per_second": 94.614,
+      "step": 2000
+    },
+    {
+      "epoch": 7.46,
+      "eval_accuracy": 79.26605504587157,
+      "eval_average_metrics": 79.26605504587157,
+      "eval_loss": 0.1937599629163742,
+      "eval_runtime": 15.3794,
+      "eval_samples_per_second": 106.311,
+      "step": 2200
     },
     {
+      "epoch": 8.14,
+      "eval_accuracy": 77.92048929663609,
+      "eval_average_metrics": 77.92048929663609,
+      "eval_loss": 0.2019716054201126,
+      "eval_runtime": 17.5057,
+      "eval_samples_per_second": 93.398,
+      "step": 2400
     },
     {
       "epoch": 8.47,
       "learning_rate": 0.0001728813559322034,
+      "loss": 0.1907,
       "step": 2500
     },
     {
+      "epoch": 8.81,
+      "eval_accuracy": 80.30581039755351,
+      "eval_average_metrics": 80.30581039755351,
+      "eval_loss": 0.19154316186904907,
+      "eval_runtime": 17.3782,
+      "eval_samples_per_second": 94.083,
+      "step": 2600
     },
     {
+      "epoch": 9.49,
+      "eval_accuracy": 79.93883792048929,
+      "eval_average_metrics": 79.93883792048929,
+      "eval_loss": 0.19677455723285675,
+      "eval_runtime": 15.9661,
+      "eval_samples_per_second": 102.404,
+      "step": 2800
     },
     {
       "epoch": 10.17,
       "learning_rate": 0.00014745762711864405,
+      "loss": 0.183,
       "step": 3000
     },
     {
+      "epoch": 10.17,
+      "eval_accuracy": 79.44954128440367,
+      "eval_average_metrics": 79.44954128440367,
+      "eval_loss": 0.19117017090320587,
+      "eval_runtime": 17.2749,
+      "eval_samples_per_second": 94.646,
+      "step": 3000
+    },
+    {
+      "epoch": 10.85,
+      "eval_accuracy": 78.10397553516819,
+      "eval_average_metrics": 78.10397553516819,
+      "eval_loss": 0.20411182940006256,
+      "eval_runtime": 17.1181,
+      "eval_samples_per_second": 95.513,
+      "step": 3200
+    },
+    {
+      "epoch": 11.53,
+      "eval_accuracy": 79.02140672782875,
+      "eval_average_metrics": 79.02140672782875,
+      "eval_loss": 0.194900244474411,
+      "eval_runtime": 17.1955,
+      "eval_samples_per_second": 95.083,
+      "step": 3400
     },
     {
       "epoch": 11.86,
       "learning_rate": 0.00012203389830508474,
+      "loss": 0.181,
       "step": 3500
     },
     {
+      "epoch": 12.2,
+      "eval_accuracy": 79.38837920489297,
+      "eval_average_metrics": 79.38837920489297,
+      "eval_loss": 0.20091596245765686,
+      "eval_runtime": 16.9905,
+      "eval_samples_per_second": 96.23,
+      "step": 3600
     },
     {
+      "epoch": 12.88,
+      "eval_accuracy": 79.81651376146789,
+      "eval_average_metrics": 79.81651376146789,
+      "eval_loss": 0.18894420564174652,
+      "eval_runtime": 17.2706,
+      "eval_samples_per_second": 94.669,
+      "step": 3800
     },
     {
       "epoch": 13.56,
       "learning_rate": 9.661016949152541e-05,
+      "loss": 0.1786,
+      "step": 4000
+    },
+    {
+      "epoch": 13.56,
+      "eval_accuracy": 78.77675840978593,
+      "eval_average_metrics": 78.77675840978593,
+      "eval_loss": 0.20160046219825745,
+      "eval_runtime": 17.0941,
+      "eval_samples_per_second": 95.647,
       "step": 4000
     },
     {
+      "epoch": 14.24,
+      "eval_accuracy": 79.57186544342507,
+      "eval_average_metrics": 79.57186544342507,
+      "eval_loss": 0.19864365458488464,
+      "eval_runtime": 17.0536,
+      "eval_samples_per_second": 95.874,
+      "step": 4200
     },
     {
+      "epoch": 14.92,
+      "eval_accuracy": 79.51070336391437,
+      "eval_average_metrics": 79.51070336391437,
+      "eval_loss": 0.19150203466415405,
+      "eval_runtime": 17.2063,
+      "eval_samples_per_second": 95.024,
+      "step": 4400
     },
     {
       "epoch": 15.25,
       "learning_rate": 7.11864406779661e-05,
+      "loss": 0.1769,
       "step": 4500
     },
     {
+      "epoch": 15.59,
+      "eval_accuracy": 78.77675840978593,
+      "eval_average_metrics": 78.77675840978593,
+      "eval_loss": 0.19904659688472748,
+      "eval_runtime": 17.1806,
+      "eval_samples_per_second": 95.165,
+      "step": 4600
+    },
+    {
+      "epoch": 16.27,
+      "eval_accuracy": 79.20489296636084,
+      "eval_average_metrics": 79.20489296636084,
+      "eval_loss": 0.19741013646125793,
+      "eval_runtime": 17.2538,
+      "eval_samples_per_second": 94.762,
+      "step": 4800
     },
     {
       "epoch": 16.95,
       "learning_rate": 4.576271186440678e-05,
+      "loss": 0.1741,
       "step": 5000
     },
     {
+      "epoch": 16.95,
+      "eval_accuracy": 79.51070336391437,
+      "eval_average_metrics": 79.51070336391437,
+      "eval_loss": 0.19429509341716766,
+      "eval_runtime": 17.4899,
+      "eval_samples_per_second": 93.483,
+      "step": 5000
     },
     {
+      "epoch": 17.63,
+      "eval_accuracy": 78.89908256880734,
+      "eval_average_metrics": 78.89908256880734,
+      "eval_loss": 0.20053960382938385,
+      "eval_runtime": 17.2615,
+      "eval_samples_per_second": 94.719,
+      "step": 5200
+    },
+    {
+      "epoch": 18.31,
+      "eval_accuracy": 79.32721712538226,
+      "eval_average_metrics": 79.32721712538226,
+      "eval_loss": 0.1975349634885788,
+      "eval_runtime": 17.2849,
+      "eval_samples_per_second": 94.591,
+      "step": 5400
     },
     {
       "epoch": 18.64,
       "learning_rate": 2.0338983050847455e-05,
+      "loss": 0.1717,
       "step": 5500
     },
     {
+      "epoch": 18.98,
+      "eval_accuracy": 78.77675840978593,
+      "eval_average_metrics": 78.77675840978593,
+      "eval_loss": 0.20098499953746796,
+      "eval_runtime": 17.3626,
+      "eval_samples_per_second": 94.168,
+      "step": 5600
     },
     {
+      "epoch": 19.66,
+      "eval_accuracy": 79.20489296636084,
+      "eval_average_metrics": 79.20489296636084,
+      "eval_loss": 0.19755637645721436,
+      "eval_runtime": 17.3825,
+      "eval_samples_per_second": 94.06,
+      "step": 5800
     },
     {
       "epoch": 20.0,
       "step": 5900,
+      "total_flos": 5.74047486286578e+16,
+      "train_loss": 0.20100380073159427,
+      "train_runtime": 3071.6757,
+      "train_samples_per_second": 61.38,
+      "train_steps_per_second": 1.921
     }
   ],
   "max_steps": 5900,
   "num_train_epochs": 20,
+  "total_flos": 5.74047486286578e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:269bb6113ca5087e1a8b4f6f408b50f081fcdff789ba3839dd26d80788deca12
 size 3183

 version https://git-lfs.github.com/spec/v1
+oid sha256:f661110841353ed072f3e206dcbfb7b75b9c2fdbb0068e52fff4617c10698d9e
 size 3183

training_config.json CHANGED Viewed

@@ -1 +1 @@

- {"dataset_config_name": ["en"], "delta_type": "~~bitfit~~", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "superglue-boolq", "eval_steps": 200, "evaluation_strategy": "steps", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "max_source_length": 256, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 20, "output_dir": "outputs/bitfit/t5-base/superglue-boolq", "overwrite_output_dir": true, "per_device_eval_batch_size": 32, "per_device_train_batch_size": 32, "predict_with_generate": true, "push_to_hub": true, "save_steps": 200, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "superglue-boolq", "test_dataset_config_name": ["en"], "test_dataset_name": "superglue-boolq", "tokenizer_name": "../../../../plm_cache/t5-base", "warmup_steps": 0}

+ {"bottleneck_dim": 24, "dataset_config_name": ["en"], "delta_type": "adapter", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "superglue-boolq", "eval_steps": 200, "evaluation_strategy": "steps", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "max_source_length": 256, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 20, "output_dir": "outputs/bitfit/t5-base/superglue-boolq", "overwrite_output_dir": true, "per_device_eval_batch_size": 32, "per_device_train_batch_size": 32, "predict_with_generate": true, "push_to_hub": true, "save_steps": 200, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "superglue-boolq", "test_dataset_config_name": ["en"], "test_dataset_name": "superglue-boolq", "tokenizer_name": "../../../../plm_cache/t5-base", "unfrozen_modules": ["deltas", "layer_norm", "final_layer_norm"], "warmup_steps": 0}