Training in progress, step 200

Browse files

Files changed (12) hide show

all_results.json +13 -13
eval_results.json +5 -5
pytorch_model.bin +2 -2
runs/Feb01_00-35-21_node1/1643647072.4568229/events.out.tfevents.1643647072.node1 +3 -0
runs/Feb01_00-35-21_node1/events.out.tfevents.1643647072.node1 +3 -0
runs/Jan31_20-22-53_node1/events.out.tfevents.1643631902.node1 +2 -2
runs/Jan31_20-22-53_node1/events.out.tfevents.1643632326.node1 +3 -0
test_results.json +5 -5
train_results.json +3 -3
trainer_state.json +59 -167
training_args.bin +1 -1
training_config.json +1 -1

all_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
     "epoch": 20.0,
-    "eval_average_metrics": 52.359840871035765,
-    "eval_loss": 0.2282242476940155,
-    "eval_matthews_correlation": 52.359840871035765,
-    "eval_runtime": 0.9075,
-    "eval_samples_per_second": 574.107,
-    "test_average_metrics": 63.24519496421077,
-    "test_loss": 0.18458954989910126,
-    "test_matthews_correlation": 63.24519496421077,
-    "test_runtime": 0.8502,
-    "test_samples_per_second": 614.001,
     "train_loss": 0.5282898814179177,
-    "train_runtime": 424.1274,
     "train_samples": 8551,
-    "train_samples_per_second": 403.228,
-    "train_steps_per_second": 4.055
 }

 {
     "epoch": 20.0,
+    "eval_average_metrics": 52.55846445665645,
+    "eval_loss": 0.22525694966316223,
+    "eval_matthews_correlation": 52.55846445665645,
+    "eval_runtime": 1.2083,
+    "eval_samples_per_second": 431.173,
+    "test_average_metrics": 63.756766360647745,
+    "test_loss": 0.18106061220169067,
+    "test_matthews_correlation": 63.756766360647745,
+    "test_runtime": 1.2266,
+    "test_samples_per_second": 425.574,
     "train_loss": 0.5282898814179177,
+    "train_runtime": 422.8779,
     "train_samples": 8551,
+    "train_samples_per_second": 404.419,
+    "train_steps_per_second": 4.067
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "eval_average_metrics": 52.359840871035765,
-    "eval_loss": 0.2282242476940155,
-    "eval_matthews_correlation": 52.359840871035765,
-    "eval_runtime": 0.9075,
-    "eval_samples_per_second": 574.107
 }

 {
     "epoch": 20.0,
+    "eval_average_metrics": 52.55846445665645,
+    "eval_loss": 0.22525694966316223,
+    "eval_matthews_correlation": 52.55846445665645,
+    "eval_runtime": 1.2083,
+    "eval_samples_per_second": 431.173
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5c97f3e6f26418395f43684b519f6fbbfe61587fdf0b7f909b63153c847e99b
-size 1084131

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3bbc6bb60a0e9a5a611381f99725d8ff5f079fda737349a7ec175298f1b464e
+size 7551621

runs/Feb01_00-35-21_node1/1643647072.4568229/events.out.tfevents.1643647072.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2eec98c8506b77fac2f6f93648af3514b1d856bc587d91098be10bbd438852d8
+size 5011

runs/Feb01_00-35-21_node1/events.out.tfevents.1643647072.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4fb0a5519639038b689386956ca41fc8f5f1bec052201aaec72142a139e237ed
+size 4304

runs/Jan31_20-22-53_node1/events.out.tfevents.1643631902.node1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:875ddb215692219fe42ebcabf199c8821b5675ca060a7f4893ee0e578eb4c486
-size 7113

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7b0be464bdd99e7e876ca5647ad2c7836c421cbd20a648d6a2648b1b17b8627
+size 7801

runs/Jan31_20-22-53_node1/events.out.tfevents.1643632326.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67469b42186d9407b3095485ef49514c1f0f317abf04186e198a20bb130ee140
+size 708

test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "test_average_metrics": 63.24519496421077,
-    "test_loss": 0.18458954989910126,
-    "test_matthews_correlation": 63.24519496421077,
-    "test_runtime": 0.8502,
-    "test_samples_per_second": 614.001
 }

 {
     "epoch": 20.0,
+    "test_average_metrics": 63.756766360647745,
+    "test_loss": 0.18106061220169067,
+    "test_matthews_correlation": 63.756766360647745,
+    "test_runtime": 1.2266,
+    "test_samples_per_second": 425.574
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
     "train_loss": 0.5282898814179177,
-    "train_runtime": 424.1274,
     "train_samples": 8551,
-    "train_samples_per_second": 403.228,
-    "train_steps_per_second": 4.055
 }

 {
     "epoch": 20.0,
     "train_loss": 0.5282898814179177,
+    "train_runtime": 422.8779,
     "train_samples": 8551,
+    "train_samples_per_second": 404.419,
+    "train_steps_per_second": 4.067
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 52.359840871035765,
-  "best_model_checkpoint": "outputs/bitfit/t5-base/cola/checkpoint-1290",
   "epoch": 20.0,
   "global_step": 1720,
   "is_hyper_param_search": false,
@@ -8,49 +8,22 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 4.8104567527771,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.763,
-      "eval_samples_per_second": 682.828,
-      "step": 86
     },
     {
-      "epoch": 2.0,
-      "eval_average_metrics": 8.869450752831899,
-      "eval_loss": 0.27582260966300964,
-      "eval_matthews_correlation": 8.869450752831899,
-      "eval_runtime": 0.8417,
-      "eval_samples_per_second": 619.016,
-      "step": 172
-    },
-    {
-      "epoch": 3.0,
-      "eval_average_metrics": 43.97683870357735,
-      "eval_loss": 0.21786993741989136,
-      "eval_matthews_correlation": 43.97683870357735,
-      "eval_runtime": 0.8315,
-      "eval_samples_per_second": 626.599,
-      "step": 258
-    },
-    {
-      "epoch": 4.0,
-      "eval_average_metrics": 46.78131759250157,
-      "eval_loss": 0.22430144250392914,
-      "eval_matthews_correlation": 46.78131759250157,
-      "eval_runtime": 0.8615,
-      "eval_samples_per_second": 604.782,
-      "step": 344
-    },
-    {
-      "epoch": 5.0,
-      "eval_average_metrics": 49.53306157776009,
-      "eval_loss": 0.21720413863658905,
-      "eval_matthews_correlation": 49.53306157776009,
-      "eval_runtime": 0.8515,
-      "eval_samples_per_second": 611.84,
-      "step": 430
     },
     {
       "epoch": 5.81,
@@ -59,58 +32,22 @@
       "step": 500
     },
     {
-      "epoch": 6.0,
-      "eval_average_metrics": 48.16295515684713,
-      "eval_loss": 0.22913119196891785,
-      "eval_matthews_correlation": 48.16295515684713,
-      "eval_runtime": 0.8751,
-      "eval_samples_per_second": 595.357,
-      "step": 516
-    },
-    {
-      "epoch": 7.0,
-      "eval_average_metrics": 47.85938832793908,
-      "eval_loss": 0.23619267344474792,
-      "eval_matthews_correlation": 47.85938832793908,
-      "eval_runtime": 0.8864,
-      "eval_samples_per_second": 587.749,
-      "step": 602
-    },
-    {
-      "epoch": 8.0,
-      "eval_average_metrics": 49.724093419139464,
-      "eval_loss": 0.2390584498643875,
-      "eval_matthews_correlation": 49.724093419139464,
-      "eval_runtime": 0.8668,
-      "eval_samples_per_second": 601.078,
-      "step": 688
-    },
-    {
-      "epoch": 9.0,
-      "eval_average_metrics": 48.86384938654592,
-      "eval_loss": 0.22121600806713104,
-      "eval_matthews_correlation": 48.86384938654592,
-      "eval_runtime": 0.8908,
-      "eval_samples_per_second": 584.879,
-      "step": 774
-    },
-    {
-      "epoch": 10.0,
-      "eval_average_metrics": 48.08237616875362,
-      "eval_loss": 0.2251322716474533,
-      "eval_matthews_correlation": 48.08237616875362,
-      "eval_runtime": 0.8537,
-      "eval_samples_per_second": 610.303,
-      "step": 860
     },
     {
-      "epoch": 11.0,
-      "eval_average_metrics": 47.083822335710934,
-      "eval_loss": 0.23612065613269806,
-      "eval_matthews_correlation": 47.083822335710934,
-      "eval_runtime": 0.852,
-      "eval_samples_per_second": 611.521,
-      "step": 946
     },
     {
       "epoch": 11.63,
@@ -119,58 +56,31 @@
       "step": 1000
     },
     {
-      "epoch": 12.0,
-      "eval_average_metrics": 49.76615268960096,
-      "eval_loss": 0.2268751710653305,
-      "eval_matthews_correlation": 49.76615268960096,
-      "eval_runtime": 0.8867,
-      "eval_samples_per_second": 587.54,
-      "step": 1032
-    },
-    {
-      "epoch": 13.0,
-      "eval_average_metrics": 50.45736339822007,
-      "eval_loss": 0.22725746035575867,
-      "eval_matthews_correlation": 50.45736339822007,
-      "eval_runtime": 0.848,
-      "eval_samples_per_second": 614.383,
-      "step": 1118
     },
     {
-      "epoch": 14.0,
       "eval_average_metrics": 51.11915736464516,
-      "eval_loss": 0.22515951097011566,
       "eval_matthews_correlation": 51.11915736464516,
-      "eval_runtime": 0.8495,
-      "eval_samples_per_second": 613.291,
-      "step": 1204
     },
     {
-      "epoch": 15.0,
-      "eval_average_metrics": 52.359840871035765,
-      "eval_loss": 0.2282242476940155,
-      "eval_matthews_correlation": 52.359840871035765,
-      "eval_runtime": 0.9084,
-      "eval_samples_per_second": 573.516,
-      "step": 1290
-    },
-    {
-      "epoch": 16.0,
-      "eval_average_metrics": 50.78390137665081,
-      "eval_loss": 0.24213995039463043,
-      "eval_matthews_correlation": 50.78390137665081,
-      "eval_runtime": 0.7976,
-      "eval_samples_per_second": 653.201,
-      "step": 1376
-    },
-    {
-      "epoch": 17.0,
-      "eval_average_metrics": 51.452415683714314,
-      "eval_loss": 0.22793160378932953,
-      "eval_matthews_correlation": 51.452415683714314,
-      "eval_runtime": 0.8964,
-      "eval_samples_per_second": 581.215,
-      "step": 1462
     },
     {
       "epoch": 17.44,
@@ -179,40 +89,22 @@
       "step": 1500
     },
     {
-      "epoch": 18.0,
-      "eval_average_metrics": 51.452415683714314,
-      "eval_loss": 0.23017793893814087,
-      "eval_matthews_correlation": 51.452415683714314,
-      "eval_runtime": 0.8935,
-      "eval_samples_per_second": 583.099,
-      "step": 1548
-    },
-    {
-      "epoch": 19.0,
-      "eval_average_metrics": 50.9850664467699,
-      "eval_loss": 0.2308470457792282,
-      "eval_matthews_correlation": 50.9850664467699,
-      "eval_runtime": 0.8691,
-      "eval_samples_per_second": 599.475,
-      "step": 1634
-    },
-    {
-      "epoch": 20.0,
-      "eval_average_metrics": 50.9850664467699,
-      "eval_loss": 0.22891275584697723,
-      "eval_matthews_correlation": 50.9850664467699,
-      "eval_runtime": 0.8366,
-      "eval_samples_per_second": 622.759,
-      "step": 1720
     },
     {
       "epoch": 20.0,
       "step": 1720,
       "total_flos": 6646762904679216.0,
       "train_loss": 0.5282898814179177,
-      "train_runtime": 424.1274,
-      "train_samples_per_second": 403.228,
-      "train_steps_per_second": 4.055
     }
   ],
   "max_steps": 1720,

 {
+  "best_metric": 52.55846445665645,
+  "best_model_checkpoint": "outputs/bitfit/t5-base/cola/checkpoint-800",
   "epoch": 20.0,
   "global_step": 1720,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 2.33,
+      "eval_average_metrics": 21.053609210794303,
+      "eval_loss": 0.2652588486671448,
+      "eval_matthews_correlation": 21.053609210794303,
+      "eval_runtime": 0.8287,
+      "eval_samples_per_second": 628.717,
+      "step": 200
     },
     {
+      "epoch": 4.65,
+      "eval_average_metrics": 44.5285953164197,
+      "eval_loss": 0.23253390192985535,
+      "eval_matthews_correlation": 44.5285953164197,
+      "eval_runtime": 0.8258,
+      "eval_samples_per_second": 630.924,
+      "step": 400
     },
     {
       "epoch": 5.81,
       "step": 500
     },
     {
+      "epoch": 6.98,
+      "eval_average_metrics": 47.511676688521085,
+      "eval_loss": 0.25159838795661926,
+      "eval_matthews_correlation": 47.511676688521085,
+      "eval_runtime": 0.8388,
+      "eval_samples_per_second": 621.09,
+      "step": 600
     },
     {
+      "epoch": 9.3,
+      "eval_average_metrics": 52.55846445665645,
+      "eval_loss": 0.22525694966316223,
+      "eval_matthews_correlation": 52.55846445665645,
+      "eval_runtime": 1.5205,
+      "eval_samples_per_second": 342.658,
+      "step": 800
     },
     {
       "epoch": 11.63,
       "step": 1000
     },
     {
+      "epoch": 11.63,
+      "eval_average_metrics": 50.296653045050874,
+      "eval_loss": 0.23001490533351898,
+      "eval_matthews_correlation": 50.296653045050874,
+      "eval_runtime": 1.2989,
+      "eval_samples_per_second": 401.107,
+      "step": 1000
     },
     {
+      "epoch": 13.95,
       "eval_average_metrics": 51.11915736464516,
+      "eval_loss": 0.22642329335212708,
       "eval_matthews_correlation": 51.11915736464516,
+      "eval_runtime": 1.2231,
+      "eval_samples_per_second": 425.968,
+      "step": 1200
     },
     {
+      "epoch": 16.28,
+      "eval_average_metrics": 50.87277150375961,
+      "eval_loss": 0.22626039385795593,
+      "eval_matthews_correlation": 50.87277150375961,
+      "eval_runtime": 1.1916,
+      "eval_samples_per_second": 437.245,
+      "step": 1400
     },
     {
       "epoch": 17.44,
       "step": 1500
     },
     {
+      "epoch": 18.6,
+      "eval_average_metrics": 52.035569173764515,
+      "eval_loss": 0.22766831517219543,
+      "eval_matthews_correlation": 52.035569173764515,
+      "eval_runtime": 1.2214,
+      "eval_samples_per_second": 426.575,
+      "step": 1600
     },
     {
       "epoch": 20.0,
       "step": 1720,
       "total_flos": 6646762904679216.0,
       "train_loss": 0.5282898814179177,
+      "train_runtime": 422.8779,
+      "train_samples_per_second": 404.419,
+      "train_steps_per_second": 4.067
     }
   ],
   "max_steps": 1720,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a646a3fb66d1560b545d08f84e93ab16cd3153ff19e20982a22b554a34ec127
 size 3183

 version https://git-lfs.github.com/spec/v1
+oid sha256:d45981c3869ac88ceb617a2173cfab542cb6a12ef612e4821407250b68788864
 size 3183

training_config.json CHANGED Viewed

@@ -1 +1 @@

- {"dataset_config_name": ["en"], "delta_type": "~~bitfit~~", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "cola", "eval_steps": 200, "evaluation_strategy": "steps", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "max_source_length": 128, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 20, "output_dir": "outputs/bitfit/t5-base/cola", "overwrite_output_dir": true, "per_device_eval_batch_size": 100, "per_device_train_batch_size": 100, "predict_with_generate": true, "push_to_hub": true, "save_steps": 200, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "cola", "test_dataset_config_name": ["en"], "test_dataset_name": "cola", "tokenizer_name": "../../../../plm_cache/t5-base", "warmup_steps": 500}

+ {"bottleneck_dim": 24, "dataset_config_name": ["en"], "delta_type": "adapter", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "cola", "eval_steps": 200, "evaluation_strategy": "steps", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "max_source_length": 128, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 20, "output_dir": "outputs/bitfit/t5-base/cola", "overwrite_output_dir": true, "per_device_eval_batch_size": 100, "per_device_train_batch_size": 100, "predict_with_generate": true, "push_to_hub": true, "save_steps": 200, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "cola", "test_dataset_config_name": ["en"], "test_dataset_name": "cola", "tokenizer_name": "../../../../plm_cache/t5-base", "unfrozen_modules": ["deltas", "layer_norm", "final_layer_norm"], "warmup_steps": 500}