Training in progress, step 200

Browse files

Files changed (13) hide show

all_results.json +14 -14
eval_results.json +5 -5
pytorch_model.bin +1 -1
runs/Jan31_19-25-22_node1/events.out.tfevents.1643628441.node1 +2 -2
runs/Jan31_19-25-22_node1/events.out.tfevents.1643628866.node1 +3 -0
runs/Jan31_20-22-53_node1/1643631902.337454/events.out.tfevents.1643631902.node1 +3 -0
runs/Jan31_20-22-53_node1/events.out.tfevents.1643631902.node1 +3 -0
test_results.json +5 -5
tokenizer.json +0 -0
train_results.json +4 -4
trainer_state.json +110 -110
training_args.bin +1 -1
training_config.json +1 -1

all_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
     "epoch": 20.0,
-    "eval_average_metrics": 0.0,
-    "eval_loss": 0.27982431650161743,
-    "eval_matthews_correlation": 0.0,
-    "eval_runtime": 0.7644,
-    "eval_samples_per_second": 681.568,
-    "test_average_metrics": 0.0,
-    "test_loss": 0.27551037073135376,
-    "test_matthews_correlation": 0.0,
-    "test_runtime": 0.6746,
-    "test_samples_per_second": 773.807,
-    "train_loss": 0.2779904210290243,
-    "train_runtime": 435.9382,
     "train_samples": 8551,
-    "train_samples_per_second": 392.303,
-    "train_steps_per_second": 3.946
 }

 {
     "epoch": 20.0,
+    "eval_average_metrics": 52.359840871035765,
+    "eval_loss": 0.2282242476940155,
+    "eval_matthews_correlation": 52.359840871035765,
+    "eval_runtime": 0.9075,
+    "eval_samples_per_second": 574.107,
+    "test_average_metrics": 63.24519496421077,
+    "test_loss": 0.18458954989910126,
+    "test_matthews_correlation": 63.24519496421077,
+    "test_runtime": 0.8502,
+    "test_samples_per_second": 614.001,
+    "train_loss": 0.5282898814179177,
+    "train_runtime": 424.1274,
     "train_samples": 8551,
+    "train_samples_per_second": 403.228,
+    "train_steps_per_second": 4.055
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "eval_average_metrics": 0.0,
-    "eval_loss": 0.27982431650161743,
-    "eval_matthews_correlation": 0.0,
-    "eval_runtime": 0.7644,
-    "eval_samples_per_second": 681.568
 }

 {
     "epoch": 20.0,
+    "eval_average_metrics": 52.359840871035765,
+    "eval_loss": 0.2282242476940155,
+    "eval_matthews_correlation": 52.359840871035765,
+    "eval_runtime": 0.9075,
+    "eval_samples_per_second": 574.107
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb66da5e6b61c2b4cc2034fe8b508ecce6ee8ee9982941b9c7e22e9f5eeb30fa
 size 1084131

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a589ded531d3bbb72a7a6e9aeb707c0b45b2aa234b814b877f8e496c28af491
 size 1084131

runs/Jan31_19-25-22_node1/events.out.tfevents.1643628441.node1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b457c8425912279942596ceb9e0ac6c8b7ca2a9cf5b3b17a8978188864b4e6b9
-size 11116

 version https://git-lfs.github.com/spec/v1
+oid sha256:334a48cecac110d2e28a68203c3fa53bc97487bcdf69a630c7610b701c5afa43
+size 11804

runs/Jan31_19-25-22_node1/events.out.tfevents.1643628866.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b254740812b3b5b0cf5053822c0316b14a252f438bcb603dd521c2369e286dd
+size 708

runs/Jan31_20-22-53_node1/1643631902.337454/events.out.tfevents.1643631902.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:394ea619e40e78d2e08e5492feceb7fc0905a3e73ac274ebea205b9352f84dcb
+size 5011

runs/Jan31_20-22-53_node1/events.out.tfevents.1643631902.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a2143aa1f51e84731a49af5406404480d81036c9e3de46611ba73399f9f75ed
+size 4304

test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "test_average_metrics": 0.0,
-    "test_loss": 0.27551037073135376,
-    "test_matthews_correlation": 0.0,
-    "test_runtime": 0.6746,
-    "test_samples_per_second": 773.807
 }

 {
     "epoch": 20.0,
+    "test_average_metrics": 63.24519496421077,
+    "test_loss": 0.18458954989910126,
+    "test_matthews_correlation": 63.24519496421077,
+    "test_runtime": 0.8502,
+    "test_samples_per_second": 614.001
 }

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "train_loss": 0.2779904210290243,
-    "train_runtime": 435.9382,
     "train_samples": 8551,
-    "train_samples_per_second": 392.303,
-    "train_steps_per_second": 3.946
 }

 {
     "epoch": 20.0,
+    "train_loss": 0.5282898814179177,
+    "train_runtime": 424.1274,
     "train_samples": 8551,
+    "train_samples_per_second": 403.228,
+    "train_steps_per_second": 4.055
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.0,
-  "best_model_checkpoint": "outputs/bitfit/t5-base/cola/checkpoint-86",
   "epoch": 20.0,
   "global_step": 1720,
   "is_hyper_param_search": false,
@@ -10,209 +10,209 @@
     {
       "epoch": 1.0,
       "eval_average_metrics": 0.0,
-      "eval_loss": 0.27982431650161743,
       "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.8066,
-      "eval_samples_per_second": 645.909,
       "step": 86
     },
     {
       "epoch": 2.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 0.27295124530792236,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.8088,
-      "eval_samples_per_second": 644.148,
       "step": 172
     },
     {
       "epoch": 3.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 0.27825212478637695,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.7356,
-      "eval_samples_per_second": 708.276,
       "step": 258
     },
     {
       "epoch": 4.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 0.2720172107219696,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.7952,
-      "eval_samples_per_second": 655.185,
       "step": 344
     },
     {
       "epoch": 5.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 0.2690984904766083,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.7358,
-      "eval_samples_per_second": 708.105,
       "step": 430
     },
     {
       "epoch": 5.81,
-      "learning_rate": 0.002127906976744186,
-      "loss": 0.3,
       "step": 500
     },
     {
       "epoch": 6.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 0.2694063186645508,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.7511,
-      "eval_samples_per_second": 693.659,
       "step": 516
     },
     {
       "epoch": 7.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 0.28033140301704407,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.7448,
-      "eval_samples_per_second": 699.547,
       "step": 602
     },
     {
       "epoch": 8.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 0.2737719714641571,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.7024,
-      "eval_samples_per_second": 741.703,
       "step": 688
     },
     {
       "epoch": 9.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 0.26990658044815063,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.7557,
-      "eval_samples_per_second": 689.411,
       "step": 774
     },
     {
       "epoch": 10.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 0.269914448261261,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.7515,
-      "eval_samples_per_second": 693.272,
       "step": 860
     },
     {
       "epoch": 11.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 0.2703316807746887,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.7544,
-      "eval_samples_per_second": 690.634,
       "step": 946
     },
     {
       "epoch": 11.63,
-      "learning_rate": 0.0012558139534883722,
-      "loss": 0.2698,
       "step": 1000
     },
     {
       "epoch": 12.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 0.2690633535385132,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.8328,
-      "eval_samples_per_second": 625.617,
       "step": 1032
     },
     {
       "epoch": 13.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 0.2688796818256378,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.7677,
-      "eval_samples_per_second": 678.682,
       "step": 1118
     },
     {
       "epoch": 14.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 0.26915279030799866,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.7677,
-      "eval_samples_per_second": 678.671,
       "step": 1204
     },
     {
       "epoch": 15.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 0.27187806367874146,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.7511,
-      "eval_samples_per_second": 693.632,
       "step": 1290
     },
     {
       "epoch": 16.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 0.27496567368507385,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.7145,
-      "eval_samples_per_second": 729.175,
       "step": 1376
     },
     {
       "epoch": 17.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 0.26937127113342285,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.7488,
-      "eval_samples_per_second": 695.759,
       "step": 1462
     },
     {
       "epoch": 17.44,
-      "learning_rate": 0.0003837209302325582,
-      "loss": 0.2686,
       "step": 1500
     },
     {
       "epoch": 18.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 0.26900675892829895,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.7556,
-      "eval_samples_per_second": 689.484,
       "step": 1548
     },
     {
       "epoch": 19.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 0.2690284252166748,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.7419,
-      "eval_samples_per_second": 702.253,
       "step": 1634
     },
     {
       "epoch": 20.0,
-      "eval_average_metrics": 0.0,
-      "eval_loss": 0.26897749304771423,
-      "eval_matthews_correlation": 0.0,
-      "eval_runtime": 0.7455,
-      "eval_samples_per_second": 698.863,
       "step": 1720
     },
     {
       "epoch": 20.0,
       "step": 1720,
       "total_flos": 6646762904679216.0,
-      "train_loss": 0.2779904210290243,
-      "train_runtime": 435.9382,
-      "train_samples_per_second": 392.303,
-      "train_steps_per_second": 3.946
     }
   ],
   "max_steps": 1720,

 {
+  "best_metric": 52.359840871035765,
+  "best_model_checkpoint": "outputs/bitfit/t5-base/cola/checkpoint-1290",
   "epoch": 20.0,
   "global_step": 1720,
   "is_hyper_param_search": false,
     {
       "epoch": 1.0,
       "eval_average_metrics": 0.0,
+      "eval_loss": 4.8104567527771,
       "eval_matthews_correlation": 0.0,
+      "eval_runtime": 0.763,
+      "eval_samples_per_second": 682.828,
       "step": 86
     },
     {
       "epoch": 2.0,
+      "eval_average_metrics": 8.869450752831899,
+      "eval_loss": 0.27582260966300964,
+      "eval_matthews_correlation": 8.869450752831899,
+      "eval_runtime": 0.8417,
+      "eval_samples_per_second": 619.016,
       "step": 172
     },
     {
       "epoch": 3.0,
+      "eval_average_metrics": 43.97683870357735,
+      "eval_loss": 0.21786993741989136,
+      "eval_matthews_correlation": 43.97683870357735,
+      "eval_runtime": 0.8315,
+      "eval_samples_per_second": 626.599,
       "step": 258
     },
     {
       "epoch": 4.0,
+      "eval_average_metrics": 46.78131759250157,
+      "eval_loss": 0.22430144250392914,
+      "eval_matthews_correlation": 46.78131759250157,
+      "eval_runtime": 0.8615,
+      "eval_samples_per_second": 604.782,
       "step": 344
     },
     {
       "epoch": 5.0,
+      "eval_average_metrics": 49.53306157776009,
+      "eval_loss": 0.21720413863658905,
+      "eval_matthews_correlation": 49.53306157776009,
+      "eval_runtime": 0.8515,
+      "eval_samples_per_second": 611.84,
       "step": 430
     },
     {
       "epoch": 5.81,
+      "learning_rate": 0.0003,
+      "loss": 1.3817,
       "step": 500
     },
     {
       "epoch": 6.0,
+      "eval_average_metrics": 48.16295515684713,
+      "eval_loss": 0.22913119196891785,
+      "eval_matthews_correlation": 48.16295515684713,
+      "eval_runtime": 0.8751,
+      "eval_samples_per_second": 595.357,
       "step": 516
     },
     {
       "epoch": 7.0,
+      "eval_average_metrics": 47.85938832793908,
+      "eval_loss": 0.23619267344474792,
+      "eval_matthews_correlation": 47.85938832793908,
+      "eval_runtime": 0.8864,
+      "eval_samples_per_second": 587.749,
       "step": 602
     },
     {
       "epoch": 8.0,
+      "eval_average_metrics": 49.724093419139464,
+      "eval_loss": 0.2390584498643875,
+      "eval_matthews_correlation": 49.724093419139464,
+      "eval_runtime": 0.8668,
+      "eval_samples_per_second": 601.078,
       "step": 688
     },
     {
       "epoch": 9.0,
+      "eval_average_metrics": 48.86384938654592,
+      "eval_loss": 0.22121600806713104,
+      "eval_matthews_correlation": 48.86384938654592,
+      "eval_runtime": 0.8908,
+      "eval_samples_per_second": 584.879,
       "step": 774
     },
     {
       "epoch": 10.0,
+      "eval_average_metrics": 48.08237616875362,
+      "eval_loss": 0.2251322716474533,
+      "eval_matthews_correlation": 48.08237616875362,
+      "eval_runtime": 0.8537,
+      "eval_samples_per_second": 610.303,
       "step": 860
     },
     {
       "epoch": 11.0,
+      "eval_average_metrics": 47.083822335710934,
+      "eval_loss": 0.23612065613269806,
+      "eval_matthews_correlation": 47.083822335710934,
+      "eval_runtime": 0.852,
+      "eval_samples_per_second": 611.521,
       "step": 946
     },
     {
       "epoch": 11.63,
+      "learning_rate": 0.00017704918032786883,
+      "loss": 0.1859,
       "step": 1000
     },
     {
       "epoch": 12.0,
+      "eval_average_metrics": 49.76615268960096,
+      "eval_loss": 0.2268751710653305,
+      "eval_matthews_correlation": 49.76615268960096,
+      "eval_runtime": 0.8867,
+      "eval_samples_per_second": 587.54,
       "step": 1032
     },
     {
       "epoch": 13.0,
+      "eval_average_metrics": 50.45736339822007,
+      "eval_loss": 0.22725746035575867,
+      "eval_matthews_correlation": 50.45736339822007,
+      "eval_runtime": 0.848,
+      "eval_samples_per_second": 614.383,
       "step": 1118
     },
     {
       "epoch": 14.0,
+      "eval_average_metrics": 51.11915736464516,
+      "eval_loss": 0.22515951097011566,
+      "eval_matthews_correlation": 51.11915736464516,
+      "eval_runtime": 0.8495,
+      "eval_samples_per_second": 613.291,
       "step": 1204
     },
     {
       "epoch": 15.0,
+      "eval_average_metrics": 52.359840871035765,
+      "eval_loss": 0.2282242476940155,
+      "eval_matthews_correlation": 52.359840871035765,
+      "eval_runtime": 0.9084,
+      "eval_samples_per_second": 573.516,
       "step": 1290
     },
     {
       "epoch": 16.0,
+      "eval_average_metrics": 50.78390137665081,
+      "eval_loss": 0.24213995039463043,
+      "eval_matthews_correlation": 50.78390137665081,
+      "eval_runtime": 0.7976,
+      "eval_samples_per_second": 653.201,
       "step": 1376
     },
     {
       "epoch": 17.0,
+      "eval_average_metrics": 51.452415683714314,
+      "eval_loss": 0.22793160378932953,
+      "eval_matthews_correlation": 51.452415683714314,
+      "eval_runtime": 0.8964,
+      "eval_samples_per_second": 581.215,
       "step": 1462
     },
     {
       "epoch": 17.44,
+      "learning_rate": 5.40983606557377e-05,
+      "loss": 0.1748,
       "step": 1500
     },
     {
       "epoch": 18.0,
+      "eval_average_metrics": 51.452415683714314,
+      "eval_loss": 0.23017793893814087,
+      "eval_matthews_correlation": 51.452415683714314,
+      "eval_runtime": 0.8935,
+      "eval_samples_per_second": 583.099,
       "step": 1548
     },
     {
       "epoch": 19.0,
+      "eval_average_metrics": 50.9850664467699,
+      "eval_loss": 0.2308470457792282,
+      "eval_matthews_correlation": 50.9850664467699,
+      "eval_runtime": 0.8691,
+      "eval_samples_per_second": 599.475,
       "step": 1634
     },
     {
       "epoch": 20.0,
+      "eval_average_metrics": 50.9850664467699,
+      "eval_loss": 0.22891275584697723,
+      "eval_matthews_correlation": 50.9850664467699,
+      "eval_runtime": 0.8366,
+      "eval_samples_per_second": 622.759,
       "step": 1720
     },
     {
       "epoch": 20.0,
       "step": 1720,
       "total_flos": 6646762904679216.0,
+      "train_loss": 0.5282898814179177,
+      "train_runtime": 424.1274,
+      "train_samples_per_second": 403.228,
+      "train_steps_per_second": 4.055
     }
   ],
   "max_steps": 1720,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2a6c9356208e65c852641943db784f8160e696fb6cd5e449c34a8681ea7871e
 size 3183

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a646a3fb66d1560b545d08f84e93ab16cd3153ff19e20982a22b554a34ec127
 size 3183

training_config.json CHANGED Viewed

@@ -1 +1 @@

- {"dataset_config_name": ["en"], "delta_type": "bitfit", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "cola", "evaluation_strategy": "~~epoch~~", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "max_source_length": 128, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 20, "output_dir": "outputs/bitfit/t5-base/cola", "overwrite_output_dir": true, "per_device_eval_batch_size": 100, "per_device_train_batch_size": 100, "predict_with_generate": true, "push_to_hub": true, "save_strategy": "~~epoch~~", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "cola", "test_dataset_config_name": ["en"], "test_dataset_name": "cola", "tokenizer_name": "../../../../plm_cache/t5-base", "warmup_steps": 500}

+ {"dataset_config_name": ["en"], "delta_type": "bitfit", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "cola", "eval_steps": 200, "evaluation_strategy": "steps", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "max_source_length": 128, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 20, "output_dir": "outputs/bitfit/t5-base/cola", "overwrite_output_dir": true, "per_device_eval_batch_size": 100, "per_device_train_batch_size": 100, "predict_with_generate": true, "push_to_hub": true, "save_steps": 200, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "cola", "test_dataset_config_name": ["en"], "test_dataset_name": "cola", "tokenizer_name": "../../../../plm_cache/t5-base", "warmup_steps": 500}