Training in progress, step 200

Browse files

Files changed (12) hide show

all_results.json +12 -12
eval_results.json +5 -5
pytorch_model.bin +2 -2
runs/Feb01_01-17-38_node2/events.out.tfevents.1643649573.node2 +2 -2
runs/Feb01_01-17-38_node2/events.out.tfevents.1643651545.node2 +3 -0
runs/Feb02_15-44-43_node1/1643787954.8036234/events.out.tfevents.1643787954.node1 +3 -0
runs/Feb02_15-44-43_node1/events.out.tfevents.1643787954.node1 +3 -0
test_results.json +3 -3
train_results.json +4 -4
trainer_state.json +344 -38
training_args.bin +1 -1
training_config.json +1 -1

all_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
     "epoch": 3.0,
-    "eval_accuracy": 96.7,
-    "eval_average_metrics": 96.7,
-    "eval_loss": 0.044097092002630234,
-    "eval_runtime": 2.8834,
-    "eval_samples_per_second": 346.813,
     "test_accuracy": 93.34862385321101,
     "test_average_metrics": 93.34862385321101,
-    "test_loss": 0.0836009681224823,
-    "test_runtime": 2.7323,
-    "test_samples_per_second": 319.145,
-    "train_loss": 0.3596552710935294,
-    "train_runtime": 685.371,
     "train_samples": 66349,
-    "train_samples_per_second": 290.422,
-    "train_steps_per_second": 2.906
 }

 {
     "epoch": 3.0,
+    "eval_accuracy": 97.5,
+    "eval_average_metrics": 97.5,
+    "eval_loss": 0.03714486584067345,
+    "eval_runtime": 5.7314,
+    "eval_samples_per_second": 174.477,
     "test_accuracy": 93.34862385321101,
     "test_average_metrics": 93.34862385321101,
+    "test_loss": 0.07569558918476105,
+    "test_runtime": 5.6934,
+    "test_samples_per_second": 153.159,
+    "train_loss": 0.058686515289424354,
+    "train_runtime": 1966.0928,
     "train_samples": 66349,
+    "train_samples_per_second": 101.24,
+    "train_steps_per_second": 3.165
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "eval_accuracy": 96.7,
-    "eval_average_metrics": 96.7,
-    "eval_loss": 0.044097092002630234,
-    "eval_runtime": 2.8834,
-    "eval_samples_per_second": 346.813
 }

 {
     "epoch": 3.0,
+    "eval_accuracy": 97.5,
+    "eval_average_metrics": 97.5,
+    "eval_loss": 0.03714486584067345,
+    "eval_runtime": 5.7314,
+    "eval_samples_per_second": 174.477
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7b9e962d197234e245c55a2ee612e5cc71e922fffd99120ed0ff83826fd6db29
-size 7551621

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcddae80c7ed01b1852363b0b7d392786aacd68ed7ff8f3067ff8498b338c0bc
+size 2631685

runs/Feb01_01-17-38_node2/events.out.tfevents.1643649573.node2 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a942af01c3847061f09c4292bb816e9b6a4da1858d1cb9c43c6076250f61078
-size 15843

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e132aaf8f5d06a9ea3156129b23be0ad6ebde851ffcf6504f1b7a70d7ffca35
+size 16519

runs/Feb01_01-17-38_node2/events.out.tfevents.1643651545.node2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6241c004a09a25989d4af4e90c33d228131bac5698bb6d24c840c9100742464d
+size 684

runs/Feb02_15-44-43_node1/1643787954.8036234/events.out.tfevents.1643787954.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:79b5e5b1aa85a1172ed0231111a5f3861a5885155c426002dc6453f10689c3f4
+size 5011

runs/Feb02_15-44-43_node1/events.out.tfevents.1643787954.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eead2938783f064d4f4a1dbd0e9f906ae1b32a7eba3fed4ee4dff7ef16ce1e16
+size 4299

test_results.json CHANGED Viewed

@@ -2,7 +2,7 @@
     "epoch": 3.0,
     "test_accuracy": 93.34862385321101,
     "test_average_metrics": 93.34862385321101,
-    "test_loss": 0.0836009681224823,
-    "test_runtime": 2.7323,
-    "test_samples_per_second": 319.145
 }

     "epoch": 3.0,
     "test_accuracy": 93.34862385321101,
     "test_average_metrics": 93.34862385321101,
+    "test_loss": 0.07569558918476105,
+    "test_runtime": 5.6934,
+    "test_samples_per_second": 153.159
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "train_loss": 0.3596552710935294,
-    "train_runtime": 685.371,
     "train_samples": 66349,
-    "train_samples_per_second": 290.422,
-    "train_steps_per_second": 2.906
 }

 {
     "epoch": 3.0,
+    "train_loss": 0.058686515289424354,
+    "train_runtime": 1966.0928,
     "train_samples": 66349,
+    "train_samples_per_second": 101.24,
+    "train_steps_per_second": 3.165
 }

trainer_state.json CHANGED Viewed

@@ -1,70 +1,376 @@
 {
-  "best_metric": 96.7,
-  "best_model_checkpoint": "outputs/bitfit/t5-base/sst2/checkpoint-500",
   "epoch": 3.0,
-  "global_step": 1992,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.75,
-      "learning_rate": 0.0003,
-      "loss": 1.2354,
       "step": 500
     },
     {
-      "epoch": 0.75,
       "eval_accuracy": 96.7,
       "eval_average_metrics": 96.7,
-      "eval_loss": 0.044097092002630234,
-      "eval_runtime": 2.8987,
-      "eval_samples_per_second": 344.985,
-      "step": 500
     },
     {
-      "epoch": 1.51,
-      "learning_rate": 0.00019946380697050936,
-      "loss": 0.0704,
       "step": 1000
     },
     {
-      "epoch": 1.51,
-      "eval_accuracy": 96.5,
-      "eval_average_metrics": 96.5,
-      "eval_loss": 0.042973704636096954,
-      "eval_runtime": 2.8885,
-      "eval_samples_per_second": 346.198,
       "step": 1000
     },
     {
-      "epoch": 2.26,
-      "learning_rate": 9.892761394101876e-05,
-      "loss": 0.0651,
-      "step": 1500
     },
     {
-      "epoch": 2.26,
-      "eval_accuracy": 96.5,
-      "eval_average_metrics": 96.5,
-      "eval_loss": 0.04074199125170708,
-      "eval_runtime": 2.8768,
-      "eval_samples_per_second": 347.613,
       "step": 1500
     },
     {
       "epoch": 3.0,
-      "step": 1992,
-      "total_flos": 1.5337491316024032e+16,
-      "train_loss": 0.3596552710935294,
-      "train_runtime": 685.371,
-      "train_samples_per_second": 290.422,
-      "train_steps_per_second": 2.906
     }
   ],
-  "max_steps": 1992,
   "num_train_epochs": 3,
-  "total_flos": 1.5337491316024032e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 97.5,
+  "best_model_checkpoint": "outputs/bitfit/t5-base/sst2/checkpoint-3000",
   "epoch": 3.0,
+  "global_step": 6222,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.1,
+      "eval_accuracy": 97.3,
+      "eval_average_metrics": 97.3,
+      "eval_loss": 0.04369654133915901,
+      "eval_runtime": 5.1897,
+      "eval_samples_per_second": 192.69,
+      "step": 200
+    },
+    {
+      "epoch": 0.19,
+      "eval_accuracy": 97.3,
+      "eval_average_metrics": 97.3,
+      "eval_loss": 0.042765092104673386,
+      "eval_runtime": 5.6341,
+      "eval_samples_per_second": 177.492,
+      "step": 400
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00027589199614271937,
+      "loss": 0.1281,
       "step": 500
     },
     {
+      "epoch": 0.29,
+      "eval_accuracy": 97.2,
+      "eval_average_metrics": 97.2,
+      "eval_loss": 0.037586040794849396,
+      "eval_runtime": 6.2353,
+      "eval_samples_per_second": 160.377,
+      "step": 600
+    },
+    {
+      "epoch": 0.39,
       "eval_accuracy": 96.7,
       "eval_average_metrics": 96.7,
+      "eval_loss": 0.04588627442717552,
+      "eval_runtime": 5.966,
+      "eval_samples_per_second": 167.617,
+      "step": 800
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 0.0002517839922854387,
+      "loss": 0.0649,
       "step": 1000
     },
     {
+      "epoch": 0.48,
+      "eval_accuracy": 97.1,
+      "eval_average_metrics": 97.1,
+      "eval_loss": 0.040396977216005325,
+      "eval_runtime": 5.3919,
+      "eval_samples_per_second": 185.463,
       "step": 1000
     },
     {
+      "epoch": 0.58,
+      "eval_accuracy": 97.2,
+      "eval_average_metrics": 97.2,
+      "eval_loss": 0.03829416632652283,
+      "eval_runtime": 5.3561,
+      "eval_samples_per_second": 186.702,
+      "step": 1200
+    },
+    {
+      "epoch": 0.68,
+      "eval_accuracy": 97.3,
+      "eval_average_metrics": 97.3,
+      "eval_loss": 0.039076462388038635,
+      "eval_runtime": 5.9241,
+      "eval_samples_per_second": 168.803,
+      "step": 1400
     },
     {
+      "epoch": 0.72,
+      "learning_rate": 0.00022767598842815813,
+      "loss": 0.0578,
       "step": 1500
     },
+    {
+      "epoch": 0.77,
+      "eval_accuracy": 97.1,
+      "eval_average_metrics": 97.1,
+      "eval_loss": 0.04230912774801254,
+      "eval_runtime": 5.153,
+      "eval_samples_per_second": 194.06,
+      "step": 1600
+    },
+    {
+      "epoch": 0.87,
+      "eval_accuracy": 97.3,
+      "eval_average_metrics": 97.3,
+      "eval_loss": 0.03823951631784439,
+      "eval_runtime": 5.1279,
+      "eval_samples_per_second": 195.011,
+      "step": 1800
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00020356798457087753,
+      "loss": 0.0582,
+      "step": 2000
+    },
+    {
+      "epoch": 0.96,
+      "eval_accuracy": 97.1,
+      "eval_average_metrics": 97.1,
+      "eval_loss": 0.0395108200609684,
+      "eval_runtime": 5.8042,
+      "eval_samples_per_second": 172.29,
+      "step": 2000
+    },
+    {
+      "epoch": 1.06,
+      "eval_accuracy": 97.1,
+      "eval_average_metrics": 97.1,
+      "eval_loss": 0.04088559374213219,
+      "eval_runtime": 5.4894,
+      "eval_samples_per_second": 182.168,
+      "step": 2200
+    },
+    {
+      "epoch": 1.16,
+      "eval_accuracy": 97.2,
+      "eval_average_metrics": 97.2,
+      "eval_loss": 0.038739945739507675,
+      "eval_runtime": 4.6293,
+      "eval_samples_per_second": 216.018,
+      "step": 2400
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0001794599807135969,
+      "loss": 0.054,
+      "step": 2500
+    },
+    {
+      "epoch": 1.25,
+      "eval_accuracy": 97.3,
+      "eval_average_metrics": 97.3,
+      "eval_loss": 0.04564524069428444,
+      "eval_runtime": 5.2048,
+      "eval_samples_per_second": 192.132,
+      "step": 2600
+    },
+    {
+      "epoch": 1.35,
+      "eval_accuracy": 97.3,
+      "eval_average_metrics": 97.3,
+      "eval_loss": 0.03781759738922119,
+      "eval_runtime": 5.6194,
+      "eval_samples_per_second": 177.956,
+      "step": 2800
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00015535197685631627,
+      "loss": 0.0533,
+      "step": 3000
+    },
+    {
+      "epoch": 1.45,
+      "eval_accuracy": 97.5,
+      "eval_average_metrics": 97.5,
+      "eval_loss": 0.03714486584067345,
+      "eval_runtime": 5.328,
+      "eval_samples_per_second": 187.688,
+      "step": 3000
+    },
+    {
+      "epoch": 1.54,
+      "eval_accuracy": 97.5,
+      "eval_average_metrics": 97.5,
+      "eval_loss": 0.0382937453687191,
+      "eval_runtime": 4.0581,
+      "eval_samples_per_second": 246.419,
+      "step": 3200
+    },
+    {
+      "epoch": 1.64,
+      "eval_accuracy": 97.5,
+      "eval_average_metrics": 97.5,
+      "eval_loss": 0.037162039428949356,
+      "eval_runtime": 5.3134,
+      "eval_samples_per_second": 188.202,
+      "step": 3400
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.00013124397299903566,
+      "loss": 0.0539,
+      "step": 3500
+    },
+    {
+      "epoch": 1.74,
+      "eval_accuracy": 97.5,
+      "eval_average_metrics": 97.5,
+      "eval_loss": 0.03954707458615303,
+      "eval_runtime": 5.9646,
+      "eval_samples_per_second": 167.655,
+      "step": 3600
+    },
+    {
+      "epoch": 1.83,
+      "eval_accuracy": 97.2,
+      "eval_average_metrics": 97.2,
+      "eval_loss": 0.037706729024648666,
+      "eval_runtime": 4.5321,
+      "eval_samples_per_second": 220.649,
+      "step": 3800
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00010713596914175504,
+      "loss": 0.0531,
+      "step": 4000
+    },
+    {
+      "epoch": 1.93,
+      "eval_accuracy": 97.2,
+      "eval_average_metrics": 97.2,
+      "eval_loss": 0.03779396042227745,
+      "eval_runtime": 6.6618,
+      "eval_samples_per_second": 150.108,
+      "step": 4000
+    },
+    {
+      "epoch": 2.03,
+      "eval_accuracy": 97.3,
+      "eval_average_metrics": 97.3,
+      "eval_loss": 0.04000015929341316,
+      "eval_runtime": 6.7004,
+      "eval_samples_per_second": 149.245,
+      "step": 4200
+    },
+    {
+      "epoch": 2.12,
+      "eval_accuracy": 97.1,
+      "eval_average_metrics": 97.1,
+      "eval_loss": 0.0396127812564373,
+      "eval_runtime": 5.9828,
+      "eval_samples_per_second": 167.145,
+      "step": 4400
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 8.302796528447444e-05,
+      "loss": 0.049,
+      "step": 4500
+    },
+    {
+      "epoch": 2.22,
+      "eval_accuracy": 97.2,
+      "eval_average_metrics": 97.2,
+      "eval_loss": 0.0382530614733696,
+      "eval_runtime": 5.4179,
+      "eval_samples_per_second": 184.574,
+      "step": 4600
+    },
+    {
+      "epoch": 2.31,
+      "eval_accuracy": 97.0,
+      "eval_average_metrics": 97.0,
+      "eval_loss": 0.04122977331280708,
+      "eval_runtime": 4.9766,
+      "eval_samples_per_second": 200.94,
+      "step": 4800
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 5.891996142719383e-05,
+      "loss": 0.0484,
+      "step": 5000
+    },
+    {
+      "epoch": 2.41,
+      "eval_accuracy": 97.3,
+      "eval_average_metrics": 97.3,
+      "eval_loss": 0.03976716473698616,
+      "eval_runtime": 5.1121,
+      "eval_samples_per_second": 195.615,
+      "step": 5000
+    },
+    {
+      "epoch": 2.51,
+      "eval_accuracy": 97.2,
+      "eval_average_metrics": 97.2,
+      "eval_loss": 0.03887654095888138,
+      "eval_runtime": 5.3028,
+      "eval_samples_per_second": 188.578,
+      "step": 5200
+    },
+    {
+      "epoch": 2.6,
+      "eval_accuracy": 97.3,
+      "eval_average_metrics": 97.3,
+      "eval_loss": 0.03931749612092972,
+      "eval_runtime": 6.019,
+      "eval_samples_per_second": 166.14,
+      "step": 5400
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 3.481195756991321e-05,
+      "loss": 0.0478,
+      "step": 5500
+    },
+    {
+      "epoch": 2.7,
+      "eval_accuracy": 97.1,
+      "eval_average_metrics": 97.1,
+      "eval_loss": 0.03971054032444954,
+      "eval_runtime": 5.7951,
+      "eval_samples_per_second": 172.558,
+      "step": 5600
+    },
+    {
+      "epoch": 2.8,
+      "eval_accuracy": 97.1,
+      "eval_average_metrics": 97.1,
+      "eval_loss": 0.04016176983714104,
+      "eval_runtime": 5.5419,
+      "eval_samples_per_second": 180.443,
+      "step": 5800
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 1.0703953712632592e-05,
+      "loss": 0.0444,
+      "step": 6000
+    },
+    {
+      "epoch": 2.89,
+      "eval_accuracy": 97.0,
+      "eval_average_metrics": 97.0,
+      "eval_loss": 0.04050704091787338,
+      "eval_runtime": 6.1769,
+      "eval_samples_per_second": 161.894,
+      "step": 6000
+    },
+    {
+      "epoch": 2.99,
+      "eval_accuracy": 97.2,
+      "eval_average_metrics": 97.2,
+      "eval_loss": 0.04039543867111206,
+      "eval_runtime": 5.4148,
+      "eval_samples_per_second": 184.68,
+      "step": 6200
+    },
     {
       "epoch": 3.0,
+      "step": 6222,
+      "total_flos": 1.3280955617597184e+16,
+      "train_loss": 0.058686515289424354,
+      "train_runtime": 1966.0928,
+      "train_samples_per_second": 101.24,
+      "train_steps_per_second": 3.165
     }
   ],
+  "max_steps": 6222,
   "num_train_epochs": 3,
+  "total_flos": 1.3280955617597184e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f376179840c9389819429f3133a6999a78148775cfff0e7518608ef9c3d59b09
 size 3183

 version https://git-lfs.github.com/spec/v1
+oid sha256:d084e8b52f5c7cc4a6a29f9f14decebc1ce43459b020a9c05c1c22bd9831401a
 size 3183

training_config.json CHANGED Viewed

@@ -1 +1 @@

- {"~~bottleneck_dim": 24, "~~dataset_config_name": ["en"], "delta_type": "~~adapter~~", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "sst2", "eval_steps": 200, "evaluation_strategy": "steps", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "max_source_length": 128, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 3, "output_dir": "outputs/bitfit/t5-base/sst2", "overwrite_output_dir": true, "per_device_eval_batch_size": 32, "per_device_train_batch_size": 32, "predict_with_generate": true, "push_to_hub": true, "save_steps": 200, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "sst2", "test_dataset_config_name": ["en"], "test_dataset_name": "sst2", "tokenizer_name": "../../../../plm_cache/t5-base", "unfrozen_modules": ["deltas", "layer_norm", "final_layer_norm"], "warmup_steps": 0}

+ {"dataset_config_name": ["en"], "delta_type": "lora", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "sst2", "eval_steps": 200, "evaluation_strategy": "steps", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "lora_r": 8, "max_source_length": 128, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 3, "output_dir": "outputs/bitfit/t5-base/sst2", "overwrite_output_dir": true, "per_device_eval_batch_size": 32, "per_device_train_batch_size": 32, "predict_with_generate": true, "push_to_hub": true, "save_steps": 200, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "sst2", "test_dataset_config_name": ["en"], "test_dataset_name": "sst2", "tokenizer_name": "../../../../plm_cache/t5-base", "unfrozen_modules": ["deltas", "layer_norm", "final_layer_norm"], "warmup_steps": 0}