Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

README.md +23 -16
all_results.json +10 -10
config.json +5 -5
eval_results.json +6 -6
pytorch_model.bin +1 -1
tokenizer.json +2 -2
train_results.json +5 -5
trainer_state.json +244 -52
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -1,13 +1,28 @@
 ---
 license: apache-2.0
 base_model: bert-base-cased
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: bert-base-sst2
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,10 +30,10 @@ should probably proofread and complete it, then remove this comment. -->
 # bert-base-sst2
-This model is a fine-tuned version of [bert-base-cased](https://huggingface.co/bert-base-cased) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2964
-- Accuracy: 0.9197
 ## Model description
@@ -37,24 +52,16 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 5e-05
-- train_batch_size: 32
-- eval_batch_size: 64
 - seed: 42
-- gradient_accumulation_steps: 4
-- total_train_batch_size: 128
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 4
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Accuracy |
-|:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 0.2275        | 1.0   | 526  | 0.2185          | 0.9174   |
-| 0.1096        | 2.0   | 1052 | 0.2542          | 0.9243   |
-| 0.0654        | 3.0   | 1578 | 0.2568          | 0.9232   |
-| 0.0406        | 4.0   | 2104 | 0.2964          | 0.9197   |
 ### Framework versions

 ---
+language:
+- en
 license: apache-2.0
 base_model: bert-base-cased
 tags:
 - generated_from_trainer
+datasets:
+- glue
 metrics:
 - accuracy
 model-index:
 - name: bert-base-sst2
+  results:
+  - task:
+      name: Text Classification
+      type: text-classification
+    dataset:
+      name: GLUE SST2
+      type: glue
+      args: sst2
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.9151376146788991
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # bert-base-sst2
+This model is a fine-tuned version of [bert-base-cased](https://huggingface.co/bert-base-cased) on the GLUE SST2 dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4602
+- Accuracy: 0.9151
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 2e-05
+- train_batch_size: 16
+- eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 5.0
 ### Training results
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 4.0,
-    "eval_accuracy": 0.9197247706422018,
-    "eval_loss": 0.296403706073761,
-    "eval_runtime": 3.0377,
     "eval_samples": 872,
-    "eval_samples_per_second": 287.061,
-    "eval_steps_per_second": 4.609,
-    "train_loss": 0.10675066596201617,
-    "train_runtime": 2768.2476,
     "train_samples": 67349,
-    "train_samples_per_second": 97.316,
-    "train_steps_per_second": 0.76
 }

 {
+    "epoch": 5.0,
+    "eval_accuracy": 0.9151376146788991,
+    "eval_loss": 0.46023672819137573,
+    "eval_runtime": 1.2889,
     "eval_samples": 872,
+    "eval_samples_per_second": 676.559,
+    "eval_steps_per_second": 84.57,
+    "train_loss": 0.111734983768146,
+    "train_runtime": 1050.6373,
     "train_samples": 67349,
+    "train_samples_per_second": 320.515,
+    "train_steps_per_second": 20.035
 }

config.json CHANGED Viewed

@@ -5,20 +5,20 @@
   ],
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
-  "finetuning_task": "text-classification",
   "gradient_checkpointing": false,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   "id2label": {
-    "0": "0",
-    "1": "1"
   },
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "label2id": {
-    "0": 0,
-    "1": 1
   },
   "layer_norm_eps": 1e-12,
   "max_position_embeddings": 512,

   ],
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
+  "finetuning_task": "sst2",
   "gradient_checkpointing": false,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   "id2label": {
+    "0": "negative",
+    "1": "positive"
   },
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "label2id": {
+    "negative": 0,
+    "positive": 1
   },
   "layer_norm_eps": 1e-12,
   "max_position_embeddings": 512,

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 4.0,
-    "eval_accuracy": 0.9197247706422018,
-    "eval_loss": 0.296403706073761,
-    "eval_runtime": 3.0377,
     "eval_samples": 872,
-    "eval_samples_per_second": 287.061,
-    "eval_steps_per_second": 4.609
 }

 {
+    "epoch": 5.0,
+    "eval_accuracy": 0.9151376146788991,
+    "eval_loss": 0.46023672819137573,
+    "eval_runtime": 1.2889,
     "eval_samples": 872,
+    "eval_samples_per_second": 676.559,
+    "eval_steps_per_second": 84.57
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66eb7bebf8b41ec454bb5a1f3fb0e38390cee544b1b2b92b7777826c9861de57
 size 433315633

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e8b011f1acaf5e32d4ca8ca509a9d7152f36489c0e602d3d38992213eaabeec
 size 433315633

tokenizer.json CHANGED Viewed

@@ -2,13 +2,13 @@
   "version": "1.0",
   "truncation": {
     "direction": "Right",
-    "max_length": 512,
     "strategy": "LongestFirst",
     "stride": 0
   },
   "padding": {
     "strategy": {
-      "Fixed": 512
     },
     "direction": "Right",
     "pad_to_multiple_of": null,

   "version": "1.0",
   "truncation": {
     "direction": "Right",
+    "max_length": 128,
     "strategy": "LongestFirst",
     "stride": 0
   },
   "padding": {
     "strategy": {
+      "Fixed": 128
     },
     "direction": "Right",
     "pad_to_multiple_of": null,

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.0,
-    "train_loss": 0.10675066596201617,
-    "train_runtime": 2768.2476,
     "train_samples": 67349,
-    "train_samples_per_second": 97.316,
-    "train_steps_per_second": 0.76
 }

 {
+    "epoch": 5.0,
+    "train_loss": 0.111734983768146,
+    "train_runtime": 1050.6373,
     "train_samples": 67349,
+    "train_samples_per_second": 320.515,
+    "train_steps_per_second": 20.035
 }

trainer_state.json CHANGED Viewed

@@ -1,85 +1,277 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.998099762470309,
-  "global_step": 2104,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.95,
-      "learning_rate": 3.811787072243346e-05,
-      "loss": 0.2275,
       "step": 500
     },
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.9174311926605505,
-      "eval_loss": 0.21851642429828644,
-      "eval_runtime": 3.259,
-      "eval_samples_per_second": 267.57,
-      "eval_steps_per_second": 4.296,
-      "step": 526
     },
     {
       "epoch": 1.9,
-      "learning_rate": 2.6235741444866924e-05,
-      "loss": 0.1096,
-      "step": 1000
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.9243119266055045,
-      "eval_loss": 0.2541967034339905,
-      "eval_runtime": 3.0182,
-      "eval_samples_per_second": 288.912,
-      "eval_steps_per_second": 4.639,
-      "step": 1052
     },
     {
       "epoch": 2.85,
-      "learning_rate": 1.4353612167300381e-05,
-      "loss": 0.0654,
-      "step": 1500
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.9231651376146789,
-      "eval_loss": 0.2567614018917084,
-      "eval_runtime": 3.0154,
-      "eval_samples_per_second": 289.18,
-      "eval_steps_per_second": 4.643,
-      "step": 1578
     },
     {
       "epoch": 3.8,
-      "learning_rate": 2.4714828897338406e-06,
-      "loss": 0.0406,
-      "step": 2000
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.9197247706422018,
-      "eval_loss": 0.296403706073761,
-      "eval_runtime": 3.0629,
-      "eval_samples_per_second": 284.699,
-      "eval_steps_per_second": 4.571,
-      "step": 2104
     },
     {
-      "epoch": 4.0,
-      "step": 2104,
-      "total_flos": 7.085028187628544e+16,
-      "train_loss": 0.10675066596201617,
-      "train_runtime": 2768.2476,
-      "train_samples_per_second": 97.316,
-      "train_steps_per_second": 0.76
     }
   ],
-  "max_steps": 2104,
-  "num_train_epochs": 4,
-  "total_flos": 7.085028187628544e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "global_step": 21050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.12,
+      "learning_rate": 1.952684085510689e-05,
+      "loss": 0.3622,
       "step": 500
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 1.9051781472684088e-05,
+      "loss": 0.277,
+      "step": 1000
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 1.8576722090261282e-05,
+      "loss": 0.2499,
+      "step": 1500
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.810166270783848e-05,
+      "loss": 0.2266,
+      "step": 2000
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 1.7627553444180522e-05,
+      "loss": 0.2035,
+      "step": 2500
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1.715249406175772e-05,
+      "loss": 0.2061,
+      "step": 3000
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 1.667743467933492e-05,
+      "loss": 0.2024,
+      "step": 3500
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1.6202375296912117e-05,
+      "loss": 0.1887,
+      "step": 4000
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1.5728266033254158e-05,
+      "loss": 0.1641,
+      "step": 4500
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 1.5253206650831356e-05,
+      "loss": 0.1314,
+      "step": 5000
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 1.4779097387173397e-05,
+      "loss": 0.1363,
+      "step": 5500
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 1.4304038004750596e-05,
+      "loss": 0.1261,
+      "step": 6000
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 1.382897862232779e-05,
+      "loss": 0.1367,
+      "step": 6500
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 1.3353919239904989e-05,
+      "loss": 0.1363,
+      "step": 7000
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 1.2878859857482187e-05,
+      "loss": 0.1378,
+      "step": 7500
     },
     {
       "epoch": 1.9,
+      "learning_rate": 1.2403800475059384e-05,
+      "loss": 0.1343,
+      "step": 8000
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 1.192874109263658e-05,
+      "loss": 0.132,
+      "step": 8500
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 1.1453681710213777e-05,
+      "loss": 0.0911,
+      "step": 9000
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 1.097957244655582e-05,
+      "loss": 0.0806,
+      "step": 9500
     },
     {
+      "epoch": 2.38,
+      "learning_rate": 1.0505463182897864e-05,
+      "loss": 0.0852,
+      "step": 10000
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 1.003040380047506e-05,
+      "loss": 0.0944,
+      "step": 10500
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 9.555344418052257e-06,
+      "loss": 0.0936,
+      "step": 11000
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 9.080285035629454e-06,
+      "loss": 0.0945,
+      "step": 11500
     },
     {
       "epoch": 2.85,
+      "learning_rate": 8.60522565320665e-06,
+      "loss": 0.1064,
+      "step": 12000
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 8.130166270783849e-06,
+      "loss": 0.0968,
+      "step": 12500
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 7.656057007125892e-06,
+      "loss": 0.0597,
+      "step": 13000
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 7.180997624703089e-06,
+      "loss": 0.05,
+      "step": 13500
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 6.705938242280286e-06,
+      "loss": 0.0577,
+      "step": 14000
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 6.230878859857483e-06,
+      "loss": 0.0589,
+      "step": 14500
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 5.75581947743468e-06,
+      "loss": 0.0616,
+      "step": 15000
     },
     {
+      "epoch": 3.68,
+      "learning_rate": 5.281710213776723e-06,
+      "loss": 0.0633,
+      "step": 15500
     },
     {
       "epoch": 3.8,
+      "learning_rate": 4.806650831353919e-06,
+      "loss": 0.0593,
+      "step": 16000
+    },
+    {
+      "epoch": 3.92,
+      "learning_rate": 4.331591448931117e-06,
+      "loss": 0.0698,
+      "step": 16500
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 3.856532066508314e-06,
+      "loss": 0.0487,
+      "step": 17000
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 3.381472684085511e-06,
+      "loss": 0.0321,
+      "step": 17500
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 2.9073634204275536e-06,
+      "loss": 0.0384,
+      "step": 18000
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 2.4323040380047506e-06,
+      "loss": 0.0324,
+      "step": 18500
+    },
+    {
+      "epoch": 4.51,
+      "learning_rate": 1.957244655581948e-06,
+      "loss": 0.0359,
+      "step": 19000
+    },
+    {
+      "epoch": 4.63,
+      "learning_rate": 1.4821852731591448e-06,
+      "loss": 0.0342,
+      "step": 19500
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 1.0080760095011877e-06,
+      "loss": 0.0338,
+      "step": 20000
+    },
+    {
+      "epoch": 4.87,
+      "learning_rate": 5.330166270783848e-07,
+      "loss": 0.0334,
+      "step": 20500
     },
     {
+      "epoch": 4.99,
+      "learning_rate": 5.7957244655581954e-08,
+      "loss": 0.0384,
+      "step": 21000
     },
     {
+      "epoch": 5.0,
+      "step": 21050,
+      "total_flos": 2.21503330843008e+16,
+      "train_loss": 0.111734983768146,
+      "train_runtime": 1050.6373,
+      "train_samples_per_second": 320.515,
+      "train_steps_per_second": 20.035
     }
   ],
+  "max_steps": 21050,
+  "num_train_epochs": 5,
+  "total_flos": 2.21503330843008e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85a182e1aecb3d05c50557244d1d4a18dc97297f140ca9ddf7ef0b0fc16906a0
-size 4091

 version https://git-lfs.github.com/spec/v1
+oid sha256:73bfdfe546beaea5baeefff41cfa8179e7587f050d5888877918bbfe68c58521
+size 3963