Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

README.md +23 -16
all_results.json +10 -10
config.json +5 -5
eval_results.json +6 -6
pytorch_model.bin +1 -1
tokenizer.json +2 -2
train_results.json +5 -5
trainer_state.json +178 -58
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -1,13 +1,28 @@
 ---
 license: other
 base_model: facebook/opt-350m
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: opt-350m-qnli
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,10 +30,10 @@ should probably proofread and complete it, then remove this comment. -->
 # opt-350m-qnli
-This model is a fine-tuned version of [facebook/opt-350m](https://huggingface.co/facebook/opt-350m) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6931
-- Accuracy: 0.4946
 ## Model description
@@ -37,24 +52,16 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 5e-05
-- train_batch_size: 16
-- eval_batch_size: 32
 - seed: 42
-- gradient_accumulation_steps: 8
-- total_train_batch_size: 128
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 4
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Accuracy |
-|:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 0.771         | 1.0   | 818  | 0.6988          | 0.4946   |
-| 0.6951        | 2.0   | 1636 | 0.7004          | 0.4946   |
-| 0.6949        | 3.0   | 2455 | 0.6932          | 0.5054   |
-| 0.6939        | 4.0   | 3272 | 0.6931          | 0.4946   |
 ### Framework versions

 ---
+language:
+- en
 license: other
 base_model: facebook/opt-350m
 tags:
 - generated_from_trainer
+datasets:
+- glue
 metrics:
 - accuracy
 model-index:
 - name: opt-350m-qnli
+  results:
+  - task:
+      name: Text Classification
+      type: text-classification
+    dataset:
+      name: GLUE QNLI
+      type: glue
+      args: qnli
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.8965769723595094
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # opt-350m-qnli
+This model is a fine-tuned version of [facebook/opt-350m](https://huggingface.co/facebook/opt-350m) on the GLUE QNLI dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.8084
+- Accuracy: 0.8966
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 2e-05
+- train_batch_size: 32
+- eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 5.0
 ### Training results
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 4.0,
-    "eval_accuracy": 0.4946000366099213,
-    "eval_loss": 0.6931486129760742,
-    "eval_runtime": 33.1827,
     "eval_samples": 5463,
-    "eval_samples_per_second": 164.634,
-    "eval_steps_per_second": 5.153,
-    "train_loss": 0.7068347184757149,
-    "train_runtime": 8136.714,
     "train_samples": 104743,
-    "train_samples_per_second": 51.492,
-    "train_steps_per_second": 0.402
 }

 {
+    "epoch": 5.0,
+    "eval_accuracy": 0.8965769723595094,
+    "eval_loss": 0.808398425579071,
+    "eval_runtime": 31.8395,
     "eval_samples": 5463,
+    "eval_samples_per_second": 171.58,
+    "eval_steps_per_second": 21.451,
+    "train_loss": 0.14827317719643043,
+    "train_runtime": 8514.0774,
     "train_samples": 104743,
+    "train_samples_per_second": 61.512,
+    "train_steps_per_second": 1.923
 }

config.json CHANGED Viewed

@@ -13,16 +13,16 @@
   "enable_bias": true,
   "eos_token_id": 2,
   "ffn_dim": 4096,
-  "finetuning_task": "text-classification",
   "hidden_size": 1024,
   "id2label": {
-    "0": "0",
-    "1": "1"
   },
   "init_std": 0.02,
   "label2id": {
-    "0": 0,
-    "1": 1
   },
   "layer_norm_elementwise_affine": true,
   "layerdrop": 0.0,

   "enable_bias": true,
   "eos_token_id": 2,
   "ffn_dim": 4096,
+  "finetuning_task": "qnli",
   "hidden_size": 1024,
   "id2label": {
+    "0": "entailment",
+    "1": "not_entailment"
   },
   "init_std": 0.02,
   "label2id": {
+    "entailment": 0,
+    "not_entailment": 1
   },
   "layer_norm_elementwise_affine": true,
   "layerdrop": 0.0,

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 4.0,
-    "eval_accuracy": 0.4946000366099213,
-    "eval_loss": 0.6931486129760742,
-    "eval_runtime": 33.1827,
     "eval_samples": 5463,
-    "eval_samples_per_second": 164.634,
-    "eval_steps_per_second": 5.153
 }

 {
+    "epoch": 5.0,
+    "eval_accuracy": 0.8965769723595094,
+    "eval_loss": 0.808398425579071,
+    "eval_runtime": 31.8395,
     "eval_samples": 5463,
+    "eval_samples_per_second": 171.58,
+    "eval_steps_per_second": 21.451
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ccd9390d17d1b84716b45a7f0bc7c64f0c8bdfeb99cab6e750da1a142a0b6ed
 size 1324921569

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb4b1a44b30ec881324caea0c9774b1727b9f81d8c4cc470bbab58e92e3672e7
 size 1324921569

tokenizer.json CHANGED Viewed

@@ -2,13 +2,13 @@
   "version": "1.0",
   "truncation": {
     "direction": "Right",
-    "max_length": 512,
     "strategy": "LongestFirst",
     "stride": 0
   },
   "padding": {
     "strategy": {
-      "Fixed": 512
     },
     "direction": "Right",
     "pad_to_multiple_of": null,

   "version": "1.0",
   "truncation": {
     "direction": "Right",
+    "max_length": 128,
     "strategy": "LongestFirst",
     "stride": 0
   },
   "padding": {
     "strategy": {
+      "Fixed": 128
     },
     "direction": "Right",
     "pad_to_multiple_of": null,

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.0,
-    "train_loss": 0.7068347184757149,
-    "train_runtime": 8136.714,
     "train_samples": 104743,
-    "train_samples_per_second": 51.492,
-    "train_steps_per_second": 0.402
 }

 {
+    "epoch": 5.0,
+    "train_loss": 0.14827317719643043,
+    "train_runtime": 8514.0774,
     "train_samples": 104743,
+    "train_samples_per_second": 61.512,
+    "train_steps_per_second": 1.923
 }

trainer_state.json CHANGED Viewed

@@ -1,97 +1,217 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.9981670994348555,
-  "global_step": 3272,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.61,
-      "learning_rate": 4.237469437652812e-05,
-      "loss": 0.771,
       "step": 500
     },
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.4946000366099213,
-      "eval_loss": 0.6987926959991455,
-      "eval_runtime": 33.5668,
-      "eval_samples_per_second": 162.75,
-      "eval_steps_per_second": 5.094,
-      "step": 818
     },
     {
       "epoch": 1.22,
-      "learning_rate": 3.4734107579462106e-05,
-      "loss": 0.699,
-      "step": 1000
     },
     {
       "epoch": 1.83,
-      "learning_rate": 2.7093520782396085e-05,
-      "loss": 0.6951,
-      "step": 1500
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.4946000366099213,
-      "eval_loss": 0.7004304528236389,
-      "eval_runtime": 33.6209,
-      "eval_samples_per_second": 162.488,
-      "eval_steps_per_second": 5.086,
-      "step": 1636
     },
     {
       "epoch": 2.44,
-      "learning_rate": 1.9452933985330075e-05,
-      "loss": 0.6949,
-      "step": 2000
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.5053999633900788,
-      "eval_loss": 0.6931589841842651,
-      "eval_runtime": 33.5757,
-      "eval_samples_per_second": 162.707,
-      "eval_steps_per_second": 5.093,
-      "step": 2455
     },
     {
       "epoch": 3.05,
-      "learning_rate": 1.181234718826406e-05,
-      "loss": 0.6944,
-      "step": 2500
     },
     {
       "epoch": 3.67,
-      "learning_rate": 4.171760391198044e-06,
-      "loss": 0.6939,
-      "step": 3000
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.4946000366099213,
-      "eval_loss": 0.6931486129760742,
-      "eval_runtime": 33.6178,
-      "eval_samples_per_second": 162.503,
-      "eval_steps_per_second": 5.087,
-      "step": 3272
     },
     {
-      "epoch": 4.0,
-      "step": 3272,
-      "total_flos": 3.902773315585966e+17,
-      "train_loss": 0.7068347184757149,
-      "train_runtime": 8136.714,
-      "train_samples_per_second": 51.492,
-      "train_steps_per_second": 0.402
     }
   ],
-  "max_steps": 3272,
-  "num_train_epochs": 4,
-  "total_flos": 3.902773315585966e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "global_step": 16370,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.15,
+      "learning_rate": 1.938912645082468e-05,
+      "loss": 0.5176,
       "step": 500
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 1.8778252901649362e-05,
+      "loss": 0.4025,
+      "step": 1000
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.816737935247404e-05,
+      "loss": 0.3706,
+      "step": 1500
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.755650580329872e-05,
+      "loss": 0.3541,
+      "step": 2000
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1.69456322541234e-05,
+      "loss": 0.3371,
+      "step": 2500
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1.6334758704948076e-05,
+      "loss": 0.3221,
+      "step": 3000
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 1.5723885155772757e-05,
+      "loss": 0.2637,
+      "step": 3500
     },
     {
       "epoch": 1.22,
+      "learning_rate": 1.5113011606597437e-05,
+      "loss": 0.201,
+      "step": 4000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 1.4502138057422115e-05,
+      "loss": 0.1971,
+      "step": 4500
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 1.3891264508246794e-05,
+      "loss": 0.2067,
+      "step": 5000
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 1.3280390959071474e-05,
+      "loss": 0.2032,
+      "step": 5500
     },
     {
       "epoch": 1.83,
+      "learning_rate": 1.2669517409896153e-05,
+      "loss": 0.1971,
+      "step": 6000
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 1.2058643860720831e-05,
+      "loss": 0.2034,
+      "step": 6500
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 1.1447770311545512e-05,
+      "loss": 0.104,
+      "step": 7000
     },
     {
+      "epoch": 2.29,
+      "learning_rate": 1.083689676237019e-05,
+      "loss": 0.0962,
+      "step": 7500
     },
     {
       "epoch": 2.44,
+      "learning_rate": 1.0226023213194869e-05,
+      "loss": 0.1046,
+      "step": 8000
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 9.615149664019549e-06,
+      "loss": 0.1022,
+      "step": 8500
     },
     {
+      "epoch": 2.75,
+      "learning_rate": 9.004276114844227e-06,
+      "loss": 0.0951,
+      "step": 9000
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 8.393402565668908e-06,
+      "loss": 0.1011,
+      "step": 9500
     },
     {
       "epoch": 3.05,
+      "learning_rate": 7.782529016493586e-06,
+      "loss": 0.0793,
+      "step": 10000
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 7.171655467318266e-06,
+      "loss": 0.0385,
+      "step": 10500
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 6.560781918142944e-06,
+      "loss": 0.0487,
+      "step": 11000
+    },
+    {
+      "epoch": 3.51,
+      "learning_rate": 5.949908368967624e-06,
+      "loss": 0.0526,
+      "step": 11500
     },
     {
       "epoch": 3.67,
+      "learning_rate": 5.339034819792304e-06,
+      "loss": 0.0515,
+      "step": 12000
+    },
+    {
+      "epoch": 3.82,
+      "learning_rate": 4.728161270616982e-06,
+      "loss": 0.0455,
+      "step": 12500
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 4.117287721441662e-06,
+      "loss": 0.0481,
+      "step": 13000
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 3.506414172266341e-06,
+      "loss": 0.021,
+      "step": 13500
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 2.8955406230910206e-06,
+      "loss": 0.017,
+      "step": 14000
+    },
+    {
+      "epoch": 4.43,
+      "learning_rate": 2.2846670739156996e-06,
+      "loss": 0.0143,
+      "step": 14500
+    },
+    {
+      "epoch": 4.58,
+      "learning_rate": 1.6737935247403788e-06,
+      "loss": 0.0165,
+      "step": 15000
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 1.0629199755650582e-06,
+      "loss": 0.0167,
+      "step": 15500
     },
     {
+      "epoch": 4.89,
+      "learning_rate": 4.5204642638973736e-07,
+      "loss": 0.015,
+      "step": 16000
     },
     {
+      "epoch": 5.0,
+      "step": 16370,
+      "total_flos": 1.2201496021696512e+17,
+      "train_loss": 0.14827317719643043,
+      "train_runtime": 8514.0774,
+      "train_samples_per_second": 61.512,
+      "train_steps_per_second": 1.923
     }
   ],
+  "max_steps": 16370,
+  "num_train_epochs": 5,
+  "total_flos": 1.2201496021696512e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0251b20b881a80e860c6672585a883dc9714623d8b232a1b9d78fd045e9a2f7
-size 4091

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5bdd037aab1677ff45ae16a921f301d377c09978b0d47309412766022bea09a
+size 3963