Upload 12 files

Browse files

Files changed (8) hide show

README.md +16 -17
all_results.json +13 -13
config.json +1 -1
eval_results.json +9 -9
pytorch_model.bin +2 -2
train_results.json +4 -4
trainer_state.json +30 -30
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -6,7 +6,7 @@ datasets:
 metrics:
 - rouge
 model-index:
-- name: base-2-2-t
   results:
   - task:
       name: Summarization
@@ -20,22 +20,22 @@ model-index:
     metrics:
     - name: Rouge1
       type: rouge
-      value: 5.7782
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# base-2-2-t
-This model is a fine-tuned version of [x/base-2-2](https://huggingface.co/x/base-2-2) on the xsum dataset.
 It achieves the following results on the evaluation set:
-- Loss: nan
-- Rouge1: 5.7782
-- Rouge2: 0.064
-- Rougel: 5.1661
-- Rougelsum: 5.1836
-- Gen Len: 122.6594
 ## Model description
@@ -55,15 +55,14 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0001
-- train_batch_size: 2
-- eval_batch_size: 4
 - seed: 42
-- gradient_accumulation_steps: 32
 - total_train_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant
 - num_epochs: 3.0
-- mixed_precision_training: Native AMP
 ### Training results
@@ -72,6 +71,6 @@ The following hyperparameters were used during training:
 ### Framework versions
 - Transformers 4.27.0.dev0
-- Pytorch 1.13.0+cu117
-- Datasets 2.7.1
-- Tokenizers 0.12.1

 metrics:
 - rouge
 model-index:
+- name: base-2-2
   results:
   - task:
       name: Summarization
     metrics:
     - name: Rouge1
       type: rouge
+      value: 32.4824
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# base-2-2
+This model is a fine-tuned version of [x/base-2-2/](https://huggingface.co/x/base-2-2/) on the xsum dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.2905
+- Rouge1: 32.4824
+- Rouge2: 10.6748
+- Rougel: 25.5004
+- Rougelsum: 25.4918
+- Gen Len: 27.9846
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.0001
+- train_batch_size: 16
+- eval_batch_size: 16
 - seed: 42
+- gradient_accumulation_steps: 4
 - total_train_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant
 - num_epochs: 3.0
 ### Training results
 ### Framework versions
 - Transformers 4.27.0.dev0
+- Pytorch 1.12.1+cu113
+- Datasets 2.10.0
+- Tokenizers 0.13.2

all_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
     "epoch": 3.0,
-    "eval_gen_len": 122.65939789882582,
-    "eval_loss": NaN,
-    "eval_rouge1": 5.7782,
-    "eval_rouge2": 0.064,
-    "eval_rougeL": 5.1661,
-    "eval_rougeLsum": 5.1836,
-    "eval_runtime": 1957.8518,
     "eval_samples": 11327,
-    "eval_samples_per_second": 5.785,
-    "eval_steps_per_second": 1.446,
-    "train_loss": NaN,
-    "train_runtime": 19100.0105,
     "train_samples": 204017,
-    "train_samples_per_second": 32.045,
-    "train_steps_per_second": 0.501
 }

 {
     "epoch": 3.0,
+    "eval_gen_len": 27.9846384744416,
+    "eval_loss": 2.290543556213379,
+    "eval_rouge1": 32.4824,
+    "eval_rouge2": 10.6748,
+    "eval_rougeL": 25.5004,
+    "eval_rougeLsum": 25.4918,
+    "eval_runtime": 600.3206,
     "eval_samples": 11327,
+    "eval_samples_per_second": 18.868,
+    "eval_steps_per_second": 1.179,
+    "train_loss": 2.8207567790121972,
+    "train_runtime": 17071.3808,
     "train_samples": 204017,
+    "train_samples_per_second": 35.852,
+    "train_steps_per_second": 0.56
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "x/base-2-2",
   "architectures": [
     "T5ForConditionalGeneration"
   ],

 {
+  "_name_or_path": "x/base-2-2/",
   "architectures": [
     "T5ForConditionalGeneration"
   ],

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 3.0,
-    "eval_gen_len": 122.65939789882582,
-    "eval_loss": NaN,
-    "eval_rouge1": 5.7782,
-    "eval_rouge2": 0.064,
-    "eval_rougeL": 5.1661,
-    "eval_rougeLsum": 5.1836,
-    "eval_runtime": 1957.8518,
     "eval_samples": 11327,
-    "eval_samples_per_second": 5.785,
-    "eval_steps_per_second": 1.446
 }

 {
     "epoch": 3.0,
+    "eval_gen_len": 27.9846384744416,
+    "eval_loss": 2.290543556213379,
+    "eval_rouge1": 32.4824,
+    "eval_rouge2": 10.6748,
+    "eval_rougeL": 25.5004,
+    "eval_rougeLsum": 25.4918,
+    "eval_runtime": 600.3206,
     "eval_samples": 11327,
+    "eval_samples_per_second": 18.868,
+    "eval_steps_per_second": 1.179
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14afc6b7bbd6d6ee78962270c0c675e901abfd6a7a600c62a50044c8af40931a
-size 461739927

 version https://git-lfs.github.com/spec/v1
+oid sha256:33cf4dc6be11a9d601974d98197f4e1a50a57091cbc4489490286491604d6e2d
+size 461738751

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "train_loss": NaN,
-    "train_runtime": 19100.0105,
     "train_samples": 204017,
-    "train_samples_per_second": 32.045,
-    "train_steps_per_second": 0.501
 }

 {
     "epoch": 3.0,
+    "train_loss": 2.8207567790121972,
+    "train_runtime": 17071.3808,
     "train_samples": 204017,
+    "train_samples_per_second": 35.852,
+    "train_steps_per_second": 0.56
 }

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.999754923585174,
-  "global_step": 9561,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10,130 +10,130 @@
     {
       "epoch": 0.16,
       "learning_rate": 0.0001,
-      "loss": Infinity,
       "step": 500
     },
     {
       "epoch": 0.31,
       "learning_rate": 0.0001,
-      "loss": NaN,
       "step": 1000
     },
     {
       "epoch": 0.47,
       "learning_rate": 0.0001,
-      "loss": NaN,
       "step": 1500
     },
     {
       "epoch": 0.63,
       "learning_rate": 0.0001,
-      "loss": NaN,
       "step": 2000
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0001,
-      "loss": NaN,
       "step": 2500
     },
     {
       "epoch": 0.94,
       "learning_rate": 0.0001,
-      "loss": NaN,
       "step": 3000
     },
     {
       "epoch": 1.1,
       "learning_rate": 0.0001,
-      "loss": NaN,
       "step": 3500
     },
     {
-      "epoch": 1.26,
       "learning_rate": 0.0001,
-      "loss": NaN,
       "step": 4000
     },
     {
       "epoch": 1.41,
       "learning_rate": 0.0001,
-      "loss": NaN,
       "step": 4500
     },
     {
       "epoch": 1.57,
       "learning_rate": 0.0001,
-      "loss": NaN,
       "step": 5000
     },
     {
       "epoch": 1.73,
       "learning_rate": 0.0001,
-      "loss": NaN,
       "step": 5500
     },
     {
       "epoch": 1.88,
       "learning_rate": 0.0001,
-      "loss": NaN,
       "step": 6000
     },
     {
       "epoch": 2.04,
       "learning_rate": 0.0001,
-      "loss": NaN,
       "step": 6500
     },
     {
       "epoch": 2.2,
       "learning_rate": 0.0001,
-      "loss": NaN,
       "step": 7000
     },
     {
       "epoch": 2.35,
       "learning_rate": 0.0001,
-      "loss": NaN,
       "step": 7500
     },
     {
       "epoch": 2.51,
       "learning_rate": 0.0001,
-      "loss": NaN,
       "step": 8000
     },
     {
       "epoch": 2.67,
       "learning_rate": 0.0001,
-      "loss": NaN,
       "step": 8500
     },
     {
       "epoch": 2.82,
       "learning_rate": 0.0001,
-      "loss": NaN,
       "step": 9000
     },
     {
       "epoch": 2.98,
       "learning_rate": 0.0001,
-      "loss": NaN,
       "step": 9500
     },
     {
       "epoch": 3.0,
-      "step": 9561,
-      "total_flos": 2.1720696365776896e+17,
-      "train_loss": NaN,
-      "train_runtime": 19100.0105,
-      "train_samples_per_second": 32.045,
-      "train_steps_per_second": 0.501
     }
   ],
-  "max_steps": 9561,
   "num_train_epochs": 3,
-  "total_flos": 2.1720696365776896e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "global_step": 9564,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.16,
       "learning_rate": 0.0001,
+      "loss": 3.8829,
       "step": 500
     },
     {
       "epoch": 0.31,
       "learning_rate": 0.0001,
+      "loss": 3.2846,
       "step": 1000
     },
     {
       "epoch": 0.47,
       "learning_rate": 0.0001,
+      "loss": 3.1209,
       "step": 1500
     },
     {
       "epoch": 0.63,
       "learning_rate": 0.0001,
+      "loss": 3.0109,
       "step": 2000
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0001,
+      "loss": 2.9449,
       "step": 2500
     },
     {
       "epoch": 0.94,
       "learning_rate": 0.0001,
+      "loss": 2.8897,
       "step": 3000
     },
     {
       "epoch": 1.1,
       "learning_rate": 0.0001,
+      "loss": 2.8286,
       "step": 3500
     },
     {
+      "epoch": 1.25,
       "learning_rate": 0.0001,
+      "loss": 2.7752,
       "step": 4000
     },
     {
       "epoch": 1.41,
       "learning_rate": 0.0001,
+      "loss": 2.7459,
       "step": 4500
     },
     {
       "epoch": 1.57,
       "learning_rate": 0.0001,
+      "loss": 2.7212,
       "step": 5000
     },
     {
       "epoch": 1.73,
       "learning_rate": 0.0001,
+      "loss": 2.7011,
       "step": 5500
     },
     {
       "epoch": 1.88,
       "learning_rate": 0.0001,
+      "loss": 2.6711,
       "step": 6000
     },
     {
       "epoch": 2.04,
       "learning_rate": 0.0001,
+      "loss": 2.6403,
       "step": 6500
     },
     {
       "epoch": 2.2,
       "learning_rate": 0.0001,
+      "loss": 2.6013,
       "step": 7000
     },
     {
       "epoch": 2.35,
       "learning_rate": 0.0001,
+      "loss": 2.5927,
       "step": 7500
     },
     {
       "epoch": 2.51,
       "learning_rate": 0.0001,
+      "loss": 2.5639,
       "step": 8000
     },
     {
       "epoch": 2.67,
       "learning_rate": 0.0001,
+      "loss": 2.5589,
       "step": 8500
     },
     {
       "epoch": 2.82,
       "learning_rate": 0.0001,
+      "loss": 2.5567,
       "step": 9000
     },
     {
       "epoch": 2.98,
       "learning_rate": 0.0001,
+      "loss": 2.5386,
       "step": 9500
     },
     {
       "epoch": 3.0,
+      "step": 9564,
+      "total_flos": 3.339310425474171e+17,
+      "train_loss": 2.8207567790121972,
+      "train_runtime": 17071.3808,
+      "train_samples_per_second": 35.852,
+      "train_steps_per_second": 0.56
     }
   ],
+  "max_steps": 9564,
   "num_train_epochs": 3,
+  "total_flos": 3.339310425474171e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d23a48d8b342476368a58b9a74cdd2e6c3978449f98fe1c928c28b153e4b1b66
-size 3643

 version https://git-lfs.github.com/spec/v1
+oid sha256:328b5771a3827918d71ac94e88bd16e5563d0aa456542e0fc338d0c4ca9a3d92
+size 3695