Upload 13 files

Browse files

Files changed (9) hide show

README.md +16 -16
all_results.json +13 -13
config.json +1 -1
eval_results.json +9 -9
pytorch_model.bin +2 -2
spiece.model +3 -0
train_results.json +4 -4
trainer_state.json +29 -29
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -6,7 +6,7 @@ datasets:
 metrics:
 - rouge
 model-index:
-- name: small-5-6-t
   results:
   - task:
       name: Summarization
@@ -20,22 +20,22 @@ model-index:
     metrics:
     - name: Rouge1
       type: rouge
-      value: 33.1943
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# small-5-6-t
-This model is a fine-tuned version of [models/small-5-6](https://huggingface.co/models/small-5-6) on the xsum dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.0753
-- Rouge1: 33.1943
-- Rouge2: 11.0514
-- Rougel: 26.0966
-- Rougelsum: 26.0978
-- Gen Len: 28.4358
 ## Model description
@@ -55,10 +55,10 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0001
-- train_batch_size: 32
-- eval_batch_size: 16
 - seed: 42
-- gradient_accumulation_steps: 2
 - total_train_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant
@@ -71,6 +71,6 @@ The following hyperparameters were used during training:
 ### Framework versions
 - Transformers 4.27.0.dev0
-- Pytorch 1.12.1+cu113
-- Datasets 2.10.0
-- Tokenizers 0.13.2

 metrics:
 - rouge
 model-index:
+- name: small-5-6
   results:
   - task:
       name: Summarization
     metrics:
     - name: Rouge1
       type: rouge
+      value: 33.3096
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# small-5-6
+This model is a fine-tuned version of [x/small-5-6/](https://huggingface.co/x/small-5-6/) on the xsum dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.0765
+- Rouge1: 33.3096
+- Rouge2: 11.177
+- Rougel: 26.1559
+- Rougelsum: 26.1559
+- Gen Len: 28.3146
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.0001
+- train_batch_size: 4
+- eval_batch_size: 4
 - seed: 42
+- gradient_accumulation_steps: 16
 - total_train_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant
 ### Framework versions
 - Transformers 4.27.0.dev0
+- Pytorch 1.13.0+cu117
+- Datasets 2.7.1
+- Tokenizers 0.12.1

all_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
     "epoch": 3.0,
-    "eval_gen_len": 28.43577293193255,
-    "eval_loss": 2.0753448009490967,
-    "eval_rouge1": 33.1943,
-    "eval_rouge2": 11.0514,
-    "eval_rougeL": 26.0966,
-    "eval_rougeLsum": 26.0978,
-    "eval_runtime": 584.408,
     "eval_samples": 11327,
-    "eval_samples_per_second": 19.382,
-    "eval_steps_per_second": 1.211,
-    "train_loss": 2.2860778256571477,
-    "train_runtime": 9841.2733,
     "train_samples": 204017,
-    "train_samples_per_second": 62.192,
-    "train_steps_per_second": 0.972
 }

 {
     "epoch": 3.0,
+    "eval_gen_len": 28.314646420058267,
+    "eval_loss": 2.0764589309692383,
+    "eval_rouge1": 33.3096,
+    "eval_rouge2": 11.177,
+    "eval_rougeL": 26.1559,
+    "eval_rougeLsum": 26.1559,
+    "eval_runtime": 1049.9027,
     "eval_samples": 11327,
+    "eval_samples_per_second": 10.789,
+    "eval_steps_per_second": 2.697,
+    "train_loss": 2.2826747393560716,
+    "train_runtime": 17657.3625,
     "train_samples": 204017,
+    "train_samples_per_second": 34.663,
+    "train_steps_per_second": 0.541
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "models/small-5-6",
   "architectures": [
     "T5ForConditionalGeneration"
   ],

 {
+  "_name_or_path": "x/small-5-6/",
   "architectures": [
     "T5ForConditionalGeneration"
   ],

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 3.0,
-    "eval_gen_len": 28.43577293193255,
-    "eval_loss": 2.0753448009490967,
-    "eval_rouge1": 33.1943,
-    "eval_rouge2": 11.0514,
-    "eval_rougeL": 26.0966,
-    "eval_rougeLsum": 26.0978,
-    "eval_runtime": 584.408,
     "eval_samples": 11327,
-    "eval_samples_per_second": 19.382,
-    "eval_steps_per_second": 1.211
 }

 {
     "epoch": 3.0,
+    "eval_gen_len": 28.314646420058267,
+    "eval_loss": 2.0764589309692383,
+    "eval_rouge1": 33.3096,
+    "eval_rouge2": 11.177,
+    "eval_rougeL": 26.1559,
+    "eval_rougeLsum": 26.1559,
+    "eval_runtime": 1049.9027,
     "eval_samples": 11327,
+    "eval_samples_per_second": 10.789,
+    "eval_steps_per_second": 2.697
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a51b3b8c387ff58591a70cb844cd74fedd258ff3177d1794a09feac58db8a08
-size 289019689

 version https://git-lfs.github.com/spec/v1
+oid sha256:f49373d77be8a203799387d632b09e48910471354ea668f1d5787ad6f62ddec2
+size 289021373

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d60acb128cf7b7f2536e8f38a5b18a05535c9e14c7a355904270e15b0945ea86
+size 791656

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "train_loss": 2.2860778256571477,
-    "train_runtime": 9841.2733,
     "train_samples": 204017,
-    "train_samples_per_second": 62.192,
-    "train_steps_per_second": 0.972
 }

 {
     "epoch": 3.0,
+    "train_loss": 2.2826747393560716,
+    "train_runtime": 17657.3625,
     "train_samples": 204017,
+    "train_samples_per_second": 34.663,
+    "train_steps_per_second": 0.541
 }

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
-  "global_step": 9564,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10,73 +10,73 @@
     {
       "epoch": 0.16,
       "learning_rate": 0.0001,
-      "loss": 2.3736,
       "step": 500
     },
     {
       "epoch": 0.31,
       "learning_rate": 0.0001,
-      "loss": 2.3527,
       "step": 1000
     },
     {
       "epoch": 0.47,
       "learning_rate": 0.0001,
-      "loss": 2.3453,
       "step": 1500
     },
     {
       "epoch": 0.63,
       "learning_rate": 0.0001,
-      "loss": 2.3264,
       "step": 2000
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0001,
-      "loss": 2.3284,
       "step": 2500
     },
     {
       "epoch": 0.94,
       "learning_rate": 0.0001,
-      "loss": 2.3186,
       "step": 3000
     },
     {
       "epoch": 1.1,
       "learning_rate": 0.0001,
-      "loss": 2.3036,
       "step": 3500
     },
     {
-      "epoch": 1.25,
       "learning_rate": 0.0001,
-      "loss": 2.2881,
       "step": 4000
     },
     {
       "epoch": 1.41,
       "learning_rate": 0.0001,
-      "loss": 2.2831,
       "step": 4500
     },
     {
       "epoch": 1.57,
       "learning_rate": 0.0001,
-      "loss": 2.2809,
       "step": 5000
     },
     {
       "epoch": 1.73,
       "learning_rate": 0.0001,
-      "loss": 2.2783,
       "step": 5500
     },
     {
       "epoch": 1.88,
       "learning_rate": 0.0001,
-      "loss": 2.272,
       "step": 6000
     },
     {
@@ -88,52 +88,52 @@
     {
       "epoch": 2.2,
       "learning_rate": 0.0001,
-      "loss": 2.2416,
       "step": 7000
     },
     {
       "epoch": 2.35,
       "learning_rate": 0.0001,
-      "loss": 2.2469,
       "step": 7500
     },
     {
       "epoch": 2.51,
       "learning_rate": 0.0001,
-      "loss": 2.2307,
       "step": 8000
     },
     {
       "epoch": 2.67,
       "learning_rate": 0.0001,
-      "loss": 2.2355,
       "step": 8500
     },
     {
       "epoch": 2.82,
       "learning_rate": 0.0001,
-      "loss": 2.2402,
       "step": 9000
     },
     {
       "epoch": 2.98,
       "learning_rate": 0.0001,
-      "loss": 2.2336,
       "step": 9500
     },
     {
       "epoch": 3.0,
-      "step": 9564,
-      "total_flos": 2.094098781687644e+17,
-      "train_loss": 2.2860778256571477,
-      "train_runtime": 9841.2733,
-      "train_samples_per_second": 62.192,
-      "train_steps_per_second": 0.972
     }
   ],
-  "max_steps": 9564,
   "num_train_epochs": 3,
-  "total_flos": 2.094098781687644e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.999745123027154,
+  "global_step": 9561,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.16,
       "learning_rate": 0.0001,
+      "loss": 2.3693,
       "step": 500
     },
     {
       "epoch": 0.31,
       "learning_rate": 0.0001,
+      "loss": 2.3495,
       "step": 1000
     },
     {
       "epoch": 0.47,
       "learning_rate": 0.0001,
+      "loss": 2.342,
       "step": 1500
     },
     {
       "epoch": 0.63,
       "learning_rate": 0.0001,
+      "loss": 2.3221,
       "step": 2000
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0001,
+      "loss": 2.3242,
       "step": 2500
     },
     {
       "epoch": 0.94,
       "learning_rate": 0.0001,
+      "loss": 2.3137,
       "step": 3000
     },
     {
       "epoch": 1.1,
       "learning_rate": 0.0001,
+      "loss": 2.3027,
       "step": 3500
     },
     {
+      "epoch": 1.26,
       "learning_rate": 0.0001,
+      "loss": 2.2815,
       "step": 4000
     },
     {
       "epoch": 1.41,
       "learning_rate": 0.0001,
+      "loss": 2.2797,
       "step": 4500
     },
     {
       "epoch": 1.57,
       "learning_rate": 0.0001,
+      "loss": 2.2757,
       "step": 5000
     },
     {
       "epoch": 1.73,
       "learning_rate": 0.0001,
+      "loss": 2.2765,
       "step": 5500
     },
     {
       "epoch": 1.88,
       "learning_rate": 0.0001,
+      "loss": 2.2684,
       "step": 6000
     },
     {
     {
       "epoch": 2.2,
       "learning_rate": 0.0001,
+      "loss": 2.2373,
       "step": 7000
     },
     {
       "epoch": 2.35,
       "learning_rate": 0.0001,
+      "loss": 2.2413,
       "step": 7500
     },
     {
       "epoch": 2.51,
       "learning_rate": 0.0001,
+      "loss": 2.2277,
       "step": 8000
     },
     {
       "epoch": 2.67,
       "learning_rate": 0.0001,
+      "loss": 2.2338,
       "step": 8500
     },
     {
       "epoch": 2.82,
       "learning_rate": 0.0001,
+      "loss": 2.2395,
       "step": 9000
     },
     {
       "epoch": 2.98,
       "learning_rate": 0.0001,
+      "loss": 2.2297,
       "step": 9500
     },
     {
       "epoch": 3.0,
+      "step": 9561,
+      "total_flos": 1.655576989296722e+17,
+      "train_loss": 2.2826747393560716,
+      "train_runtime": 17657.3625,
+      "train_samples_per_second": 34.663,
+      "train_steps_per_second": 0.541
     }
   ],
+  "max_steps": 9561,
   "num_train_epochs": 3,
+  "total_flos": 1.655576989296722e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9bf989626f6cb835ee9b482ae26f7da5f473f16575b59720728ca8236f2e3d28
-size 3631

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d9f6a17c6b0412af92872bec0b9155a155266f88282ba9c3aa306a6d7564de0
+size 3643