Upload 13 files

Browse files

Files changed (8) hide show

README.md +13 -13
all_results.json +15 -15
config.json +1 -1
eval_results.json +10 -10
pytorch_model.bin +1 -1
train_results.json +5 -5
trainer_state.json +90 -48
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -2,7 +2,7 @@
 tags:
 - generated_from_trainer
 datasets:
-- xsum
 metrics:
 - rouge
 model-index:
@@ -12,15 +12,15 @@ model-index:
       name: Summarization
       type: summarization
     dataset:
-      name: xsum
-      type: xsum
-      config: default
       split: validation
-      args: default
     metrics:
     - name: Rouge1
       type: rouge
-      value: 33.469
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -28,14 +28,14 @@ should probably proofread and complete it, then remove this comment. -->
 # small-6-4
-This model is a fine-tuned version of [x/small-6-4/](https://huggingface.co/x/small-6-4/) on the xsum dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.2026
-- Rouge1: 33.469
-- Rouge2: 11.4324
-- Rougel: 26.6495
-- Rougelsum: 26.6397
-- Gen Len: 27.4027
 ## Model description

 tags:
 - generated_from_trainer
 datasets:
+- cnn_dailymail
 metrics:
 - rouge
 model-index:
       name: Summarization
       type: summarization
     dataset:
+      name: cnn_dailymail 3.0.0
+      type: cnn_dailymail
+      config: 3.0.0
       split: validation
+      args: 3.0.0
     metrics:
     - name: Rouge1
       type: rouge
+      value: 38.7509
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # small-6-4
+This model is a fine-tuned version of [cnn/small-6-4/](https://huggingface.co/cnn/small-6-4/) on the cnn_dailymail 3.0.0 dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.7743
+- Rouge1: 38.7509
+- Rouge2: 17.2661
+- Rougel: 27.9055
+- Rougelsum: 36.0129
+- Gen Len: 78.6349
 ## Model description

all_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
     "epoch": 3.0,
-    "eval_gen_len": 27.402666195815307,
-    "eval_loss": 2.2025928497314453,
-    "eval_rouge1": 33.469,
-    "eval_rouge2": 11.4324,
-    "eval_rougeL": 26.6495,
-    "eval_rougeLsum": 26.6397,
-    "eval_runtime": 804.3546,
-    "eval_samples": 11327,
-    "eval_samples_per_second": 14.082,
-    "eval_steps_per_second": 3.521,
-    "train_loss": 2.512529566078278,
-    "train_runtime": 20397.6049,
-    "train_samples": 204017,
-    "train_samples_per_second": 30.006,
-    "train_steps_per_second": 0.469
 }

 {
     "epoch": 3.0,
+    "eval_gen_len": 78.63487432675045,
+    "eval_loss": 1.7743135690689087,
+    "eval_rouge1": 38.7509,
+    "eval_rouge2": 17.2661,
+    "eval_rougeL": 27.9055,
+    "eval_rougeLsum": 36.0129,
+    "eval_runtime": 2205.6092,
+    "eval_samples": 13368,
+    "eval_samples_per_second": 6.061,
+    "eval_steps_per_second": 1.515,
+    "train_loss": 2.0691928055687137,
+    "train_runtime": 37382.5344,
+    "train_samples": 287113,
+    "train_samples_per_second": 23.041,
+    "train_steps_per_second": 0.36
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "x/small-6-4/",
   "architectures": [
     "T5ForConditionalGeneration"
   ],

 {
+  "_name_or_path": "cnn/small-6-4/",
   "architectures": [
     "T5ForConditionalGeneration"
   ],

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 3.0,
-    "eval_gen_len": 27.402666195815307,
-    "eval_loss": 2.2025928497314453,
-    "eval_rouge1": 33.469,
-    "eval_rouge2": 11.4324,
-    "eval_rougeL": 26.6495,
-    "eval_rougeLsum": 26.6397,
-    "eval_runtime": 804.3546,
-    "eval_samples": 11327,
-    "eval_samples_per_second": 14.082,
-    "eval_steps_per_second": 3.521
 }

 {
     "epoch": 3.0,
+    "eval_gen_len": 78.63487432675045,
+    "eval_loss": 1.7743135690689087,
+    "eval_rouge1": 38.7509,
+    "eval_rouge2": 17.2661,
+    "eval_rougeL": 27.9055,
+    "eval_rougeLsum": 36.0129,
+    "eval_runtime": 2205.6092,
+    "eval_samples": 13368,
+    "eval_samples_per_second": 6.061,
+    "eval_steps_per_second": 1.515
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af62300b698f4a3082b385d35ad102ffccf97bdc3245360855c3e36bcf5209c2
 size 270128413

 version https://git-lfs.github.com/spec/v1
+oid sha256:830711ceac3c5b7638d8e427e46c75c0e1b7f83fc5d76de8331d38c4a54f7633
 size 270128413

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "train_loss": 2.512529566078278,
-    "train_runtime": 20397.6049,
-    "train_samples": 204017,
-    "train_samples_per_second": 30.006,
-    "train_steps_per_second": 0.469
 }

 {
     "epoch": 3.0,
+    "train_loss": 2.0691928055687137,
+    "train_runtime": 37382.5344,
+    "train_samples": 287113,
+    "train_samples_per_second": 23.041,
+    "train_steps_per_second": 0.36
 }

trainer_state.json CHANGED Viewed

@@ -1,139 +1,181 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.999745123027154,
-  "global_step": 9561,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.16,
       "learning_rate": 0.0001,
-      "loss": 2.7302,
       "step": 500
     },
     {
-      "epoch": 0.31,
       "learning_rate": 0.0001,
-      "loss": 2.6441,
       "step": 1000
     },
     {
-      "epoch": 0.47,
       "learning_rate": 0.0001,
-      "loss": 2.6096,
       "step": 1500
     },
     {
-      "epoch": 0.63,
       "learning_rate": 0.0001,
-      "loss": 2.5792,
       "step": 2000
     },
     {
-      "epoch": 0.78,
       "learning_rate": 0.0001,
-      "loss": 2.5678,
       "step": 2500
     },
     {
-      "epoch": 0.94,
       "learning_rate": 0.0001,
-      "loss": 2.5517,
       "step": 3000
     },
     {
-      "epoch": 1.1,
       "learning_rate": 0.0001,
-      "loss": 2.533,
       "step": 3500
     },
     {
-      "epoch": 1.26,
       "learning_rate": 0.0001,
-      "loss": 2.5076,
       "step": 4000
     },
     {
-      "epoch": 1.41,
       "learning_rate": 0.0001,
-      "loss": 2.4986,
       "step": 4500
     },
     {
-      "epoch": 1.57,
       "learning_rate": 0.0001,
-      "loss": 2.4899,
       "step": 5000
     },
     {
-      "epoch": 1.73,
       "learning_rate": 0.0001,
-      "loss": 2.4855,
       "step": 5500
     },
     {
-      "epoch": 1.88,
       "learning_rate": 0.0001,
-      "loss": 2.4764,
       "step": 6000
     },
     {
-      "epoch": 2.04,
       "learning_rate": 0.0001,
-      "loss": 2.4684,
       "step": 6500
     },
     {
-      "epoch": 2.2,
       "learning_rate": 0.0001,
-      "loss": 2.4426,
       "step": 7000
     },
     {
-      "epoch": 2.35,
       "learning_rate": 0.0001,
-      "loss": 2.4474,
       "step": 7500
     },
     {
-      "epoch": 2.51,
       "learning_rate": 0.0001,
-      "loss": 2.4284,
       "step": 8000
     },
     {
-      "epoch": 2.67,
       "learning_rate": 0.0001,
-      "loss": 2.431,
       "step": 8500
     },
     {
-      "epoch": 2.82,
       "learning_rate": 0.0001,
-      "loss": 2.4341,
       "step": 9000
     },
     {
-      "epoch": 2.98,
       "learning_rate": 0.0001,
-      "loss": 2.4217,
       "step": 9500
     },
     {
       "epoch": 3.0,
-      "step": 9561,
-      "total_flos": 1.5154775507718144e+17,
-      "train_loss": 2.512529566078278,
-      "train_runtime": 20397.6049,
-      "train_samples_per_second": 30.006,
-      "train_steps_per_second": 0.469
     }
   ],
-  "max_steps": 9561,
   "num_train_epochs": 3,
-  "total_flos": 1.5154775507718144e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.999958205046044,
+  "global_step": 13458,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.11,
       "learning_rate": 0.0001,
+      "loss": 2.2308,
       "step": 500
     },
     {
+      "epoch": 0.22,
       "learning_rate": 0.0001,
+      "loss": 2.1659,
       "step": 1000
     },
     {
+      "epoch": 0.33,
       "learning_rate": 0.0001,
+      "loss": 2.1386,
       "step": 1500
     },
     {
+      "epoch": 0.45,
       "learning_rate": 0.0001,
+      "loss": 2.1317,
       "step": 2000
     },
     {
+      "epoch": 0.56,
       "learning_rate": 0.0001,
+      "loss": 2.1235,
       "step": 2500
     },
     {
+      "epoch": 0.67,
       "learning_rate": 0.0001,
+      "loss": 2.117,
       "step": 3000
     },
     {
+      "epoch": 0.78,
       "learning_rate": 0.0001,
+      "loss": 2.1029,
       "step": 3500
     },
     {
+      "epoch": 0.89,
       "learning_rate": 0.0001,
+      "loss": 2.0994,
       "step": 4000
     },
     {
+      "epoch": 1.0,
       "learning_rate": 0.0001,
+      "loss": 2.0893,
       "step": 4500
     },
     {
+      "epoch": 1.11,
       "learning_rate": 0.0001,
+      "loss": 2.0724,
       "step": 5000
     },
     {
+      "epoch": 1.23,
       "learning_rate": 0.0001,
+      "loss": 2.0689,
       "step": 5500
     },
     {
+      "epoch": 1.34,
       "learning_rate": 0.0001,
+      "loss": 2.0622,
       "step": 6000
     },
     {
+      "epoch": 1.45,
       "learning_rate": 0.0001,
+      "loss": 2.0587,
       "step": 6500
     },
     {
+      "epoch": 1.56,
       "learning_rate": 0.0001,
+      "loss": 2.056,
       "step": 7000
     },
     {
+      "epoch": 1.67,
       "learning_rate": 0.0001,
+      "loss": 2.0505,
       "step": 7500
     },
     {
+      "epoch": 1.78,
       "learning_rate": 0.0001,
+      "loss": 2.048,
       "step": 8000
     },
     {
+      "epoch": 1.89,
       "learning_rate": 0.0001,
+      "loss": 2.0461,
       "step": 8500
     },
     {
+      "epoch": 2.01,
       "learning_rate": 0.0001,
+      "loss": 2.0387,
       "step": 9000
     },
     {
+      "epoch": 2.12,
       "learning_rate": 0.0001,
+      "loss": 2.0286,
       "step": 9500
     },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.0001,
+      "loss": 2.0268,
+      "step": 10000
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 0.0001,
+      "loss": 2.0224,
+      "step": 10500
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.0001,
+      "loss": 2.0139,
+      "step": 11000
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 0.0001,
+      "loss": 2.0187,
+      "step": 11500
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.0001,
+      "loss": 2.0135,
+      "step": 12000
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 0.0001,
+      "loss": 2.0193,
+      "step": 12500
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 0.0001,
+      "loss": 2.0137,
+      "step": 13000
+    },
     {
       "epoch": 3.0,
+      "step": 13458,
+      "total_flos": 2.6528400748483584e+17,
+      "train_loss": 2.0691928055687137,
+      "train_runtime": 37382.5344,
+      "train_samples_per_second": 23.041,
+      "train_steps_per_second": 0.36
     }
   ],
+  "max_steps": 13458,
   "num_train_epochs": 3,
+  "total_flos": 2.6528400748483584e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47a9fe7c4b1ce3f2d32cd85e3cc17358f4d71a65e7b35501bd96d66be068290d
-size 3643

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f6ab77cad8510acffe866439060aebb1009f8605c7c65f9df0d1a735e22f2be
+size 3707