Upload 13 files

Browse files

Files changed (8) hide show

README.md +10 -11
all_results.json +13 -13
config.json +1 -1
eval_results.json +9 -9
pytorch_model.bin +1 -1
train_results.json +4 -4
trainer_state.json +32 -32
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -6,7 +6,7 @@ datasets:
 metrics:
 - rouge
 model-index:
-- name: base-6-2-t
   results:
   - task:
       name: Summarization
@@ -20,22 +20,22 @@ model-index:
     metrics:
     - name: Rouge1
       type: rouge
-      value: 8.6978
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# base-6-2-t
-This model is a fine-tuned version of [cnn/base-6-2](https://huggingface.co/cnn/base-6-2) on the cnn_dailymail 3.0.0 dataset.
 It achieves the following results on the evaluation set:
-- Loss: nan
-- Rouge1: 8.6978
-- Rouge2: 0.5375
-- Rougel: 6.7006
-- Rougelsum: 7.8899
-- Gen Len: 113.9803
 ## Model description
@@ -63,7 +63,6 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant
 - num_epochs: 3.0
-- mixed_precision_training: Native AMP
 ### Training results

 metrics:
 - rouge
 model-index:
+- name: base-6-2
   results:
   - task:
       name: Summarization
     metrics:
     - name: Rouge1
       type: rouge
+      value: 40.3079
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# base-6-2
+This model is a fine-tuned version of [cnn/base-6-2/](https://huggingface.co/cnn/base-6-2/) on the cnn_dailymail 3.0.0 dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.6768
+- Rouge1: 40.3079
+- Rouge2: 18.6849
+- Rougel: 29.4498
+- Rougelsum: 37.7098
+- Gen Len: 67.5191
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant
 - num_epochs: 3.0
 ### Training results

all_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
     "epoch": 3.0,
-    "eval_gen_len": 113.9802513464991,
-    "eval_loss": NaN,
-    "eval_rouge1": 8.6978,
-    "eval_rouge2": 0.5375,
-    "eval_rougeL": 6.7006,
-    "eval_rougeLsum": 7.8899,
-    "eval_runtime": 3122.7028,
     "eval_samples": 13368,
-    "eval_samples_per_second": 4.281,
-    "eval_steps_per_second": 1.07,
-    "train_loss": 0.0,
-    "train_runtime": 77963.665,
     "train_samples": 287113,
-    "train_samples_per_second": 11.048,
-    "train_steps_per_second": 0.173
 }

 {
     "epoch": 3.0,
+    "eval_gen_len": 67.51907540394973,
+    "eval_loss": 1.6768145561218262,
+    "eval_rouge1": 40.3079,
+    "eval_rouge2": 18.6849,
+    "eval_rougeL": 29.4498,
+    "eval_rougeLsum": 37.7098,
+    "eval_runtime": 2561.1074,
     "eval_samples": 13368,
+    "eval_samples_per_second": 5.22,
+    "eval_steps_per_second": 1.305,
+    "train_loss": 2.0534920626541253,
+    "train_runtime": 109961.7964,
     "train_samples": 287113,
+    "train_samples_per_second": 7.833,
+    "train_steps_per_second": 0.122
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "cnn/base-6-2",
   "architectures": [
     "T5ForConditionalGeneration"
   ],

 {
+  "_name_or_path": "cnn/base-6-2/",
   "architectures": [
     "T5ForConditionalGeneration"
   ],

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 3.0,
-    "eval_gen_len": 113.9802513464991,
-    "eval_loss": NaN,
-    "eval_rouge1": 8.6978,
-    "eval_rouge2": 0.5375,
-    "eval_rougeL": 6.7006,
-    "eval_rougeLsum": 7.8899,
-    "eval_runtime": 3122.7028,
     "eval_samples": 13368,
-    "eval_samples_per_second": 4.281,
-    "eval_steps_per_second": 1.07
 }

 {
     "epoch": 3.0,
+    "eval_gen_len": 67.51907540394973,
+    "eval_loss": 1.6768145561218262,
+    "eval_rouge1": 40.3079,
+    "eval_rouge2": 18.6849,
+    "eval_rougeL": 29.4498,
+    "eval_rougeLsum": 37.7098,
+    "eval_runtime": 2561.1074,
     "eval_samples": 13368,
+    "eval_samples_per_second": 5.22,
+    "eval_steps_per_second": 1.305
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c96aac1f1c4216f282c1a0bb7fb991800fdd2721285db4176dcb27b13cee35f
 size 688306421

 version https://git-lfs.github.com/spec/v1
+oid sha256:292d282710339c24bfbfadfdbbb84d4a8cd9f40638710ced7a28a7b507d4abff
 size 688306421

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "train_loss": 0.0,
-    "train_runtime": 77963.665,
     "train_samples": 287113,
-    "train_samples_per_second": 11.048,
-    "train_steps_per_second": 0.173
 }

 {
     "epoch": 3.0,
+    "train_loss": 2.0534920626541253,
+    "train_runtime": 109961.7964,
     "train_samples": 287113,
+    "train_samples_per_second": 7.833,
+    "train_steps_per_second": 0.122
 }

trainer_state.json CHANGED Viewed

@@ -10,172 +10,172 @@
     {
       "epoch": 0.11,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 500
     },
     {
       "epoch": 0.22,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 1000
     },
     {
       "epoch": 0.33,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 1500
     },
     {
       "epoch": 0.45,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 2000
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 2500
     },
     {
       "epoch": 0.67,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 3000
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 3500
     },
     {
       "epoch": 0.89,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 4000
     },
     {
       "epoch": 1.0,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 4500
     },
     {
       "epoch": 1.11,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 5000
     },
     {
       "epoch": 1.23,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 5500
     },
     {
       "epoch": 1.34,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 6000
     },
     {
       "epoch": 1.45,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 6500
     },
     {
       "epoch": 1.56,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 7000
     },
     {
       "epoch": 1.67,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 7500
     },
     {
       "epoch": 1.78,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 8000
     },
     {
       "epoch": 1.89,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 8500
     },
     {
       "epoch": 2.01,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 9000
     },
     {
       "epoch": 2.12,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 9500
     },
     {
       "epoch": 2.23,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 10000
     },
     {
       "epoch": 2.34,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 10500
     },
     {
       "epoch": 2.45,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 11000
     },
     {
       "epoch": 2.56,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 11500
     },
     {
       "epoch": 2.67,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 12000
     },
     {
       "epoch": 2.79,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 12500
     },
     {
       "epoch": 2.9,
       "learning_rate": 0.0001,
-      "loss": 0.0,
       "step": 13000
     },
     {
       "epoch": 3.0,
       "step": 13458,
-      "total_flos": 7.169782919100826e+17,
-      "train_loss": 0.0,
-      "train_runtime": 77963.665,
-      "train_samples_per_second": 11.048,
-      "train_steps_per_second": 0.173
     }
   ],
   "max_steps": 13458,
   "num_train_epochs": 3,
-  "total_flos": 7.169782919100826e+17,
   "trial_name": null,
   "trial_params": null
 }

     {
       "epoch": 0.11,
       "learning_rate": 0.0001,
+      "loss": 2.6686,
       "step": 500
     },
     {
       "epoch": 0.22,
       "learning_rate": 0.0001,
+      "loss": 2.3316,
       "step": 1000
     },
     {
       "epoch": 0.33,
       "learning_rate": 0.0001,
+      "loss": 2.2489,
       "step": 1500
     },
     {
       "epoch": 0.45,
       "learning_rate": 0.0001,
+      "loss": 2.2069,
       "step": 2000
     },
     {
       "epoch": 0.56,
       "learning_rate": 0.0001,
+      "loss": 2.1742,
       "step": 2500
     },
     {
       "epoch": 0.67,
       "learning_rate": 0.0001,
+      "loss": 2.1453,
       "step": 3000
     },
     {
       "epoch": 0.78,
       "learning_rate": 0.0001,
+      "loss": 2.1187,
       "step": 3500
     },
     {
       "epoch": 0.89,
       "learning_rate": 0.0001,
+      "loss": 2.103,
       "step": 4000
     },
     {
       "epoch": 1.0,
       "learning_rate": 0.0001,
+      "loss": 2.0829,
       "step": 4500
     },
     {
       "epoch": 1.11,
       "learning_rate": 0.0001,
+      "loss": 2.0455,
       "step": 5000
     },
     {
       "epoch": 1.23,
       "learning_rate": 0.0001,
+      "loss": 2.0346,
       "step": 5500
     },
     {
       "epoch": 1.34,
       "learning_rate": 0.0001,
+      "loss": 2.0186,
       "step": 6000
     },
     {
       "epoch": 1.45,
       "learning_rate": 0.0001,
+      "loss": 2.0114,
       "step": 6500
     },
     {
       "epoch": 1.56,
       "learning_rate": 0.0001,
+      "loss": 2.0048,
       "step": 7000
     },
     {
       "epoch": 1.67,
       "learning_rate": 0.0001,
+      "loss": 1.9923,
       "step": 7500
     },
     {
       "epoch": 1.78,
       "learning_rate": 0.0001,
+      "loss": 1.9883,
       "step": 8000
     },
     {
       "epoch": 1.89,
       "learning_rate": 0.0001,
+      "loss": 1.9821,
       "step": 8500
     },
     {
       "epoch": 2.01,
       "learning_rate": 0.0001,
+      "loss": 1.9678,
       "step": 9000
     },
     {
       "epoch": 2.12,
       "learning_rate": 0.0001,
+      "loss": 1.9427,
       "step": 9500
     },
     {
       "epoch": 2.23,
       "learning_rate": 0.0001,
+      "loss": 1.938,
       "step": 10000
     },
     {
       "epoch": 2.34,
       "learning_rate": 0.0001,
+      "loss": 1.9309,
       "step": 10500
     },
     {
       "epoch": 2.45,
       "learning_rate": 0.0001,
+      "loss": 1.9198,
       "step": 11000
     },
     {
       "epoch": 2.56,
       "learning_rate": 0.0001,
+      "loss": 1.9246,
       "step": 11500
     },
     {
       "epoch": 2.67,
       "learning_rate": 0.0001,
+      "loss": 1.916,
       "step": 12000
     },
     {
       "epoch": 2.79,
       "learning_rate": 0.0001,
+      "loss": 1.9193,
       "step": 12500
     },
     {
       "epoch": 2.9,
       "learning_rate": 0.0001,
+      "loss": 1.9114,
       "step": 13000
     },
     {
       "epoch": 3.0,
       "step": 13458,
+      "total_flos": 7.160049636932506e+17,
+      "train_loss": 2.0534920626541253,
+      "train_runtime": 109961.7964,
+      "train_samples_per_second": 7.833,
+      "train_steps_per_second": 0.122
     }
   ],
   "max_steps": 13458,
   "num_train_epochs": 3,
+  "total_flos": 7.160049636932506e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d3edd4fa56bca4efe8ba3a5da79eff073d499c527806533929aed03ad7e7b20
-size 3643

 version https://git-lfs.github.com/spec/v1
+oid sha256:b864680fb30fe6fe03a89db45eef8a858288f845c39283e91db713f0385a471b
+size 3707