End of training

Browse files

Files changed (5) hide show

README.md +14 -2
all_results.json +14 -14
eval_results.json +10 -10
train_results.json +5 -5
trainer_state.json +142 -12

README.md CHANGED Viewed

@@ -3,11 +3,23 @@ license: apache-2.0
 base_model: google-t5/t5-small
 tags:
 - generated_from_trainer
 metrics:
 - rouge
 model-index:
 - name: pep_summarization
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,7 +27,7 @@ should probably proofread and complete it, then remove this comment. -->
 # pep_summarization
-This model is a fine-tuned version of [google-t5/t5-small](https://huggingface.co/google-t5/t5-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.1481
 - Rouge1: 72.899

 base_model: google-t5/t5-small
 tags:
 - generated_from_trainer
+datasets:
+- fedora-copr/pep-sum
 metrics:
 - rouge
 model-index:
 - name: pep_summarization
+  results:
+  - task:
+      name: Summarization
+      type: summarization
+    dataset:
+      name: fedora-copr/pep-sum
+      type: fedora-copr/pep-sum
+    metrics:
+    - name: Rouge1
+      type: rouge
+      value: 72.899
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # pep_summarization
+This model is a fine-tuned version of [google-t5/t5-small](https://huggingface.co/google-t5/t5-small) on the fedora-copr/pep-sum dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.1481
 - Rouge1: 72.899

all_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
-    "epoch": 3.0,
-    "eval_gen_len": 58.20289855072464,
-    "eval_loss": 0.143265962600708,
-    "eval_rouge1": 80.2131,
-    "eval_rouge2": 78.9792,
-    "eval_rougeL": 80.1239,
-    "eval_rougeLsum": 80.028,
-    "eval_runtime": 4.3293,
     "eval_samples": 69,
-    "eval_samples_per_second": 15.938,
-    "eval_steps_per_second": 4.158,
-    "train_loss": 0.26120923913043476,
-    "train_runtime": 13.4481,
     "train_samples": 276,
-    "train_samples_per_second": 61.57,
-    "train_steps_per_second": 15.392
 }

 {
+    "epoch": 10.0,
+    "eval_gen_len": 63.768115942028984,
+    "eval_loss": 0.1480671912431717,
+    "eval_rouge1": 72.899,
+    "eval_rouge2": 70.9929,
+    "eval_rougeL": 72.3728,
+    "eval_rougeLsum": 72.4923,
+    "eval_runtime": 2.9382,
     "eval_samples": 69,
+    "eval_samples_per_second": 23.484,
+    "eval_steps_per_second": 3.063,
+    "train_loss": 0.2781148420061384,
+    "train_runtime": 69.51,
     "train_samples": 276,
+    "train_samples_per_second": 39.707,
+    "train_steps_per_second": 5.035
 }

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 3.0,
-    "eval_gen_len": 58.20289855072464,
-    "eval_loss": 0.143265962600708,
-    "eval_rouge1": 80.2131,
-    "eval_rouge2": 78.9792,
-    "eval_rougeL": 80.1239,
-    "eval_rougeLsum": 80.028,
-    "eval_runtime": 4.3293,
     "eval_samples": 69,
-    "eval_samples_per_second": 15.938,
-    "eval_steps_per_second": 4.158
 }

 {
+    "epoch": 10.0,
+    "eval_gen_len": 63.768115942028984,
+    "eval_loss": 0.1480671912431717,
+    "eval_rouge1": 72.899,
+    "eval_rouge2": 70.9929,
+    "eval_rougeL": 72.3728,
+    "eval_rougeLsum": 72.4923,
+    "eval_runtime": 2.9382,
     "eval_samples": 69,
+    "eval_samples_per_second": 23.484,
+    "eval_steps_per_second": 3.063
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "train_loss": 0.26120923913043476,
-    "train_runtime": 13.4481,
     "train_samples": 276,
-    "train_samples_per_second": 61.57,
-    "train_steps_per_second": 15.392
 }

 {
+    "epoch": 10.0,
+    "train_loss": 0.2781148420061384,
+    "train_runtime": 69.51,
     "train_samples": 276,
+    "train_samples_per_second": 39.707,
+    "train_steps_per_second": 5.035
 }

trainer_state.json CHANGED Viewed

@@ -1,30 +1,160 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
   "eval_steps": 500,
-  "global_step": 207,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 3.0,
-      "step": 207,
-      "total_flos": 224126023237632.0,
-      "train_loss": 0.26120923913043476,
-      "train_runtime": 13.4481,
-      "train_samples_per_second": 61.57,
-      "train_steps_per_second": 15.392
     }
   ],
   "logging_steps": 500,
-  "max_steps": 207,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 224126023237632.0,
-  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 10.0,
   "eval_steps": 500,
+  "global_step": 350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_gen_len": 81.08695652173913,
+      "eval_loss": 0.4794468879699707,
+      "eval_rouge1": 53.7599,
+      "eval_rouge2": 44.6918,
+      "eval_rougeL": 49.173,
+      "eval_rougeLsum": 51.6067,
+      "eval_runtime": 3.2476,
+      "eval_samples_per_second": 21.247,
+      "eval_steps_per_second": 2.771,
+      "step": 35
+    },
+    {
+      "epoch": 2.0,
+      "eval_gen_len": 67.78260869565217,
+      "eval_loss": 0.29988083243370056,
+      "eval_rouge1": 61.8274,
+      "eval_rouge2": 55.9578,
+      "eval_rougeL": 59.2336,
+      "eval_rougeLsum": 60.4066,
+      "eval_runtime": 3.0007,
+      "eval_samples_per_second": 22.995,
+      "eval_steps_per_second": 2.999,
+      "step": 70
+    },
     {
       "epoch": 3.0,
+      "eval_gen_len": 63.0,
+      "eval_loss": 0.23501555621623993,
+      "eval_rouge1": 64.2495,
+      "eval_rouge2": 60.3342,
+      "eval_rougeL": 62.721,
+      "eval_rougeLsum": 63.73,
+      "eval_runtime": 2.821,
+      "eval_samples_per_second": 24.46,
+      "eval_steps_per_second": 3.19,
+      "step": 105
+    },
+    {
+      "epoch": 4.0,
+      "eval_gen_len": 64.23188405797102,
+      "eval_loss": 0.20167909562587738,
+      "eval_rouge1": 64.2686,
+      "eval_rouge2": 60.2656,
+      "eval_rougeL": 62.6414,
+      "eval_rougeLsum": 63.6299,
+      "eval_runtime": 2.8218,
+      "eval_samples_per_second": 24.452,
+      "eval_steps_per_second": 3.189,
+      "step": 140
+    },
+    {
+      "epoch": 5.0,
+      "eval_gen_len": 60.405797101449274,
+      "eval_loss": 0.1814391165971756,
+      "eval_rouge1": 71.4025,
+      "eval_rouge2": 68.7633,
+      "eval_rougeL": 70.366,
+      "eval_rougeLsum": 70.7136,
+      "eval_runtime": 2.7953,
+      "eval_samples_per_second": 24.684,
+      "eval_steps_per_second": 3.22,
+      "step": 175
+    },
+    {
+      "epoch": 6.0,
+      "eval_gen_len": 61.594202898550726,
+      "eval_loss": 0.1666056513786316,
+      "eval_rouge1": 70.4243,
+      "eval_rouge2": 67.771,
+      "eval_rougeL": 69.4202,
+      "eval_rougeLsum": 69.8005,
+      "eval_runtime": 2.7382,
+      "eval_samples_per_second": 25.199,
+      "eval_steps_per_second": 3.287,
+      "step": 210
+    },
+    {
+      "epoch": 7.0,
+      "eval_gen_len": 62.20289855072464,
+      "eval_loss": 0.15789227187633514,
+      "eval_rouge1": 71.1609,
+      "eval_rouge2": 68.4618,
+      "eval_rougeL": 70.0878,
+      "eval_rougeLsum": 70.5446,
+      "eval_runtime": 2.7285,
+      "eval_samples_per_second": 25.289,
+      "eval_steps_per_second": 3.299,
+      "step": 245
+    },
+    {
+      "epoch": 8.0,
+      "eval_gen_len": 64.30434782608695,
+      "eval_loss": 0.15203262865543365,
+      "eval_rouge1": 72.3025,
+      "eval_rouge2": 69.9693,
+      "eval_rougeL": 71.422,
+      "eval_rougeLsum": 71.7157,
+      "eval_runtime": 2.9693,
+      "eval_samples_per_second": 23.238,
+      "eval_steps_per_second": 3.031,
+      "step": 280
+    },
+    {
+      "epoch": 9.0,
+      "eval_gen_len": 63.768115942028984,
+      "eval_loss": 0.14907658100128174,
+      "eval_rouge1": 72.899,
+      "eval_rouge2": 70.9929,
+      "eval_rougeL": 72.3728,
+      "eval_rougeLsum": 72.4923,
+      "eval_runtime": 3.0097,
+      "eval_samples_per_second": 22.926,
+      "eval_steps_per_second": 2.99,
+      "step": 315
+    },
+    {
+      "epoch": 10.0,
+      "eval_gen_len": 63.768115942028984,
+      "eval_loss": 0.1480671912431717,
+      "eval_rouge1": 72.899,
+      "eval_rouge2": 70.9929,
+      "eval_rougeL": 72.3728,
+      "eval_rougeLsum": 72.4923,
+      "eval_runtime": 2.988,
+      "eval_samples_per_second": 23.092,
+      "eval_steps_per_second": 3.012,
+      "step": 350
+    },
+    {
+      "epoch": 10.0,
+      "step": 350,
+      "total_flos": 747086744125440.0,
+      "train_loss": 0.2781148420061384,
+      "train_runtime": 69.51,
+      "train_samples_per_second": 39.707,
+      "train_steps_per_second": 5.035
     }
   ],
   "logging_steps": 500,
+  "max_steps": 350,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 500,
+  "total_flos": 747086744125440.0,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }