End of training

Browse files

Files changed (5) hide show

README.md +14 -13
all_results.json +18 -0
eval_results.json +13 -0
train_results.json +8 -0
trainer_state.json +578 -0

README.md CHANGED Viewed

@@ -1,26 +1,27 @@
 ---
 tags:
 - generated_from_trainer
 datasets:
-- scrolls
 metrics:
 - rouge
 model-index:
 - name: longt5_xl_summ_screen_20
   results:
   - task:
-      name: Sequence-to-sequence Language Modeling
-      type: text2text-generation
     dataset:
-      name: scrolls
-      type: scrolls
       config: summ_screen_fd
       split: validation
       args: summ_screen_fd
     metrics:
     - name: Rouge1
       type: rouge
-      value: 32.2717
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -28,14 +29,14 @@ should probably proofread and complete it, then remove this comment. -->
 # longt5_xl_summ_screen_20
-This model was trained from scratch on the scrolls dataset.
 It achieves the following results on the evaluation set:
-- Loss: 5.0866
-- Rouge1: 32.2717
-- Rouge2: 7.7004
-- Rougel: 18.9107
-- Rougelsum: 28.3874
-- Gen Len: 124.1893
 ## Model description

 ---
+base_model: /exports/eddie/scratch/s1970716/models/summarization/longt5_xl_summ_screen/checkpoint-140
 tags:
 - generated_from_trainer
 datasets:
+- tau/scrolls
 metrics:
 - rouge
 model-index:
 - name: longt5_xl_summ_screen_20
   results:
   - task:
+      name: Summarization
+      type: summarization
     dataset:
+      name: tau/scrolls summ_screen_fd
+      type: tau/scrolls
       config: summ_screen_fd
       split: validation
       args: summ_screen_fd
     metrics:
     - name: Rouge1
       type: rouge
+      value: 28.1708
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # longt5_xl_summ_screen_20
+This model is a fine-tuned version of [/exports/eddie/scratch/s1970716/models/summarization/longt5_xl_summ_screen/checkpoint-140](https://huggingface.co//exports/eddie/scratch/s1970716/models/summarization/longt5_xl_summ_screen/checkpoint-140) on the tau/scrolls summ_screen_fd dataset.
 It achieves the following results on the evaluation set:
+- Loss: 3.1917
+- Rouge1: 28.1708
+- Rouge2: 6.6895
+- Rougel: 18.1637
+- Rougelsum: 24.3987
+- Gen Len: 96.2041
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+    "epoch": 9.74,
+    "eval_gen_len": 96.20414201183432,
+    "eval_loss": 3.1917154788970947,
+    "eval_rouge1": 28.1708,
+    "eval_rouge2": 6.6895,
+    "eval_rougeL": 18.1637,
+    "eval_rougeLsum": 24.3987,
+    "eval_runtime": 1032.7131,
+    "eval_samples": 338,
+    "eval_samples_per_second": 0.327,
+    "eval_steps_per_second": 0.164,
+    "train_loss": 0.18376290196818965,
+    "train_runtime": 47972.5065,
+    "train_samples": 3673,
+    "train_samples_per_second": 0.766,
+    "train_steps_per_second": 0.003
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 9.74,
+    "eval_gen_len": 96.20414201183432,
+    "eval_loss": 3.1917154788970947,
+    "eval_rouge1": 28.1708,
+    "eval_rouge2": 6.6895,
+    "eval_rougeL": 18.1637,
+    "eval_rougeLsum": 24.3987,
+    "eval_runtime": 1032.7131,
+    "eval_samples": 338,
+    "eval_samples_per_second": 0.327,
+    "eval_steps_per_second": 0.164
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 9.74,
+    "train_loss": 0.18376290196818965,
+    "train_runtime": 47972.5065,
+    "train_samples": 3673,
+    "train_samples_per_second": 0.766,
+    "train_steps_per_second": 0.003
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,578 @@

+{
+  "best_metric": 3.1917154788970947,
+  "best_model_checkpoint": "/exports/eddie/scratch/s1970716/models/summarization/longt5_xl_summ_screen_20/checkpoint-28",
+  "epoch": 9.73913043478261,
+  "eval_steps": 500,
+  "global_step": 140,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.001,
+      "loss": 0.411,
+      "step": 2
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.001,
+      "loss": 0.4642,
+      "step": 4
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.001,
+      "loss": 0.4965,
+      "step": 6
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.001,
+      "loss": 0.7455,
+      "step": 8
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.001,
+      "loss": 0.4501,
+      "step": 10
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.001,
+      "loss": 0.3804,
+      "step": 12
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.001,
+      "loss": 0.4063,
+      "step": 14
+    },
+    {
+      "epoch": 0.97,
+      "eval_gen_len": 71.90828402366864,
+      "eval_loss": 3.7384819984436035,
+      "eval_rouge1": 27.9171,
+      "eval_rouge2": 6.7215,
+      "eval_rougeL": 17.9315,
+      "eval_rougeLsum": 24.363,
+      "eval_runtime": 823.0541,
+      "eval_samples_per_second": 0.411,
+      "eval_steps_per_second": 0.205,
+      "step": 14
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.001,
+      "loss": 0.3201,
+      "step": 16
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.001,
+      "loss": 0.3253,
+      "step": 18
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.001,
+      "loss": 0.3215,
+      "step": 20
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.001,
+      "loss": 0.3175,
+      "step": 22
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.001,
+      "loss": 0.3331,
+      "step": 24
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.001,
+      "loss": 0.2811,
+      "step": 26
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.001,
+      "loss": 0.3125,
+      "step": 28
+    },
+    {
+      "epoch": 1.95,
+      "eval_gen_len": 96.20414201183432,
+      "eval_loss": 3.1917154788970947,
+      "eval_rouge1": 28.1708,
+      "eval_rouge2": 6.6895,
+      "eval_rougeL": 18.1637,
+      "eval_rougeLsum": 24.3987,
+      "eval_runtime": 1069.4844,
+      "eval_samples_per_second": 0.316,
+      "eval_steps_per_second": 0.158,
+      "step": 28
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.001,
+      "loss": 0.2621,
+      "step": 30
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.001,
+      "loss": 0.2194,
+      "step": 32
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.001,
+      "loss": 0.2386,
+      "step": 34
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 0.001,
+      "loss": 0.2264,
+      "step": 36
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.001,
+      "loss": 0.2002,
+      "step": 38
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 0.001,
+      "loss": 0.2477,
+      "step": 40
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.001,
+      "loss": 0.2177,
+      "step": 42
+    },
+    {
+      "epoch": 2.99,
+      "eval_gen_len": 198.0473372781065,
+      "eval_loss": 3.9997544288635254,
+      "eval_rouge1": 29.3167,
+      "eval_rouge2": 5.9,
+      "eval_rougeL": 17.3608,
+      "eval_rougeLsum": 25.6945,
+      "eval_runtime": 1900.1301,
+      "eval_samples_per_second": 0.178,
+      "eval_steps_per_second": 0.089,
+      "step": 43
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 0.001,
+      "loss": 0.2069,
+      "step": 44
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 0.001,
+      "loss": 0.164,
+      "step": 46
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 0.001,
+      "loss": 0.1679,
+      "step": 48
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 0.001,
+      "loss": 0.1736,
+      "step": 50
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 0.001,
+      "loss": 0.1688,
+      "step": 52
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 0.001,
+      "loss": 0.1749,
+      "step": 54
+    },
+    {
+      "epoch": 3.9,
+      "learning_rate": 0.001,
+      "loss": 0.1753,
+      "step": 56
+    },
+    {
+      "epoch": 3.97,
+      "eval_gen_len": 158.6508875739645,
+      "eval_loss": 4.228714466094971,
+      "eval_rouge1": 29.0605,
+      "eval_rouge2": 6.2534,
+      "eval_rougeL": 17.5744,
+      "eval_rougeLsum": 25.6415,
+      "eval_runtime": 1492.9623,
+      "eval_samples_per_second": 0.226,
+      "eval_steps_per_second": 0.113,
+      "step": 57
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 0.001,
+      "loss": 0.1656,
+      "step": 58
+    },
+    {
+      "epoch": 4.17,
+      "learning_rate": 0.001,
+      "loss": 0.1144,
+      "step": 60
+    },
+    {
+      "epoch": 4.31,
+      "learning_rate": 0.001,
+      "loss": 0.161,
+      "step": 62
+    },
+    {
+      "epoch": 4.45,
+      "learning_rate": 0.001,
+      "loss": 0.2169,
+      "step": 64
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 0.001,
+      "loss": 0.1943,
+      "step": 66
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 0.001,
+      "loss": 0.1777,
+      "step": 68
+    },
+    {
+      "epoch": 4.87,
+      "learning_rate": 0.001,
+      "loss": 0.2747,
+      "step": 70
+    },
+    {
+      "epoch": 4.94,
+      "eval_gen_len": 118.44378698224853,
+      "eval_loss": 4.102721214294434,
+      "eval_rouge1": 31.2245,
+      "eval_rouge2": 6.5663,
+      "eval_rougeL": 18.1588,
+      "eval_rougeLsum": 26.8996,
+      "eval_runtime": 1188.6007,
+      "eval_samples_per_second": 0.284,
+      "eval_steps_per_second": 0.142,
+      "step": 71
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 0.001,
+      "loss": 0.1399,
+      "step": 72
+    },
+    {
+      "epoch": 5.15,
+      "learning_rate": 0.001,
+      "loss": 0.0986,
+      "step": 74
+    },
+    {
+      "epoch": 5.29,
+      "learning_rate": 0.001,
+      "loss": 0.1051,
+      "step": 76
+    },
+    {
+      "epoch": 5.43,
+      "learning_rate": 0.001,
+      "loss": 0.1288,
+      "step": 78
+    },
+    {
+      "epoch": 5.57,
+      "learning_rate": 0.001,
+      "loss": 0.1097,
+      "step": 80
+    },
+    {
+      "epoch": 5.7,
+      "learning_rate": 0.001,
+      "loss": 0.1163,
+      "step": 82
+    },
+    {
+      "epoch": 5.84,
+      "learning_rate": 0.001,
+      "loss": 0.1205,
+      "step": 84
+    },
+    {
+      "epoch": 5.98,
+      "learning_rate": 0.001,
+      "loss": 0.1045,
+      "step": 86
+    },
+    {
+      "epoch": 5.98,
+      "eval_gen_len": 92.98816568047337,
+      "eval_loss": 5.058135986328125,
+      "eval_rouge1": 30.6056,
+      "eval_rouge2": 6.8892,
+      "eval_rougeL": 18.4933,
+      "eval_rougeLsum": 26.4027,
+      "eval_runtime": 984.3965,
+      "eval_samples_per_second": 0.343,
+      "eval_steps_per_second": 0.172,
+      "step": 86
+    },
+    {
+      "epoch": 6.12,
+      "learning_rate": 0.001,
+      "loss": 0.0767,
+      "step": 88
+    },
+    {
+      "epoch": 6.26,
+      "learning_rate": 0.001,
+      "loss": 0.0678,
+      "step": 90
+    },
+    {
+      "epoch": 6.4,
+      "learning_rate": 0.001,
+      "loss": 0.0759,
+      "step": 92
+    },
+    {
+      "epoch": 6.54,
+      "learning_rate": 0.001,
+      "loss": 0.0714,
+      "step": 94
+    },
+    {
+      "epoch": 6.68,
+      "learning_rate": 0.001,
+      "loss": 0.0822,
+      "step": 96
+    },
+    {
+      "epoch": 6.82,
+      "learning_rate": 0.001,
+      "loss": 0.0843,
+      "step": 98
+    },
+    {
+      "epoch": 6.96,
+      "learning_rate": 0.001,
+      "loss": 0.0875,
+      "step": 100
+    },
+    {
+      "epoch": 6.96,
+      "eval_gen_len": 160.89644970414201,
+      "eval_loss": 4.59414529800415,
+      "eval_rouge1": 32.5234,
+      "eval_rouge2": 7.3736,
+      "eval_rougeL": 18.8958,
+      "eval_rougeLsum": 28.4738,
+      "eval_runtime": 1504.7392,
+      "eval_samples_per_second": 0.225,
+      "eval_steps_per_second": 0.112,
+      "step": 100
+    },
+    {
+      "epoch": 7.1,
+      "learning_rate": 0.001,
+      "loss": 0.0724,
+      "step": 102
+    },
+    {
+      "epoch": 7.23,
+      "learning_rate": 0.001,
+      "loss": 0.0638,
+      "step": 104
+    },
+    {
+      "epoch": 7.37,
+      "learning_rate": 0.001,
+      "loss": 0.0649,
+      "step": 106
+    },
+    {
+      "epoch": 7.51,
+      "learning_rate": 0.001,
+      "loss": 0.0743,
+      "step": 108
+    },
+    {
+      "epoch": 7.65,
+      "learning_rate": 0.001,
+      "loss": 0.0754,
+      "step": 110
+    },
+    {
+      "epoch": 7.79,
+      "learning_rate": 0.001,
+      "loss": 0.0865,
+      "step": 112
+    },
+    {
+      "epoch": 7.93,
+      "learning_rate": 0.001,
+      "loss": 0.1572,
+      "step": 114
+    },
+    {
+      "epoch": 8.0,
+      "eval_gen_len": 121.01775147928994,
+      "eval_loss": 4.938564300537109,
+      "eval_rouge1": 31.4658,
+      "eval_rouge2": 7.2592,
+      "eval_rougeL": 18.4796,
+      "eval_rougeLsum": 27.6047,
+      "eval_runtime": 1185.8984,
+      "eval_samples_per_second": 0.285,
+      "eval_steps_per_second": 0.143,
+      "step": 115
+    },
+    {
+      "epoch": 8.07,
+      "learning_rate": 0.001,
+      "loss": 0.0862,
+      "step": 116
+    },
+    {
+      "epoch": 8.21,
+      "learning_rate": 0.001,
+      "loss": 0.0607,
+      "step": 118
+    },
+    {
+      "epoch": 8.35,
+      "learning_rate": 0.001,
+      "loss": 0.0692,
+      "step": 120
+    },
+    {
+      "epoch": 8.49,
+      "learning_rate": 0.001,
+      "loss": 0.0916,
+      "step": 122
+    },
+    {
+      "epoch": 8.63,
+      "learning_rate": 0.001,
+      "loss": 0.0847,
+      "step": 124
+    },
+    {
+      "epoch": 8.77,
+      "learning_rate": 0.001,
+      "loss": 0.089,
+      "step": 126
+    },
+    {
+      "epoch": 8.9,
+      "learning_rate": 0.001,
+      "loss": 0.0867,
+      "step": 128
+    },
+    {
+      "epoch": 8.97,
+      "eval_gen_len": 160.4792899408284,
+      "eval_loss": 4.556480884552002,
+      "eval_rouge1": 32.0531,
+      "eval_rouge2": 7.0692,
+      "eval_rougeL": 18.5551,
+      "eval_rougeLsum": 27.3373,
+      "eval_runtime": 1462.551,
+      "eval_samples_per_second": 0.231,
+      "eval_steps_per_second": 0.116,
+      "step": 129
+    },
+    {
+      "epoch": 9.04,
+      "learning_rate": 0.001,
+      "loss": 0.1022,
+      "step": 130
+    },
+    {
+      "epoch": 9.18,
+      "learning_rate": 0.001,
+      "loss": 0.067,
+      "step": 132
+    },
+    {
+      "epoch": 9.32,
+      "learning_rate": 0.001,
+      "loss": 0.0746,
+      "step": 134
+    },
+    {
+      "epoch": 9.46,
+      "learning_rate": 0.001,
+      "loss": 0.0888,
+      "step": 136
+    },
+    {
+      "epoch": 9.6,
+      "learning_rate": 0.001,
+      "loss": 0.1111,
+      "step": 138
+    },
+    {
+      "epoch": 9.74,
+      "learning_rate": 0.001,
+      "loss": 0.0748,
+      "step": 140
+    },
+    {
+      "epoch": 9.74,
+      "eval_gen_len": 124.18934911242603,
+      "eval_loss": 5.086633682250977,
+      "eval_rouge1": 32.2717,
+      "eval_rouge2": 7.7004,
+      "eval_rougeL": 18.9107,
+      "eval_rougeLsum": 28.3874,
+      "eval_runtime": 1232.2532,
+      "eval_samples_per_second": 0.274,
+      "eval_steps_per_second": 0.137,
+      "step": 140
+    },
+    {
+      "epoch": 9.74,
+      "step": 140,
+      "total_flos": 2.447850236380324e+18,
+      "train_loss": 0.18376290196818965,
+      "train_runtime": 47972.5065,
+      "train_samples_per_second": 0.766,
+      "train_steps_per_second": 0.003
+    }
+  ],
+  "logging_steps": 2,
+  "max_steps": 140,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 2.447850236380324e+18,
+  "trial_name": null,
+  "trial_params": null
+}