learn3r commited on
Commit
1b92866
1 Parent(s): 1865434

End of training

Browse files
Files changed (5) hide show
  1. README.md +13 -13
  2. all_results.json +18 -0
  3. eval_results.json +13 -0
  4. train_results.json +8 -0
  5. trainer_state.json +2133 -0
README.md CHANGED
@@ -4,25 +4,25 @@ base_model: google/long-t5-tglobal-xl
4
  tags:
5
  - generated_from_trainer
6
  datasets:
7
- - scrolls
8
  metrics:
9
  - rouge
10
  model-index:
11
  - name: longt5_xl_gov_5
12
  results:
13
  - task:
14
- name: Sequence-to-sequence Language Modeling
15
- type: text2text-generation
16
  dataset:
17
- name: scrolls
18
- type: scrolls
19
  config: gov_report
20
  split: validation
21
  args: gov_report
22
  metrics:
23
  - name: Rouge1
24
  type: rouge
25
- value: 55.9961
26
  ---
27
 
28
  <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -30,14 +30,14 @@ should probably proofread and complete it, then remove this comment. -->
30
 
31
  # longt5_xl_gov_5
32
 
33
- This model is a fine-tuned version of [google/long-t5-tglobal-xl](https://huggingface.co/google/long-t5-tglobal-xl) on the scrolls dataset.
34
  It achieves the following results on the evaluation set:
35
- - Loss: 1.4569
36
- - Rouge1: 55.9961
37
- - Rouge2: 26.2205
38
- - Rougel: 29.0409
39
- - Rougelsum: 53.3109
40
- - Gen Len: 883.0463
41
 
42
  ## Model description
43
 
 
4
  tags:
5
  - generated_from_trainer
6
  datasets:
7
+ - tau/scrolls
8
  metrics:
9
  - rouge
10
  model-index:
11
  - name: longt5_xl_gov_5
12
  results:
13
  - task:
14
+ name: Summarization
15
+ type: summarization
16
  dataset:
17
+ name: tau/scrolls gov_report
18
+ type: tau/scrolls
19
  config: gov_report
20
  split: validation
21
  args: gov_report
22
  metrics:
23
  - name: Rouge1
24
  type: rouge
25
+ value: 54.2522
26
  ---
27
 
28
  <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 
30
 
31
  # longt5_xl_gov_5
32
 
33
+ This model is a fine-tuned version of [google/long-t5-tglobal-xl](https://huggingface.co/google/long-t5-tglobal-xl) on the tau/scrolls gov_report dataset.
34
  It achieves the following results on the evaluation set:
35
+ - Loss: 1.4141
36
+ - Rouge1: 54.2522
37
+ - Rouge2: 24.7528
38
+ - Rougel: 27.2444
39
+ - Rougelsum: 51.5916
40
+ - Gen Len: 889.25
41
 
42
  ## Model description
43
 
all_results.json ADDED
@@ -0,0 +1,18 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 4.99,
3
+ "eval_gen_len": 889.25,
4
+ "eval_loss": 1.4141343832015991,
5
+ "eval_rouge1": 54.2522,
6
+ "eval_rouge2": 24.7528,
7
+ "eval_rougeL": 27.2444,
8
+ "eval_rougeLsum": 51.5916,
9
+ "eval_runtime": 9829.8875,
10
+ "eval_samples": 972,
11
+ "eval_samples_per_second": 0.099,
12
+ "eval_steps_per_second": 0.012,
13
+ "train_loss": 1.3253671477822697,
14
+ "train_runtime": 159961.9679,
15
+ "train_samples": 17457,
16
+ "train_samples_per_second": 0.546,
17
+ "train_steps_per_second": 0.004
18
+ }
eval_results.json ADDED
@@ -0,0 +1,13 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 4.99,
3
+ "eval_gen_len": 889.25,
4
+ "eval_loss": 1.4141343832015991,
5
+ "eval_rouge1": 54.2522,
6
+ "eval_rouge2": 24.7528,
7
+ "eval_rougeL": 27.2444,
8
+ "eval_rougeLsum": 51.5916,
9
+ "eval_runtime": 9829.8875,
10
+ "eval_samples": 972,
11
+ "eval_samples_per_second": 0.099,
12
+ "eval_steps_per_second": 0.012
13
+ }
train_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 4.99,
3
+ "train_loss": 1.3253671477822697,
4
+ "train_runtime": 159961.9679,
5
+ "train_samples": 17457,
6
+ "train_samples_per_second": 0.546,
7
+ "train_steps_per_second": 0.004
8
+ }
trainer_state.json ADDED
@@ -0,0 +1,2133 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 1.4141343832015991,
3
+ "best_model_checkpoint": "/exports/eddie/scratch/s1970716/models/summarization/longt5_xl_gov_5/checkpoint-272",
4
+ "epoch": 4.9859655152660824,
5
+ "eval_steps": 500,
6
+ "global_step": 680,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.01,
13
+ "learning_rate": 0.001,
14
+ "loss": 2.5533,
15
+ "step": 2
16
+ },
17
+ {
18
+ "epoch": 0.03,
19
+ "learning_rate": 0.001,
20
+ "loss": 3.3547,
21
+ "step": 4
22
+ },
23
+ {
24
+ "epoch": 0.04,
25
+ "learning_rate": 0.001,
26
+ "loss": 2.3004,
27
+ "step": 6
28
+ },
29
+ {
30
+ "epoch": 0.06,
31
+ "learning_rate": 0.001,
32
+ "loss": 1.8304,
33
+ "step": 8
34
+ },
35
+ {
36
+ "epoch": 0.07,
37
+ "learning_rate": 0.001,
38
+ "loss": 2.1026,
39
+ "step": 10
40
+ },
41
+ {
42
+ "epoch": 0.09,
43
+ "learning_rate": 0.001,
44
+ "loss": 2.2411,
45
+ "step": 12
46
+ },
47
+ {
48
+ "epoch": 0.1,
49
+ "learning_rate": 0.001,
50
+ "loss": 2.0959,
51
+ "step": 14
52
+ },
53
+ {
54
+ "epoch": 0.12,
55
+ "learning_rate": 0.001,
56
+ "loss": 1.8304,
57
+ "step": 16
58
+ },
59
+ {
60
+ "epoch": 0.13,
61
+ "learning_rate": 0.001,
62
+ "loss": 1.7896,
63
+ "step": 18
64
+ },
65
+ {
66
+ "epoch": 0.15,
67
+ "learning_rate": 0.001,
68
+ "loss": 1.7457,
69
+ "step": 20
70
+ },
71
+ {
72
+ "epoch": 0.16,
73
+ "learning_rate": 0.001,
74
+ "loss": 1.7814,
75
+ "step": 22
76
+ },
77
+ {
78
+ "epoch": 0.18,
79
+ "learning_rate": 0.001,
80
+ "loss": 1.7677,
81
+ "step": 24
82
+ },
83
+ {
84
+ "epoch": 0.19,
85
+ "learning_rate": 0.001,
86
+ "loss": 1.8154,
87
+ "step": 26
88
+ },
89
+ {
90
+ "epoch": 0.21,
91
+ "learning_rate": 0.001,
92
+ "loss": 1.7556,
93
+ "step": 28
94
+ },
95
+ {
96
+ "epoch": 0.22,
97
+ "learning_rate": 0.001,
98
+ "loss": 1.9631,
99
+ "step": 30
100
+ },
101
+ {
102
+ "epoch": 0.23,
103
+ "learning_rate": 0.001,
104
+ "loss": 2.0997,
105
+ "step": 32
106
+ },
107
+ {
108
+ "epoch": 0.25,
109
+ "learning_rate": 0.001,
110
+ "loss": 2.0355,
111
+ "step": 34
112
+ },
113
+ {
114
+ "epoch": 0.26,
115
+ "learning_rate": 0.001,
116
+ "loss": 2.1162,
117
+ "step": 36
118
+ },
119
+ {
120
+ "epoch": 0.28,
121
+ "learning_rate": 0.001,
122
+ "loss": 2.0213,
123
+ "step": 38
124
+ },
125
+ {
126
+ "epoch": 0.29,
127
+ "learning_rate": 0.001,
128
+ "loss": 1.9922,
129
+ "step": 40
130
+ },
131
+ {
132
+ "epoch": 0.31,
133
+ "learning_rate": 0.001,
134
+ "loss": 2.0452,
135
+ "step": 42
136
+ },
137
+ {
138
+ "epoch": 0.32,
139
+ "learning_rate": 0.001,
140
+ "loss": 1.961,
141
+ "step": 44
142
+ },
143
+ {
144
+ "epoch": 0.34,
145
+ "learning_rate": 0.001,
146
+ "loss": 1.8321,
147
+ "step": 46
148
+ },
149
+ {
150
+ "epoch": 0.35,
151
+ "learning_rate": 0.001,
152
+ "loss": 1.8563,
153
+ "step": 48
154
+ },
155
+ {
156
+ "epoch": 0.37,
157
+ "learning_rate": 0.001,
158
+ "loss": 2.2232,
159
+ "step": 50
160
+ },
161
+ {
162
+ "epoch": 0.38,
163
+ "learning_rate": 0.001,
164
+ "loss": 2.0869,
165
+ "step": 52
166
+ },
167
+ {
168
+ "epoch": 0.4,
169
+ "learning_rate": 0.001,
170
+ "loss": 2.3297,
171
+ "step": 54
172
+ },
173
+ {
174
+ "epoch": 0.41,
175
+ "learning_rate": 0.001,
176
+ "loss": 2.353,
177
+ "step": 56
178
+ },
179
+ {
180
+ "epoch": 0.43,
181
+ "learning_rate": 0.001,
182
+ "loss": 1.975,
183
+ "step": 58
184
+ },
185
+ {
186
+ "epoch": 0.44,
187
+ "learning_rate": 0.001,
188
+ "loss": 1.9746,
189
+ "step": 60
190
+ },
191
+ {
192
+ "epoch": 0.45,
193
+ "learning_rate": 0.001,
194
+ "loss": 1.703,
195
+ "step": 62
196
+ },
197
+ {
198
+ "epoch": 0.47,
199
+ "learning_rate": 0.001,
200
+ "loss": 1.8029,
201
+ "step": 64
202
+ },
203
+ {
204
+ "epoch": 0.48,
205
+ "learning_rate": 0.001,
206
+ "loss": 1.8786,
207
+ "step": 66
208
+ },
209
+ {
210
+ "epoch": 0.5,
211
+ "learning_rate": 0.001,
212
+ "loss": 1.8229,
213
+ "step": 68
214
+ },
215
+ {
216
+ "epoch": 0.51,
217
+ "learning_rate": 0.001,
218
+ "loss": 1.8989,
219
+ "step": 70
220
+ },
221
+ {
222
+ "epoch": 0.53,
223
+ "learning_rate": 0.001,
224
+ "loss": 1.7729,
225
+ "step": 72
226
+ },
227
+ {
228
+ "epoch": 0.54,
229
+ "learning_rate": 0.001,
230
+ "loss": 1.7334,
231
+ "step": 74
232
+ },
233
+ {
234
+ "epoch": 0.56,
235
+ "learning_rate": 0.001,
236
+ "loss": 1.9054,
237
+ "step": 76
238
+ },
239
+ {
240
+ "epoch": 0.57,
241
+ "learning_rate": 0.001,
242
+ "loss": 1.8183,
243
+ "step": 78
244
+ },
245
+ {
246
+ "epoch": 0.59,
247
+ "learning_rate": 0.001,
248
+ "loss": 1.7589,
249
+ "step": 80
250
+ },
251
+ {
252
+ "epoch": 0.6,
253
+ "learning_rate": 0.001,
254
+ "loss": 1.6687,
255
+ "step": 82
256
+ },
257
+ {
258
+ "epoch": 0.62,
259
+ "learning_rate": 0.001,
260
+ "loss": 1.681,
261
+ "step": 84
262
+ },
263
+ {
264
+ "epoch": 0.63,
265
+ "learning_rate": 0.001,
266
+ "loss": 1.6948,
267
+ "step": 86
268
+ },
269
+ {
270
+ "epoch": 0.65,
271
+ "learning_rate": 0.001,
272
+ "loss": 1.6912,
273
+ "step": 88
274
+ },
275
+ {
276
+ "epoch": 0.66,
277
+ "learning_rate": 0.001,
278
+ "loss": 1.6393,
279
+ "step": 90
280
+ },
281
+ {
282
+ "epoch": 0.67,
283
+ "learning_rate": 0.001,
284
+ "loss": 1.5826,
285
+ "step": 92
286
+ },
287
+ {
288
+ "epoch": 0.69,
289
+ "learning_rate": 0.001,
290
+ "loss": 1.6758,
291
+ "step": 94
292
+ },
293
+ {
294
+ "epoch": 0.7,
295
+ "learning_rate": 0.001,
296
+ "loss": 1.7602,
297
+ "step": 96
298
+ },
299
+ {
300
+ "epoch": 0.72,
301
+ "learning_rate": 0.001,
302
+ "loss": 1.6959,
303
+ "step": 98
304
+ },
305
+ {
306
+ "epoch": 0.73,
307
+ "learning_rate": 0.001,
308
+ "loss": 1.6268,
309
+ "step": 100
310
+ },
311
+ {
312
+ "epoch": 0.75,
313
+ "learning_rate": 0.001,
314
+ "loss": 1.7449,
315
+ "step": 102
316
+ },
317
+ {
318
+ "epoch": 0.76,
319
+ "learning_rate": 0.001,
320
+ "loss": 1.7258,
321
+ "step": 104
322
+ },
323
+ {
324
+ "epoch": 0.78,
325
+ "learning_rate": 0.001,
326
+ "loss": 1.7049,
327
+ "step": 106
328
+ },
329
+ {
330
+ "epoch": 0.79,
331
+ "learning_rate": 0.001,
332
+