g8a9 commited on
Commit
1ab8edf
1 Parent(s): c14c7cb

Upload folder using huggingface_hub

Browse files
README.md ADDED
@@ -0,0 +1,74 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: Musixmatch/umberto-wikipedia-uncased-v1
3
+ tags:
4
+ - generated_from_trainer
5
+ metrics:
6
+ - f1
7
+ model-index:
8
+ - name: umberto-wikipedia-uncased-v1
9
+ results: []
10
+ ---
11
+
12
+ <!-- This model card has been generated automatically according to the information the Trainer had access to. You
13
+ should probably proofread and complete it, then remove this comment. -->
14
+
15
+ # umberto-wikipedia-uncased-v1
16
+
17
+ This model is a fine-tuned version of [Musixmatch/umberto-wikipedia-uncased-v1](https://huggingface.co/Musixmatch/umberto-wikipedia-uncased-v1) on an unknown dataset.
18
+ It achieves the following results on the evaluation set:
19
+ - Loss: 0.4643
20
+ - F1: 0.6160
21
+
22
+ ## Model description
23
+
24
+ More information needed
25
+
26
+ ## Intended uses & limitations
27
+
28
+ More information needed
29
+
30
+ ## Training and evaluation data
31
+
32
+ More information needed
33
+
34
+ ## Training procedure
35
+
36
+ ### Training hyperparameters
37
+
38
+ The following hyperparameters were used during training:
39
+ - learning_rate: 2e-05
40
+ - train_batch_size: 128
41
+ - eval_batch_size: 32
42
+ - seed: 0
43
+ - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
44
+ - lr_scheduler_type: constant
45
+ - lr_scheduler_warmup_ratio: 0.05
46
+ - num_epochs: 5.0
47
+
48
+ ### Training results
49
+
50
+ | Training Loss | Epoch | Step | Validation Loss | F1 |
51
+ |:-------------:|:-----:|:----:|:---------------:|:------:|
52
+ | 0.5923 | 0.33 | 20 | 0.6075 | 0.2974 |
53
+ | 0.6694 | 0.67 | 40 | 0.5938 | 0.2974 |
54
+ | 0.5225 | 1.0 | 60 | 0.5346 | 0.3024 |
55
+ | 0.5458 | 1.33 | 80 | 0.5172 | 0.4682 |
56
+ | 0.5052 | 1.67 | 100 | 0.5550 | 0.4361 |
57
+ | 0.3689 | 2.0 | 120 | 0.5188 | 0.4395 |
58
+ | 0.4097 | 2.33 | 140 | 0.4918 | 0.4676 |
59
+ | 0.4904 | 2.67 | 160 | 0.4756 | 0.4640 |
60
+ | 0.3696 | 3.0 | 180 | 0.4788 | 0.4688 |
61
+ | 0.3631 | 3.33 | 200 | 0.4751 | 0.4735 |
62
+ | 0.4345 | 3.67 | 220 | 0.4609 | 0.4797 |
63
+ | 0.3398 | 4.0 | 240 | 0.4637 | 0.5673 |
64
+ | 0.2985 | 4.33 | 260 | 0.4850 | 0.5092 |
65
+ | 0.3248 | 4.67 | 280 | 0.5089 | 0.6057 |
66
+ | 0.3323 | 5.0 | 300 | 0.4643 | 0.6160 |
67
+
68
+
69
+ ### Framework versions
70
+
71
+ - Transformers 4.34.0.dev0
72
+ - Pytorch 2.1.0.dev20230628+cu121
73
+ - Datasets 2.14.5
74
+ - Tokenizers 0.14.0
added_tokens.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ {
2
+ "<mask>": 32004
3
+ }
all_results.json ADDED
@@ -0,0 +1,15 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 5.0,
3
+ "eval_accuracy": 0.8328042328042328,
4
+ "eval_f1": 0.6159893659893659,
5
+ "eval_loss": 0.46433570981025696,
6
+ "eval_runtime": 2.0072,
7
+ "eval_samples": 945,
8
+ "eval_samples_per_second": 470.815,
9
+ "eval_steps_per_second": 14.946,
10
+ "train_loss": 0.4641021112600962,
11
+ "train_runtime": 274.9964,
12
+ "train_samples": 7564,
13
+ "train_samples_per_second": 137.529,
14
+ "train_steps_per_second": 1.091
15
+ }
config.json ADDED
@@ -0,0 +1,40 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "Musixmatch/umberto-wikipedia-uncased-v1",
3
+ "architectures": [
4
+ "CamembertForSequenceClassification"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 5,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 6,
10
+ "finetuning_task": "text-classification",
11
+ "hidden_act": "gelu",
12
+ "hidden_dropout_prob": 0.1,
13
+ "hidden_size": 768,
14
+ "id2label": {
15
+ "0": "Negativo",
16
+ "1": "Neutro",
17
+ "2": "Positivo"
18
+ },
19
+ "initializer_range": 0.02,
20
+ "intermediate_size": 3072,
21
+ "label2id": {
22
+ "Negativo": 0,
23
+ "Neutro": 1,
24
+ "Positivo": 2
25
+ },
26
+ "layer_norm_eps": 1e-05,
27
+ "max_position_embeddings": 514,
28
+ "model_type": "camembert",
29
+ "num_attention_heads": 12,
30
+ "num_hidden_layers": 12,
31
+ "output_past": true,
32
+ "pad_token_id": 1,
33
+ "position_embedding_type": "absolute",
34
+ "problem_type": "single_label_classification",
35
+ "torch_dtype": "float32",
36
+ "transformers_version": "4.34.0.dev0",
37
+ "type_vocab_size": 1,
38
+ "use_cache": true,
39
+ "vocab_size": 32005
40
+ }
emissions.csv ADDED
@@ -0,0 +1,2 @@
 
 
 
1
+ timestamp,project_name,run_id,duration,emissions,emissions_rate,cpu_power,gpu_power,ram_power,cpu_energy,gpu_energy,ram_energy,energy_consumed,country_name,country_iso_code,region,cloud_provider,cloud_region,os,python_version,codecarbon_version,cpu_count,cpu_model,gpu_count,gpu_model,longitude,latitude,ram_total_size,tracking_mode,on_cloud,pue
2
+ 2023-10-03T17:27:03,codecarbon,71cc9f76-6456-436e-998d-ae42b3baa992,156.3935010433197,0.005954861964094467,3.807614718238848e-05,146.90193793425283,293.707,188.6176929473877,0.006397818804362054,0.011751138842789399,0.00817715759845177,0.026326115245603226,Italy,ITA,lombardy,,,Linux-4.18.0-372.9.1.el8.x86_64-x86_64-with-glibc2.28,3.10.13,2.2.4,4,Intel(R) Xeon(R) Gold 5317 CPU @ 3.00GHz,1,1 x NVIDIA A100 80GB PCIe,9.1922,45.4722,502.9805145263672,machine,N,1.0
eval_results.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 5.0,
3
+ "eval_f1": 0.6159893659893659,
4
+ "eval_loss": 0.46433570981025696,
5
+ "eval_runtime": 2.0072,
6
+ "eval_samples": 945,
7
+ "eval_samples_per_second": 470.815,
8
+ "eval_steps_per_second": 14.946
9
+ }
predict_results.txt ADDED
@@ -0,0 +1,947 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ index prediction
2
+ 0 Negativo
3
+ 1 Negativo
4
+ 2 Neutro
5
+ 3 Negativo
6
+ 4 Negativo
7
+ 5 Negativo
8
+ 6 Negativo
9
+ 7 Negativo
10
+ 8 Negativo
11
+ 9 Negativo
12
+ 10 Negativo
13
+ 11 Negativo
14
+ 12 Negativo
15
+ 13 Negativo
16
+ 14 Neutro
17
+ 15 Negativo
18
+ 16 Neutro
19
+ 17 Negativo
20
+ 18 Negativo
21
+ 19 Negativo
22
+ 20 Negativo
23
+ 21 Negativo
24
+ 22 Negativo
25
+ 23 Negativo
26
+ 24 Negativo
27
+ 25 Positivo
28
+ 26 Negativo
29
+ 27 Negativo
30
+ 28 Negativo
31
+ 29 Negativo
32
+ 30 Negativo
33
+ 31 Negativo
34
+ 32 Negativo
35
+ 33 Negativo
36
+ 34 Neutro
37
+ 35 Negativo
38
+ 36 Negativo
39
+ 37 Negativo
40
+ 38 Negativo
41
+ 39 Neutro
42
+ 40 Negativo
43
+ 41 Negativo
44
+ 42 Negativo
45
+ 43 Negativo
46
+ 44 Negativo
47
+ 45 Negativo
48
+ 46 Negativo
49
+ 47 Negativo
50
+ 48 Negativo
51
+ 49 Negativo
52
+ 50 Neutro
53
+ 51 Negativo
54
+ 52 Negativo
55
+ 53 Negativo
56
+ 54 Neutro
57
+ 55 Negativo
58
+ 56 Negativo
59
+ 57 Neutro
60
+ 58 Negativo
61
+ 59 Neutro
62
+ 60 Negativo
63
+ 61 Neutro
64
+ 62 Negativo
65
+ 63 Negativo
66
+ 64 Negativo
67
+ 65 Negativo
68
+ 66 Negativo
69
+ 67 Positivo
70
+ 68 Negativo
71
+ 69 Neutro
72
+ 70 Neutro
73
+ 71 Negativo
74
+ 72 Negativo
75
+ 73 Negativo
76
+ 74 Negativo
77
+ 75 Neutro
78
+ 76 Negativo
79
+ 77 Negativo
80
+ 78 Negativo
81
+ 79 Negativo
82
+ 80 Negativo
83
+ 81 Negativo
84
+ 82 Negativo
85
+ 83 Negativo
86
+ 84 Negativo
87
+ 85 Negativo
88
+ 86 Negativo
89
+ 87 Negativo
90
+ 88 Negativo
91
+ 89 Negativo
92
+ 90 Negativo
93
+ 91 Negativo
94
+ 92 Negativo
95
+ 93 Negativo
96
+ 94 Negativo
97
+ 95 Negativo
98
+ 96 Negativo
99
+ 97 Negativo
100
+ 98 Negativo
101
+ 99 Negativo
102
+ 100 Negativo
103
+ 101 Negativo
104
+ 102 Negativo
105
+ 103 Negativo
106
+ 104 Negativo
107
+ 105 Negativo
108
+ 106 Negativo
109
+ 107 Negativo
110
+ 108 Negativo
111
+ 109 Negativo
112
+ 110 Negativo
113
+ 111 Negativo
114
+ 112 Negativo
115
+ 113 Negativo
116
+ 114 Negativo
117
+ 115 Negativo
118
+ 116 Negativo
119
+ 117 Negativo
120
+ 118 Negativo
121
+ 119 Negativo
122
+ 120 Negativo
123
+ 121 Neutro
124
+ 122 Negativo
125
+ 123 Negativo
126
+ 124 Negativo
127
+ 125 Negativo
128
+ 126 Neutro
129
+ 127 Neutro
130
+ 128 Negativo
131
+ 129 Negativo
132
+ 130 Negativo
133
+ 131 Negativo
134
+ 132 Positivo
135
+ 133 Negativo
136
+ 134 Negativo
137
+ 135 Negativo
138
+ 136 Negativo
139
+ 137 Neutro
140
+ 138 Neutro
141
+ 139 Negativo
142
+ 140 Negativo
143
+ 141 Negativo
144
+ 142 Neutro
145
+ 143 Negativo
146
+ 144 Negativo
147
+ 145 Neutro
148
+ 146 Negativo
149
+ 147 Neutro
150
+ 148 Negativo
151
+ 149 Negativo
152
+ 150 Negativo
153
+ 151 Negativo
154
+ 152 Negativo
155
+ 153 Negativo
156
+ 154 Negativo
157
+ 155 Negativo
158
+ 156 Negativo
159
+ 157 Negativo
160
+ 158 Negativo
161
+ 159 Negativo
162
+ 160 Negativo
163
+ 161 Negativo
164
+ 162 Negativo
165
+ 163 Neutro
166
+ 164 Negativo
167
+ 165 Negativo
168
+ 166 Negativo
169
+ 167 Neutro
170
+ 168 Negativo
171
+ 169 Neutro
172
+ 170 Negativo
173
+ 171 Negativo
174
+ 172 Negativo
175
+ 173 Negativo
176
+ 174 Neutro
177
+ 175 Negativo
178
+ 176 Negativo
179
+ 177 Negativo
180
+ 178 Negativo
181
+ 179 Negativo
182
+ 180 Neutro
183
+ 181 Negativo
184
+ 182 Negativo
185
+ 183 Negativo
186
+ 184 Negativo
187
+ 185 Negativo
188
+ 186 Negativo
189
+ 187 Negativo
190
+ 188 Negativo
191
+ 189 Negativo
192
+ 190 Negativo
193
+ 191 Negativo
194
+ 192 Negativo
195
+ 193 Negativo
196
+ 194 Negativo
197
+ 195 Negativo
198
+ 196 Negativo
199
+ 197 Negativo
200
+ 198 Negativo
201
+ 199 Negativo
202
+ 200 Negativo
203
+ 201 Negativo
204
+ 202 Negativo
205
+ 203 Negativo
206
+ 204 Negativo
207
+ 205 Negativo
208
+ 206 Negativo
209
+ 207 Negativo
210
+ 208 Negativo
211
+ 209 Negativo
212
+ 210 Neutro
213
+ 211 Negativo
214
+ 212 Neutro
215
+ 213 Negativo
216
+ 214 Negativo
217
+ 215 Positivo
218
+ 216 Neutro
219
+ 217 Negativo
220
+ 218 Negativo
221
+ 219 Negativo
222
+ 220 Neutro
223
+ 221 Negativo
224
+ 222 Negativo
225
+ 223 Negativo
226
+ 224 Neutro
227
+ 225 Negativo
228
+ 226 Negativo
229
+ 227 Negativo
230
+ 228 Negativo
231
+ 229 Negativo
232
+ 230 Negativo
233
+ 231 Negativo
234
+ 232 Negativo
235
+ 233 Negativo
236
+ 234 Negativo
237
+ 235 Negativo
238
+ 236 Negativo
239
+ 237 Neutro
240
+ 238 Negativo
241
+ 239 Neutro
242
+ 240 Negativo
243
+ 241 Negativo
244
+ 242 Negativo
245
+ 243 Neutro
246
+ 244 Negativo
247
+ 245 Negativo
248
+ 246 Neutro
249
+ 247 Negativo
250
+ 248 Negativo
251
+ 249 Negativo
252
+ 250 Negativo
253
+ 251 Negativo
254
+ 252 Neutro
255
+ 253 Negativo
256
+ 254 Neutro
257
+ 255 Negativo
258
+ 256 Negativo
259
+ 257 Negativo
260
+ 258 Neutro
261
+ 259 Negativo
262
+ 260 Negativo
263
+ 261 Negativo
264
+ 262 Neutro
265
+ 263 Negativo
266
+ 264 Negativo
267
+ 265 Negativo
268
+ 266 Negativo
269
+ 267 Negativo
270
+ 268 Negativo
271
+ 269 Negativo
272
+ 270 Negativo
273
+ 271 Negativo
274
+ 272 Negativo
275
+ 273 Negativo
276
+ 274 Negativo
277
+ 275 Negativo
278
+ 276 Positivo
279
+ 277 Negativo
280
+ 278 Negativo
281
+ 279 Negativo
282
+ 280 Negativo
283
+ 281 Negativo
284
+ 282 Neutro
285
+ 283 Negativo
286
+ 284 Negativo
287
+ 285 Negativo
288
+ 286 Negativo
289
+ 287 Negativo
290
+ 288 Negativo
291
+ 289 Negativo
292
+ 290 Negativo
293
+ 291 Neutro
294
+ 292 Negativo
295
+ 293 Negativo
296
+ 294 Neutro
297
+ 295 Negativo
298
+ 296 Negativo
299
+ 297 Negativo
300
+ 298 Neutro
301
+ 299 Negativo
302
+ 300 Negativo
303
+ 301 Negativo
304
+ 302 Negativo
305
+ 303 Positivo
306
+ 304 Negativo
307
+ 305 Negativo
308
+ 306 Negativo
309
+ 307 Negativo
310
+ 308 Negativo
311
+ 309 Negativo
312
+ 310 Negativo
313
+ 311 Negativo
314
+ 312 Neutro
315
+ 313 Negativo
316
+ 314 Negativo
317
+ 315 Negativo
318
+ 316 Neutro
319
+ 317 Negativo
320
+ 318 Neutro
321
+ 319 Negativo
322
+ 320 Negativo
323
+ 321 Negativo
324
+ 322 Negativo
325
+ 323 Negativo
326
+ 324 Negativo
327
+ 325 Negativo
328
+ 326 Neutro
329
+ 327 Negativo
330
+ 328 Negativo
331
+ 329 Negativo
332
+ 330 Negativo
333
+ 331 Negativo
334
+ 332 Negativo
335
+ 333 Negativo
336
+ 334 Negativo
337
+ 335 Negativo
338
+ 336 Negativo
339
+ 337 Neutro
340
+ 338 Neutro
341
+ 339 Negativo
342
+ 340 Negativo
343
+ 341 Negativo
344
+ 342 Negativo
345
+ 343 Negativo
346
+ 344 Negativo
347
+ 345 Negativo
348
+ 346 Negativo
349
+ 347 Negativo
350
+ 348 Negativo
351
+ 349 Negativo
352
+ 350 Negativo
353
+ 351 Negativo
354
+ 352 Negativo
355
+ 353 Negativo
356
+ 354 Negativo
357
+ 355 Negativo
358
+ 356 Positivo
359
+ 357 Negativo
360
+ 358 Neutro
361
+ 359 Neutro
362
+ 360 Negativo
363
+ 361 Negativo
364
+ 362 Negativo
365
+ 363 Negativo
366
+ 364 Negativo
367
+ 365 Negativo
368
+ 366 Negativo
369
+ 367 Negativo
370
+ 368 Neutro
371
+ 369 Negativo
372
+ 370 Negativo
373
+ 371 Negativo
374
+ 372 Negativo
375
+ 373 Neutro
376
+ 374 Negativo
377
+ 375 Negativo
378
+ 376 Negativo
379
+ 377 Neutro
380
+ 378 Negativo
381
+ 379 Negativo
382
+ 380 Negativo
383
+ 381 Neutro
384
+ 382 Negativo
385
+ 383 Neutro
386
+ 384 Negativo
387
+ 385 Negativo
388
+ 386 Negativo
389
+ 387 Negativo
390
+ 388 Negativo
391
+ 389 Negativo
392
+ 390 Negativo
393
+ 391 Negativo
394
+ 392 Negativo
395
+ 393 Negativo
396
+ 394 Neutro
397
+ 395 Negativo
398
+ 396 Negativo
399
+ 397 Negativo
400
+ 398 Negativo
401
+ 399 Negativo
402
+ 400 Negativo
403
+ 401 Negativo
404
+ 402 Negativo
405
+ 403 Negativo
406
+ 404 Negativo
407
+ 405 Negativo
408
+ 406 Negativo
409
+ 407 Neutro
410
+ 408 Negativo
411
+ 409 Negativo
412
+ 410 Neutro
413
+ 411 Negativo
414
+ 412 Negativo
415
+ 413 Negativo
416
+ 414 Negativo
417
+ 415 Negativo
418
+ 416 Negativo
419
+ 417 Negativo
420
+ 418 Negativo
421
+ 419 Negativo
422
+ 420 Negativo
423
+ 421 Negativo
424
+ 422 Negativo
425
+ 423 Neutro
426
+ 424 Negativo
427
+ 425 Negativo
428
+ 426 Neutro
429
+ 427 Negativo
430
+ 428 Negativo
431
+ 429 Neutro
432
+ 430 Negativo
433
+ 431 Negativo
434
+ 432 Neutro
435
+ 433 Negativo
436
+ 434 Negativo
437
+ 435 Negativo
438
+ 436 Negativo
439
+ 437 Negativo
440
+ 438 Negativo
441
+ 439 Negativo
442
+ 440 Negativo
443
+ 441 Negativo
444
+ 442 Negativo
445
+ 443 Negativo
446
+ 444 Negativo
447
+ 445 Negativo
448
+ 446 Negativo
449
+ 447 Negativo
450
+ 448 Negativo
451
+ 449 Negativo
452
+ 450 Negativo
453
+ 451 Negativo
454
+ 452 Negativo
455
+ 453 Negativo
456
+ 454 Neutro
457
+ 455 Positivo
458
+ 456 Negativo
459
+ 457 Negativo
460
+ 458 Negativo
461
+ 459 Negativo
462
+ 460 Negativo
463
+ 461 Negativo
464
+ 462 Neutro
465
+ 463 Negativo
466
+ 464 Negativo
467
+ 465 Negativo
468
+ 466 Negativo
469
+ 467 Negativo
470
+ 468 Negativo
471
+ 469 Negativo
472
+ 470 Neutro
473
+ 471 Negativo
474
+ 472 Negativo
475
+ 473 Negativo
476
+ 474 Positivo
477
+ 475 Negativo
478
+ 476 Negativo
479
+ 477 Negativo
480
+ 478 Negativo
481
+ 479 Negativo
482
+ 480 Neutro
483
+ 481 Negativo
484
+ 482 Negativo
485
+ 483 Negativo
486
+ 484 Negativo
487
+ 485 Negativo
488
+ 486 Positivo
489
+ 487 Negativo
490
+ 488 Positivo
491
+ 489 Negativo
492
+ 490 Negativo
493
+ 491 Neutro
494
+ 492 Negativo
495
+ 493 Negativo
496
+ 494 Negativo
497
+ 495 Negativo
498
+ 496 Negativo
499
+ 497 Negativo
500
+ 498 Negativo
501
+ 499 Neutro
502
+ 500 Negativo
503
+ 501 Negativo
504
+ 502 Neutro
505
+ 503 Negativo
506
+ 504 Positivo
507
+ 505 Negativo
508
+ 506 Negativo
509
+ 507 Negativo
510
+ 508 Negativo
511
+ 509 Negativo
512
+ 510 Negativo
513
+ 511 Negativo
514
+ 512 Negativo
515
+ 513 Negativo
516
+ 514 Negativo
517
+ 515 Negativo
518
+ 516 Neutro
519
+ 517 Negativo
520
+ 518 Negativo
521
+ 519 Neutro
522
+ 520 Neutro
523
+ 521 Negativo
524
+ 522 Neutro
525
+ 523 Negativo
526
+ 524 Neutro
527
+ 525 Negativo
528
+ 526 Positivo
529
+ 527 Positivo
530
+ 528 Neutro
531
+ 529 Negativo
532
+ 530 Negativo
533
+ 531 Negativo
534
+ 532 Neutro
535
+ 533 Negativo
536
+ 534 Negativo
537
+ 535 Negativo
538
+ 536 Negativo
539
+ 537 Negativo
540
+ 538 Negativo
541
+ 539 Negativo
542
+ 540 Negativo
543
+ 541 Neutro
544
+ 542 Negativo
545
+ 543 Negativo
546
+ 544 Negativo
547
+ 545 Negativo
548
+ 546 Negativo
549
+ 547 Negativo
550
+ 548 Negativo
551
+ 549 Negativo
552
+ 550 Negativo
553
+ 551 Neutro
554
+ 552 Negativo
555
+ 553 Neutro
556
+ 554 Negativo
557
+ 555 Negativo
558
+ 556 Negativo
559
+ 557 Negativo
560
+ 558 Negativo
561
+ 559 Neutro
562
+ 560 Negativo
563
+ 561 Positivo
564
+ 562 Negativo
565
+ 563 Negativo
566
+ 564 Positivo
567
+ 565 Negativo
568
+ 566 Negativo
569
+ 567 Neutro
570
+ 568 Negativo
571
+ 569 Negativo
572
+ 570 Negativo
573
+ 571 Negativo
574
+ 572 Negativo
575
+ 573 Negativo
576
+ 574 Neutro
577
+ 575 Negativo
578
+ 576 Negativo
579
+ 577 Negativo
580
+ 578 Negativo
581
+ 579 Negativo
582
+ 580 Negativo
583
+ 581 Negativo
584
+ 582 Negativo
585
+ 583 Negativo
586
+ 584 Neutro
587
+ 585 Negativo
588
+ 586 Neutro
589
+ 587 Negativo
590
+ 588 Negativo
591
+ 589 Negativo
592
+ 590 Negativo
593
+ 591 Negativo
594
+ 592 Negativo
595
+ 593 Neutro
596
+ 594 Negativo
597
+ 595 Negativo
598
+ 596 Negativo
599
+ 597 Negativo
600
+ 598 Negativo
601
+ 599 Negativo
602
+ 600 Negativo
603
+ 601 Negativo
604
+ 602 Negativo
605
+ 603 Negativo
606
+ 604 Neutro
607
+ 605 Negativo
608
+ 606 Negativo
609
+ 607 Neutro
610
+ 608 Negativo
611
+ 609 Negativo
612
+ 610 Negativo
613
+ 611 Negativo
614
+ 612 Negativo
615
+ 613 Neutro
616
+ 614 Neutro
617
+ 615 Negativo
618
+ 616 Negativo
619
+ 617 Negativo
620
+ 618 Negativo
621
+ 619 Negativo
622
+ 620 Negativo
623
+ 621 Negativo
624
+ 622 Negativo
625
+ 623 Negativo
626
+ 624 Negativo
627
+ 625 Negativo
628
+ 626 Negativo
629
+ 627 Neutro
630
+ 628 Negativo
631
+ 629 Positivo
632
+ 630 Negativo
633
+ 631 Negativo
634
+ 632 Negativo
635
+ 633 Negativo
636
+ 634 Negativo
637
+ 635 Negativo
638
+ 636 Negativo
639
+ 637 Negativo
640
+ 638 Negativo
641
+ 639 Negativo
642
+ 640 Negativo
643
+ 641 Negativo
644
+ 642 Neutro
645
+ 643 Negativo
646
+ 644 Neutro
647
+ 645 Neutro
648
+ 646 Negativo
649
+ 647 Negativo
650
+ 648 Negativo
651
+ 649 Negativo
652
+ 650 Negativo
653
+ 651 Neutro
654
+ 652 Negativo
655
+ 653 Negativo
656
+ 654 Negativo
657
+ 655 Negativo
658
+ 656 Negativo
659
+ 657 Neutro
660
+ 658 Negativo
661
+ 659 Negativo
662
+ 660 Negativo
663
+ 661 Negativo
664
+ 662 Negativo
665
+ 663 Negativo
666
+ 664 Negativo
667
+ 665 Neutro
668
+ 666 Neutro
669
+ 667 Negativo
670
+ 668 Neutro
671
+ 669 Negativo
672
+ 670 Negativo
673
+ 671 Negativo
674
+ 672 Negativo
675
+ 673 Negativo
676
+ 674 Negativo
677
+ 675 Negativo
678
+ 676 Negativo
679
+ 677 Negativo
680
+ 678 Negativo
681
+ 679 Negativo
682
+ 680 Negativo
683
+ 681 Negativo
684
+ 682 Neutro
685
+ 683 Neutro
686
+ 684 Negativo
687
+ 685 Negativo
688
+ 686 Negativo
689
+ 687 Negativo
690
+ 688 Negativo
691
+ 689 Negativo
692
+ 690 Negativo
693
+ 691 Positivo
694
+ 692 Neutro
695
+ 693 Negativo
696
+ 694 Negativo
697
+ 695 Negativo
698
+ 696 Negativo
699
+ 697 Negativo
700
+ 698 Negativo
701
+ 699 Negativo
702
+ 700 Negativo
703
+ 701 Negativo
704
+ 702 Negativo
705
+ 703 Negativo
706
+ 704 Negativo
707
+ 705 Neutro
708
+ 706 Negativo
709
+ 707 Negativo
710
+ 708 Neutro
711
+ 709 Negativo
712
+ 710 Negativo
713
+ 711 Neutro
714
+ 712 Negativo
715
+ 713 Negativo
716
+ 714 Negativo
717
+ 715 Negativo
718
+ 716 Neutro
719
+ 717 Negativo
720
+ 718 Negativo
721
+ 719 Negativo
722
+ 720 Negativo
723
+ 721 Neutro
724
+ 722 Negativo
725
+ 723 Neutro
726
+ 724 Negativo
727
+ 725 Negativo
728
+ 726 Negativo
729
+ 727 Negativo
730
+ 728 Negativo
731
+ 729 Negativo
732
+ 730 Negativo
733
+ 731 Negativo
734
+ 732 Negativo
735
+ 733 Negativo
736
+ 734 Negativo
737
+ 735 Negativo
738
+ 736 Negativo
739
+ 737 Neutro
740
+ 738 Negativo
741
+ 739 Negativo
742
+ 740 Negativo
743
+ 741 Negativo
744
+ 742 Neutro
745
+ 743 Negativo
746
+ 744 Neutro
747
+ 745 Negativo
748
+ 746 Negativo
749
+ 747 Negativo
750
+ 748 Negativo
751
+ 749 Negativo
752
+ 750 Negativo
753
+ 751 Negativo
754
+ 752 Negativo
755
+ 753 Negativo
756
+ 754 Negativo
757
+ 755 Negativo
758
+ 756 Negativo
759
+ 757 Negativo
760
+ 758 Negativo
761
+ 759 Negativo
762
+ 760 Negativo
763
+ 761 Negativo
764
+ 762 Negativo
765
+ 763 Negativo
766
+ 764 Negativo
767
+ 765 Negativo
768
+ 766 Negativo
769
+ 767 Negativo
770
+ 768 Negativo
771
+ 769 Negativo
772
+ 770 Negativo
773
+ 771 Negativo
774
+ 772 Negativo
775
+ 773 Negativo
776
+ 774 Negativo
777
+ 775 Negativo
778
+ 776 Neutro
779
+ 777 Negativo
780
+ 778 Negativo
781
+ 779 Negativo
782
+ 780 Negativo
783
+ 781 Negativo
784
+ 782 Negativo
785
+ 783 Negativo
786
+ 784 Negativo
787
+ 785 Negativo
788
+ 786 Negativo
789
+ 787 Negativo
790
+ 788 Negativo
791
+ 789 Negativo
792
+ 790 Negativo
793
+ 791 Negativo
794
+ 792 Positivo
795
+ 793 Negativo
796
+ 794 Negativo
797
+ 795 Negativo
798
+ 796 Negativo
799
+ 797 Negativo
800
+ 798 Negativo
801
+ 799 Negativo
802
+ 800 Negativo
803
+ 801 Neutro
804
+ 802 Negativo
805
+ 803 Neutro
806
+ 804 Negativo
807
+ 805 Positivo
808
+ 806 Negativo
809
+ 807 Negativo
810
+ 808 Negativo
811
+ 809 Negativo
812
+ 810 Negativo
813
+ 811 Negativo
814
+ 812 Neutro
815
+ 813 Negativo
816
+ 814 Positivo
817
+ 815 Neutro
818
+ 816 Negativo
819
+ 817 Negativo
820
+ 818 Neutro
821
+ 819 Negativo
822
+ 820 Negativo
823
+ 821 Negativo
824
+ 822 Neutro
825
+ 823 Neutro
826
+ 824 Negativo
827
+ 825 Neutro
828
+ 826 Negativo
829
+ 827 Neutro
830
+ 828 Negativo
831
+ 829 Negativo
832
+ 830 Negativo
833
+ 831 Negativo
834
+ 832 Negativo
835
+ 833 Negativo
836
+ 834 Negativo
837
+ 835 Negativo
838
+ 836 Negativo
839
+ 837 Negativo
840
+ 838 Negativo
841
+ 839 Negativo
842
+ 840 Negativo
843
+ 841 Negativo
844
+ 842 Negativo
845
+ 843 Neutro
846
+ 844 Negativo
847
+ 845 Negativo
848
+ 846 Negativo
849
+ 847 Negativo
850
+ 848 Negativo
851
+ 849 Neutro
852
+ 850 Neutro
853
+ 851 Negativo
854
+ 852 Negativo
855
+ 853 Negativo
856
+ 854 Negativo
857
+ 855 Negativo
858
+ 856 Negativo
859
+ 857 Negativo
860
+ 858 Negativo
861
+ 859 Negativo
862
+ 860 Negativo
863
+ 861 Negativo
864
+ 862 Negativo
865
+ 863 Negativo
866
+ 864 Negativo
867
+ 865 Negativo
868
+ 866 Negativo
869
+ 867 Negativo
870
+ 868 Negativo
871
+ 869 Negativo
872
+ 870 Negativo
873
+ 871 Neutro
874
+ 872 Negativo
875
+ 873 Negativo
876
+ 874 Negativo
877
+ 875 Negativo
878
+ 876 Neutro
879
+ 877 Negativo
880
+ 878 Negativo
881
+ 879 Negativo
882
+ 880 Negativo
883
+ 881 Negativo
884
+ 882 Negativo
885
+ 883 Negativo
886
+ 884 Negativo
887
+ 885 Negativo
888
+ 886 Negativo
889
+ 887 Negativo
890
+ 888 Negativo
891
+ 889 Negativo
892
+ 890 Negativo
893
+ 891 Negativo
894
+ 892 Negativo
895
+ 893 Negativo
896
+ 894 Negativo
897
+ 895 Negativo
898
+ 896 Negativo
899
+ 897 Negativo
900
+ 898 Negativo
901
+ 899 Negativo
902
+ 900 Negativo
903
+ 901 Negativo
904
+ 902 Neutro
905
+ 903 Negativo
906
+ 904 Negativo
907
+ 905 Negativo
908
+ 906 Neutro
909
+ 907 Negativo
910
+ 908 Negativo
911
+ 909 Negativo
912
+ 910 Negativo
913
+ 911 Neutro
914
+ 912 Neutro
915
+ 913 Negativo
916
+ 914 Negativo
917
+ 915 Negativo
918
+ 916 Negativo
919
+ 917 Neutro
920
+ 918 Negativo
921
+ 919 Negativo
922
+ 920 Negativo
923
+ 921 Negativo
924
+ 922 Negativo
925
+ 923 Negativo
926
+ 924 Negativo
927
+ 925 Negativo
928
+ 926 Positivo
929
+ 927 Negativo
930
+ 928 Negativo
931
+ 929 Neutro
932
+ 930 Negativo
933
+ 931 Negativo
934
+ 932 Negativo
935
+ 933 Negativo
936
+ 934 Negativo
937
+ 935 Negativo
938
+ 936 Negativo
939
+ 937 Negativo
940
+ 938 Neutro
941
+ 939 Negativo
942
+ 940 Neutro
943
+ 941 Negativo
944
+ 942 Negativo
945
+ 943 Neutro
946
+ 944 Negativo
947
+ 945 Negativo
pytorch_model.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:de27ec441f35a2c37478cc638e5943abc839baca0da36b4d2b9e0e0b970a7760
3
+ size 442566446
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5e6bc9d26eaae71b39784a2d693b325d25fe241e848c3525ee4ad821afdbe2ce
3
+ size 800531
special_tokens_map.json ADDED
@@ -0,0 +1,13 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens": [
3
+ "<s>NOTUSED",
4
+ "</s>NOTUSED"
5
+ ],
6
+ "bos_token": "<s>",
7
+ "cls_token": "<s>",
8
+ "eos_token": "</s>",
9
+ "mask_token": "<mask>",
10
+ "pad_token": "<pad>",
11
+ "sep_token": "</s>",
12
+ "unk_token": "<unk>"
13
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,75 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>NOTUSED",
5
+ "lstrip": true,
6
+ "normalized": false,
7
+ "rstrip": true,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>NOTUSED",
21
+ "lstrip": true,
22
+ "normalized": false,
23
+ "rstrip": true,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "5": {
36
+ "content": "<s>",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ },
43
+ "6": {
44
+ "content": "</s>",
45
+ "lstrip": false,
46
+ "normalized": false,
47
+ "rstrip": false,
48
+ "single_word": false,
49
+ "special": true
50
+ },
51
+ "32004": {
52
+ "content": "<mask>",
53
+ "lstrip": true,
54
+ "normalized": false,
55
+ "rstrip": false,
56
+ "single_word": false,
57
+ "special": true
58
+ }
59
+ },
60
+ "additional_special_tokens": [
61
+ "<s>NOTUSED",
62
+ "</s>NOTUSED"
63
+ ],
64
+ "bos_token": "<s>",
65
+ "clean_up_tokenization_spaces": true,
66
+ "cls_token": "<s>",
67
+ "do_lower_case": true,
68
+ "eos_token": "</s>",
69
+ "mask_token": "<mask>",
70
+ "model_max_length": 1000000000000000019884624838656,
71
+ "pad_token": "<pad>",
72
+ "sep_token": "</s>",
73
+ "tokenizer_class": "CamembertTokenizer",
74
+ "unk_token": "<unk>"
75
+ }
train_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 5.0,
3
+ "train_loss": 0.4641021112600962,
4
+ "train_runtime": 274.9964,
5
+ "train_samples": 7564,
6
+ "train_samples_per_second": 137.529,
7
+ "train_steps_per_second": 1.091
8
+ }
trainer_state.json ADDED
@@ -0,0 +1,523 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 5.0,
5
+ "eval_steps": 20,
6
+ "global_step": 300,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.08,
13
+ "learning_rate": 2e-05,
14
+ "loss": 0.9626,
15
+ "step": 5
16
+ },
17
+ {
18
+ "epoch": 0.17,
19
+ "learning_rate": 2e-05,
20
+ "loss": 0.7551,
21
+ "step": 10
22
+ },
23
+ {
24
+ "epoch": 0.25,
25
+ "learning_rate": 2e-05,
26
+ "loss": 0.6737,
27
+ "step": 15
28
+ },
29
+ {
30
+ "epoch": 0.33,
31
+ "learning_rate": 2e-05,
32
+ "loss": 0.5923,
33
+ "step": 20
34
+ },
35
+ {
36
+ "epoch": 0.33,
37
+ "eval_f1": 0.2973817897616256,
38
+ "eval_loss": 0.6075014472007751,
39
+ "eval_runtime": 2.0329,
40
+ "eval_samples_per_second": 464.848,
41
+ "eval_steps_per_second": 14.757,
42
+ "step": 20
43
+ },
44
+ {
45
+ "epoch": 0.42,
46
+ "learning_rate": 2e-05,
47
+ "loss": 0.5935,
48
+ "step": 25
49
+ },
50
+ {
51
+ "epoch": 0.5,
52
+ "learning_rate": 2e-05,
53
+ "loss": 0.6499,
54
+ "step": 30
55
+ },
56
+ {
57
+ "epoch": 0.58,
58
+ "learning_rate": 2e-05,
59
+ "loss": 0.5639,
60
+ "step": 35
61
+ },
62
+ {
63
+ "epoch": 0.67,
64
+ "learning_rate": 2e-05,
65
+ "loss": 0.6694,
66
+ "step": 40
67
+ },
68
+ {
69
+ "epoch": 0.67,
70
+ "eval_f1": 0.2973817897616256,
71
+ "eval_loss": 0.5937851071357727,
72
+ "eval_runtime": 2.0028,
73
+ "eval_samples_per_second": 471.842,
74
+ "eval_steps_per_second": 14.979,
75
+ "step": 40
76
+ },
77
+ {
78
+ "epoch": 0.75,
79
+ "learning_rate": 2e-05,
80
+ "loss": 0.5923,
81
+ "step": 45
82
+ },
83
+ {
84
+ "epoch": 0.83,
85
+ "learning_rate": 2e-05,
86
+ "loss": 0.6133,
87
+ "step": 50
88
+ },
89
+ {
90
+ "epoch": 0.92,
91
+ "learning_rate": 2e-05,
92
+ "loss": 0.5702,
93
+ "step": 55
94
+ },
95
+ {
96
+ "epoch": 1.0,
97
+ "learning_rate": 2e-05,
98
+ "loss": 0.5225,
99
+ "step": 60
100
+ },
101
+ {
102
+ "epoch": 1.0,
103
+ "eval_f1": 0.3024223872822884,
104
+ "eval_loss": 0.534581184387207,
105
+ "eval_runtime": 2.0063,
106
+ "eval_samples_per_second": 471.005,
107
+ "eval_steps_per_second": 14.953,
108
+ "step": 60
109
+ },
110
+ {
111
+ "epoch": 1.08,
112
+ "learning_rate": 2e-05,
113
+ "loss": 0.4961,
114
+ "step": 65
115
+ },
116
+ {
117
+ "epoch": 1.17,
118
+ "learning_rate": 2e-05,
119
+ "loss": 0.4879,
120
+ "step": 70
121
+ },
122
+ {
123
+ "epoch": 1.25,
124
+ "learning_rate": 2e-05,
125
+ "loss": 0.5475,
126
+ "step": 75
127
+ },
128
+ {
129
+ "epoch": 1.33,
130
+ "learning_rate": 2e-05,
131
+ "loss": 0.5458,
132
+ "step": 80
133
+ },
134
+ {
135
+ "epoch": 1.33,
136
+ "eval_f1": 0.4681950604946577,
137
+ "eval_loss": 0.5171502828598022,
138
+ "eval_runtime": 2.0079,
139
+ "eval_samples_per_second": 470.651,
140
+ "eval_steps_per_second": 14.941,
141
+ "step": 80
142
+ },
143
+ {
144
+ "epoch": 1.42,
145
+ "learning_rate": 2e-05,
146
+ "loss": 0.5224,
147
+ "step": 85
148
+ },
149
+ {
150
+ "epoch": 1.5,
151
+ "learning_rate": 2e-05,
152
+ "loss": 0.5344,
153
+ "step": 90
154
+ },
155
+ {
156
+ "epoch": 1.58,
157
+ "learning_rate": 2e-05,
158
+ "loss": 0.4791,
159
+ "step": 95
160
+ },
161
+ {
162
+ "epoch": 1.67,
163
+ "learning_rate": 2e-05,
164
+ "loss": 0.5052,
165
+ "step": 100
166
+ },
167
+ {
168
+ "epoch": 1.67,
169
+ "eval_f1": 0.43614802647951817,
170
+ "eval_loss": 0.5550346970558167,
171
+ "eval_runtime": 2.0143,
172
+ "eval_samples_per_second": 469.148,
173
+ "eval_steps_per_second": 14.894,
174
+ "step": 100
175
+ },
176
+ {
177
+ "epoch": 1.75,
178
+ "learning_rate": 2e-05,
179
+ "loss": 0.5821,
180
+ "step": 105
181
+ },
182
+ {
183
+ "epoch": 1.83,
184
+ "learning_rate": 2e-05,
185
+ "loss": 0.4842,
186
+ "step": 110
187
+ },
188
+ {
189
+ "epoch": 1.92,
190
+ "learning_rate": 2e-05,
191
+ "loss": 0.4613,
192
+ "step": 115
193
+ },
194
+ {
195
+ "epoch": 2.0,
196
+ "learning_rate": 2e-05,
197
+ "loss": 0.3689,
198
+ "step": 120
199
+ },
200
+ {
201
+ "epoch": 2.0,
202
+ "eval_f1": 0.4394838882203503,
203
+ "eval_loss": 0.5187910795211792,
204
+ "eval_runtime": 2.0147,
205
+ "eval_samples_per_second": 469.048,
206
+ "eval_steps_per_second": 14.89,
207
+ "step": 120
208
+ },
209
+ {
210
+ "epoch": 2.08,
211
+ "learning_rate": 2e-05,
212
+ "loss": 0.4172,
213
+ "step": 125
214
+ },
215
+ {
216
+ "epoch": 2.17,
217
+ "learning_rate": 2e-05,
218
+ "loss": 0.4645,
219
+ "step": 130
220
+ },
221
+ {
222
+ "epoch": 2.25,
223
+ "learning_rate": 2e-05,
224
+ "loss": 0.4628,
225
+ "step": 135
226
+ },
227
+ {
228
+ "epoch": 2.33,
229
+ "learning_rate": 2e-05,
230
+ "loss": 0.4097,
231
+ "step": 140
232
+ },
233
+ {
234
+ "epoch": 2.33,
235
+ "eval_f1": 0.4676343432076015,
236
+ "eval_loss": 0.4918379485607147,
237
+ "eval_runtime": 2.021,
238
+ "eval_samples_per_second": 467.58,
239
+ "eval_steps_per_second": 14.844,
240
+ "step": 140
241
+ },
242
+ {
243
+ "epoch": 2.42,
244
+ "learning_rate": 2e-05,
245
+ "loss": 0.4716,
246
+ "step": 145
247
+ },
248
+ {
249
+ "epoch": 2.5,
250
+ "learning_rate": 2e-05,
251
+ "loss": 0.4947,
252
+ "step": 150
253
+ },
254
+ {
255
+ "epoch": 2.58,
256
+ "learning_rate": 2e-05,
257
+ "loss": 0.4288,
258
+ "step": 155
259
+ },
260
+ {
261
+ "epoch": 2.67,
262
+ "learning_rate": 2e-05,
263
+ "loss": 0.4904,
264
+ "step": 160
265
+ },
266
+ {
267
+ "epoch": 2.67,
268
+ "eval_f1": 0.4640191084468284,
269
+ "eval_loss": 0.4755867123603821,
270
+ "eval_runtime": 2.0186,
271
+ "eval_samples_per_second": 468.144,
272
+ "eval_steps_per_second": 14.862,
273
+ "step": 160
274
+ },
275
+ {
276
+ "epoch": 2.75,
277
+ "learning_rate": 2e-05,
278
+ "loss": 0.4391,
279
+ "step": 165
280
+ },
281
+ {
282
+ "epoch": 2.83,
283
+ "learning_rate": 2e-05,
284
+ "loss": 0.408,
285
+ "step": 170
286
+ },
287
+ {
288
+ "epoch": 2.92,
289
+ "learning_rate": 2e-05,
290
+ "loss": 0.4724,
291
+ "step": 175
292
+ },
293
+ {
294
+ "epoch": 3.0,
295
+ "learning_rate": 2e-05,
296
+ "loss": 0.3696,
297
+ "step": 180
298
+ },
299
+ {
300
+ "epoch": 3.0,
301
+ "eval_f1": 0.46883968839688395,
302
+ "eval_loss": 0.47884294390678406,
303
+ "eval_runtime": 2.0223,
304
+ "eval_samples_per_second": 467.285,
305
+ "eval_steps_per_second": 14.834,
306
+ "step": 180
307
+ },
308
+ {
309
+ "epoch": 3.08,
310
+ "learning_rate": 2e-05,
311
+ "loss": 0.4094,
312
+ "step": 185
313
+ },
314
+ {
315
+ "epoch": 3.17,
316
+ "learning_rate": 2e-05,
317
+ "loss": 0.4162,
318
+ "step": 190
319
+ },
320
+ {
321
+ "epoch": 3.25,
322
+ "learning_rate": 2e-05,
323
+ "loss": 0.3975,
324
+ "step": 195
325
+ },
326
+ {
327
+ "epoch": 3.33,
328
+ "learning_rate": 2e-05,
329
+ "loss": 0.3631,
330
+ "step": 200
331
+ },
332
+ {
333
+ "epoch": 3.33,
334
+ "eval_f1": 0.4735017608176137,
335
+ "eval_loss": 0.4751051366329193,
336
+ "eval_runtime": 2.0238,
337
+ "eval_samples_per_second": 466.941,
338
+ "eval_steps_per_second": 14.824,
339
+ "step": 200
340
+ },
341
+ {
342
+ "epoch": 3.42,
343
+ "learning_rate": 2e-05,
344
+ "loss": 0.3953,
345
+ "step": 205
346
+ },
347
+ {
348
+ "epoch": 3.5,
349
+ "learning_rate": 2e-05,
350
+ "loss": 0.3781,
351
+ "step": 210
352
+ },
353
+ {
354
+ "epoch": 3.58,
355
+ "learning_rate": 2e-05,
356
+ "loss": 0.4447,
357
+ "step": 215
358
+ },
359
+ {
360
+ "epoch": 3.67,
361
+ "learning_rate": 2e-05,
362
+ "loss": 0.4345,
363
+ "step": 220
364
+ },
365
+ {
366
+ "epoch": 3.67,
367
+ "eval_f1": 0.4796518931606489,
368
+ "eval_loss": 0.4609261453151703,
369
+ "eval_runtime": 2.0228,
370
+ "eval_samples_per_second": 467.18,
371
+ "eval_steps_per_second": 14.831,
372
+ "step": 220
373
+ },
374
+ {
375
+ "epoch": 3.75,
376
+ "learning_rate": 2e-05,
377
+ "loss": 0.3724,
378
+ "step": 225
379
+ },
380
+ {
381
+ "epoch": 3.83,
382
+ "learning_rate": 2e-05,
383
+ "loss": 0.366,
384
+ "step": 230
385
+ },
386
+ {
387
+ "epoch": 3.92,
388
+ "learning_rate": 2e-05,
389
+ "loss": 0.3763,
390
+ "step": 235
391
+ },
392
+ {
393
+ "epoch": 4.0,
394
+ "learning_rate": 2e-05,
395
+ "loss": 0.3398,
396
+ "step": 240
397
+ },
398
+ {
399
+ "epoch": 4.0,
400
+ "eval_f1": 0.5672850456534463,
401
+ "eval_loss": 0.46373221278190613,
402
+ "eval_runtime": 2.0191,
403
+ "eval_samples_per_second": 468.022,
404
+ "eval_steps_per_second": 14.858,
405
+ "step": 240
406
+ },
407
+ {
408
+ "epoch": 4.08,
409
+ "learning_rate": 2e-05,
410
+ "loss": 0.3861,
411
+ "step": 245
412
+ },
413
+ {
414
+ "epoch": 4.17,
415
+ "learning_rate": 2e-05,
416
+ "loss": 0.315,
417
+ "step": 250
418
+ },
419
+ {
420
+ "epoch": 4.25,
421
+ "learning_rate": 2e-05,
422
+ "loss": 0.3501,
423
+ "step": 255
424
+ },
425
+ {
426
+ "epoch": 4.33,
427
+ "learning_rate": 2e-05,
428
+ "loss": 0.2985,
429
+ "step": 260
430
+ },
431
+ {
432
+ "epoch": 4.33,
433
+ "eval_f1": 0.5091622097836045,
434
+ "eval_loss": 0.4849531948566437,
435
+ "eval_runtime": 2.0286,
436
+ "eval_samples_per_second": 465.831,
437
+ "eval_steps_per_second": 14.788,
438
+ "step": 260
439
+ },
440
+ {
441
+ "epoch": 4.42,
442
+ "learning_rate": 2e-05,
443
+ "loss": 0.3734,
444
+ "step": 265
445
+ },
446
+ {
447
+ "epoch": 4.5,
448
+ "learning_rate": 2e-05,
449
+ "loss": 0.3658,
450
+ "step": 270
451
+ },
452
+ {
453
+ "epoch": 4.58,
454
+ "learning_rate": 2e-05,
455
+ "loss": 0.3268,
456
+ "step": 275
457
+ },
458
+ {
459
+ "epoch": 4.67,
460
+ "learning_rate": 2e-05,
461
+ "loss": 0.3248,
462
+ "step": 280
463
+ },
464
+ {
465
+ "epoch": 4.67,
466
+ "eval_f1": 0.6056820231448513,
467
+ "eval_loss": 0.508940577507019,
468
+ "eval_runtime": 2.0241,
469
+ "eval_samples_per_second": 466.871,
470
+ "eval_steps_per_second": 14.821,
471
+ "step": 280
472
+ },
473
+ {
474
+ "epoch": 4.75,
475
+ "learning_rate": 2e-05,
476
+ "loss": 0.3573,
477
+ "step": 285
478
+ },
479
+ {
480
+ "epoch": 4.83,
481
+ "learning_rate": 2e-05,
482
+ "loss": 0.3298,
483
+ "step": 290
484
+ },
485
+ {
486
+ "epoch": 4.92,
487
+ "learning_rate": 2e-05,
488
+ "loss": 0.2909,
489
+ "step": 295
490
+ },
491
+ {
492
+ "epoch": 5.0,
493
+ "learning_rate": 2e-05,
494
+ "loss": 0.3323,
495
+ "step": 300
496
+ },
497
+ {
498
+ "epoch": 5.0,
499
+ "eval_f1": 0.6159893659893659,
500
+ "eval_loss": 0.46433570981025696,
501
+ "eval_runtime": 2.0165,
502
+ "eval_samples_per_second": 468.623,
503
+ "eval_steps_per_second": 14.877,
504
+ "step": 300
505
+ },
506
+ {
507
+ "epoch": 5.0,
508
+ "step": 300,
509
+ "total_flos": 9950949458472960.0,
510
+ "train_loss": 0.4641021112600962,
511
+ "train_runtime": 274.9964,
512
+ "train_samples_per_second": 137.529,
513
+ "train_steps_per_second": 1.091
514
+ }
515
+ ],
516
+ "logging_steps": 5,
517
+ "max_steps": 300,
518
+ "num_train_epochs": 5,
519
+ "save_steps": 20,
520
+ "total_flos": 9950949458472960.0,
521
+ "trial_name": null,
522
+ "trial_params": null
523
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:df644f9cb531efeae2fa933fc737d0f788906c7b481187356986d2cf1ce5d296
3
+ size 4664