Edit model card

text_summarization-finetuned

This model is a fine-tuned version of Falconsai/text_summarization on the cnn_dailymail dataset. It achieves the following results on the evaluation set:

  • Loss: 1.8119
  • Rouge1: 0.2389
  • Rouge2: 0.1112
  • Rougel: 0.1946
  • Rougelsum: 0.2237

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 2e-05
  • train_batch_size: 8
  • eval_batch_size: 8
  • seed: 42
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 32
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: linear
  • num_epochs: 40

Training results

Training Loss Epoch Step Validation Loss Rouge1 Rouge2 Rougel Rougelsum
10.7536 1.0 78 6.6776 0.203 0.0868 0.1627 0.1909
5.0057 1.99 156 3.2391 0.2128 0.0909 0.1707 0.2003
3.3921 2.99 234 2.9233 0.2263 0.102 0.1849 0.213
3.1013 4.0 313 2.7724 0.2265 0.1043 0.1864 0.2128
2.9643 5.0 391 2.5935 0.2305 0.1075 0.1893 0.2166
2.7594 5.99 469 2.4411 0.2311 0.1075 0.1888 0.2171
2.6579 6.99 547 2.3273 0.2327 0.1084 0.1908 0.2185
2.5729 8.0 626 2.2452 0.2326 0.1083 0.1905 0.2185
2.4879 9.0 704 2.1828 0.2313 0.1063 0.1893 0.2176
2.401 9.99 782 2.1365 0.2336 0.1071 0.1907 0.2193
2.346 10.99 860 2.0937 0.2332 0.1065 0.1905 0.2192
2.3086 12.0 939 2.0606 0.2334 0.107 0.1905 0.2191
2.2648 13.0 1017 2.0315 0.2351 0.1085 0.1925 0.2211
2.2452 13.99 1095 2.0058 0.2354 0.1079 0.1922 0.221
2.204 14.99 1173 1.9853 0.2364 0.1093 0.1932 0.2222
2.1723 16.0 1252 1.9665 0.236 0.109 0.1931 0.2218
2.1601 17.0 1330 1.9479 0.2356 0.109 0.1923 0.2212
2.143 17.99 1408 1.9337 0.2356 0.1093 0.1926 0.2215
2.093 18.99 1486 1.9201 0.2366 0.1101 0.193 0.2223
2.0987 20.0 1565 1.9077 0.2371 0.111 0.1938 0.2228
2.0663 21.0 1643 1.8956 0.2368 0.1104 0.1937 0.2219
2.0629 21.99 1721 1.8858 0.2375 0.1109 0.1935 0.2221
2.0449 22.99 1799 1.8765 0.2395 0.1128 0.1959 0.2244
2.0342 24.0 1878 1.8684 0.2384 0.1115 0.1943 0.2233
2.0021 25.0 1956 1.8620 0.2373 0.1101 0.1932 0.222
2.0152 25.99 2034 1.8537 0.2387 0.1116 0.1949 0.2236
2.0058 26.99 2112 1.8477 0.239 0.1118 0.195 0.224
1.981 28.0 2191 1.8418 0.2377 0.1108 0.194 0.2227
1.9493 29.0 2269 1.8358 0.2388 0.111 0.1947 0.2234
1.9626 29.99 2347 1.8314 0.2385 0.1109 0.1945 0.223
1.9735 30.99 2425 1.8279 0.239 0.1109 0.1944 0.2232
1.9421 32.0 2504 1.8240 0.2393 0.1109 0.1946 0.2234
1.9371 33.0 2582 1.8212 0.2396 0.1114 0.1951 0.2239
1.9252 33.99 2660 1.8184 0.2392 0.1111 0.1947 0.2238
1.9556 34.99 2738 1.8163 0.2392 0.1111 0.1946 0.2238
1.9436 36.0 2817 1.8147 0.2394 0.111 0.1945 0.224
1.9444 37.0 2895 1.8132 0.239 0.1113 0.1946 0.2239
1.9368 37.99 2973 1.8125 0.239 0.1112 0.1947 0.2239
1.9467 38.99 3051 1.8120 0.2389 0.1112 0.1946 0.2237
1.9335 39.87 3120 1.8119 0.2389 0.1112 0.1946 0.2237

Framework versions

  • Transformers 4.38.0.dev0
  • Pytorch 2.2.0
  • Datasets 2.16.1
  • Tokenizers 0.15.1
Downloads last month
7
Safetensors
Model size
60.5M params
Tensor type
F32
·

Finetuned from

Dataset used to train RMWeerasinghe/text_summarization-finetuned

Evaluation results