Edit model card

resume_flan_T5_v2

This model is a fine-tuned version of google/flan-t5-base on the None dataset. It achieves the following results on the evaluation set:

  • Loss: 5.3641
  • Rouge1: 0.1739
  • Rouge2: 0.0549
  • Rougel: 0.1394
  • Rougelsum: 0.1444

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 0.0003
  • train_batch_size: 8
  • eval_batch_size: 4
  • seed: 42
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: linear
  • num_epochs: 45

Training results

Training Loss Epoch Step Validation Loss Rouge1 Rouge2 Rougel Rougelsum
No log 1.0 12 2.3073 0.2162 0.0929 0.1662 0.1754
No log 2.0 24 2.2994 0.2128 0.0910 0.1589 0.1776
No log 3.0 36 2.3548 0.2172 0.0882 0.1597 0.1714
No log 4.0 48 2.4402 0.2055 0.0892 0.1659 0.1725
No log 5.0 60 2.4539 0.2176 0.0933 0.1672 0.1795
No log 6.0 72 2.5899 0.2134 0.0885 0.1711 0.1809
No log 7.0 84 2.7408 0.1928 0.0823 0.1468 0.1620
No log 8.0 96 2.8680 0.1897 0.0752 0.1448 0.1562
No log 9.0 108 3.0342 0.1826 0.0815 0.1362 0.1413
No log 10.0 120 3.3051 0.1884 0.0764 0.1405 0.1526
No log 11.0 132 3.2914 0.1994 0.0718 0.1412 0.1602
No log 12.0 144 3.5757 0.1950 0.0773 0.1485 0.1581
No log 13.0 156 3.4456 0.2058 0.0811 0.1550 0.1660
No log 14.0 168 3.8416 0.2207 0.0895 0.1689 0.1823
No log 15.0 180 3.8640 0.1981 0.0807 0.1527 0.1598
No log 16.0 192 4.0106 0.2049 0.0856 0.1584 0.1746
No log 17.0 204 3.6966 0.2045 0.0830 0.1674 0.1766
No log 18.0 216 4.4829 0.1968 0.0860 0.1592 0.1681
No log 19.0 228 4.2754 0.2077 0.0812 0.1632 0.1700
No log 20.0 240 4.4257 0.1920 0.0755 0.1499 0.1538
No log 21.0 252 4.6886 0.1799 0.0818 0.1433 0.1548
No log 22.0 264 4.2617 0.1948 0.0820 0.1587 0.1682
No log 23.0 276 4.7205 0.1945 0.0760 0.1626 0.1719
No log 24.0 288 4.6546 0.1885 0.0572 0.1534 0.1605
No log 25.0 300 4.6445 0.1855 0.0664 0.1385 0.1483
No log 26.0 312 4.8441 0.1856 0.0708 0.1545 0.1622
No log 27.0 324 4.9298 0.1942 0.0751 0.1583 0.1678
No log 28.0 336 5.0239 0.2074 0.0735 0.1658 0.1692
No log 29.0 348 5.1645 0.2069 0.0758 0.1672 0.1765
No log 30.0 360 5.2009 0.2228 0.0908 0.1748 0.1851
No log 31.0 372 5.0857 0.1943 0.0677 0.1599 0.1695
No log 32.0 384 5.0196 0.1985 0.0780 0.1599 0.1691
No log 33.0 396 5.1465 0.2046 0.0756 0.1638 0.1710
No log 34.0 408 5.1322 0.2004 0.0763 0.1630 0.1674
No log 35.0 420 5.2031 0.1975 0.0721 0.1589 0.1668
No log 36.0 432 5.2682 0.1993 0.0788 0.1566 0.1610
No log 37.0 444 5.3515 0.1888 0.0653 0.1450 0.1535
No log 38.0 456 5.2594 0.1791 0.0510 0.1377 0.1436
No log 39.0 468 5.1711 0.1791 0.0510 0.1377 0.1436
No log 40.0 480 5.2500 0.1733 0.0567 0.1361 0.1414
No log 41.0 492 5.3140 0.1880 0.0652 0.1504 0.1571
0.4536 42.0 504 5.3361 0.1857 0.0628 0.1523 0.1589
0.4536 43.0 516 5.3492 0.1827 0.0645 0.1523 0.1568
0.4536 44.0 528 5.3638 0.1733 0.0549 0.1388 0.1441
0.4536 45.0 540 5.3641 0.1739 0.0549 0.1394 0.1444

Framework versions

  • Transformers 4.40.0
  • Pytorch 2.2.1+cu121
  • Datasets 2.19.0
  • Tokenizers 0.19.1
Downloads last month
16
Safetensors
Model size
248M params
Tensor type
F32
·

Finetuned from