resume_flan_T5_v2

This model is a fine-tuned version of google/flan-t5-base on the None dataset. It achieves the following results on the evaluation set:

Loss: 5.3641
Rouge1: 0.1739
Rouge2: 0.0549
Rougel: 0.1394
Rougelsum: 0.1444

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0003
train_batch_size: 8
eval_batch_size: 4
seed: 42
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
num_epochs: 45

Training results

Training Loss	Epoch	Step	Validation Loss	Rouge1	Rouge2	Rougel	Rougelsum
No log	1.0	12	2.3073	0.2162	0.0929	0.1662	0.1754
No log	2.0	24	2.2994	0.2128	0.0910	0.1589	0.1776
No log	3.0	36	2.3548	0.2172	0.0882	0.1597	0.1714
No log	4.0	48	2.4402	0.2055	0.0892	0.1659	0.1725
No log	5.0	60	2.4539	0.2176	0.0933	0.1672	0.1795
No log	6.0	72	2.5899	0.2134	0.0885	0.1711	0.1809
No log	7.0	84	2.7408	0.1928	0.0823	0.1468	0.1620
No log	8.0	96	2.8680	0.1897	0.0752	0.1448	0.1562
No log	9.0	108	3.0342	0.1826	0.0815	0.1362	0.1413
No log	10.0	120	3.3051	0.1884	0.0764	0.1405	0.1526
No log	11.0	132	3.2914	0.1994	0.0718	0.1412	0.1602
No log	12.0	144	3.5757	0.1950	0.0773	0.1485	0.1581
No log	13.0	156	3.4456	0.2058	0.0811	0.1550	0.1660
No log	14.0	168	3.8416	0.2207	0.0895	0.1689	0.1823
No log	15.0	180	3.8640	0.1981	0.0807	0.1527	0.1598
No log	16.0	192	4.0106	0.2049	0.0856	0.1584	0.1746
No log	17.0	204	3.6966	0.2045	0.0830	0.1674	0.1766
No log	18.0	216	4.4829	0.1968	0.0860	0.1592	0.1681
No log	19.0	228	4.2754	0.2077	0.0812	0.1632	0.1700
No log	20.0	240	4.4257	0.1920	0.0755	0.1499	0.1538
No log	21.0	252	4.6886	0.1799	0.0818	0.1433	0.1548
No log	22.0	264	4.2617	0.1948	0.0820	0.1587	0.1682
No log	23.0	276	4.7205	0.1945	0.0760	0.1626	0.1719
No log	24.0	288	4.6546	0.1885	0.0572	0.1534	0.1605
No log	25.0	300	4.6445	0.1855	0.0664	0.1385	0.1483
No log	26.0	312	4.8441	0.1856	0.0708	0.1545	0.1622
No log	27.0	324	4.9298	0.1942	0.0751	0.1583	0.1678
No log	28.0	336	5.0239	0.2074	0.0735	0.1658	0.1692
No log	29.0	348	5.1645	0.2069	0.0758	0.1672	0.1765
No log	30.0	360	5.2009	0.2228	0.0908	0.1748	0.1851
No log	31.0	372	5.0857	0.1943	0.0677	0.1599	0.1695
No log	32.0	384	5.0196	0.1985	0.0780	0.1599	0.1691
No log	33.0	396	5.1465	0.2046	0.0756	0.1638	0.1710
No log	34.0	408	5.1322	0.2004	0.0763	0.1630	0.1674
No log	35.0	420	5.2031	0.1975	0.0721	0.1589	0.1668
No log	36.0	432	5.2682	0.1993	0.0788	0.1566	0.1610
No log	37.0	444	5.3515	0.1888	0.0653	0.1450	0.1535
No log	38.0	456	5.2594	0.1791	0.0510	0.1377	0.1436
No log	39.0	468	5.1711	0.1791	0.0510	0.1377	0.1436
No log	40.0	480	5.2500	0.1733	0.0567	0.1361	0.1414
No log	41.0	492	5.3140	0.1880	0.0652	0.1504	0.1571
0.4536	42.0	504	5.3361	0.1857	0.0628	0.1523	0.1589
0.4536	43.0	516	5.3492	0.1827	0.0645	0.1523	0.1568
0.4536	44.0	528	5.3638	0.1733	0.0549	0.1388	0.1441
0.4536	45.0	540	5.3641	0.1739	0.0549	0.1394	0.1444

Framework versions

Transformers 4.40.0
Pytorch 2.2.1+cu121
Datasets 2.19.0
Tokenizers 0.19.1

boluxo
/

resume_flan_T5_v2

resume_flan_T5_v2

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Finetuned from

Evaluation results

resume_flan_T5_v2

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Finetuned from google/flan-t5-base

Evaluation results

Finetuned from