bart-base-cnn-swe / README.md

Gabriel

Update README.md

c254ed4 about 2 years ago

preview code

raw

history blame

No virus

4.05 kB

	---
	language: sv
	license: mit
	datasets:
	- Gabriel/cnn_daily_swe
	tags:
	- summarization

	widget:
	- text: "En kronologi av bombningar och försök bombattacker i det brittiska fastlandet sedan 1970-talet:. Polisen stänger gatorna runt Haymarket, i Londons livliga teaterdistrikt. 29 juni 2007: Polisen desarmerar en bomb bestående av 200 liter bränsle, gasflaskor och spikar som hittats i en övergiven bil i Haymarket i centrala London. En andra bil fylld med gas och spikar befanns senare ha parkerats bara några hundra meter från den första, innan den bogserades bort av trafikvakter i början av fredagen för att bryta parkeringsrestriktioner. Polisen säger att två fordon är tydligt kopplade. 21 juli 2005: Två veckor efter de dödliga 7/7 bombningarna påstås fyra män ha försökt genomföra en andra våg av attacker mot Londons transportnät vid tre tunnelbanestationer i London och ombord på en buss. Men deras påstådda ryggsäcksbomber exploderar inte. 7 juli 2005: Fyra självmordsbombare detonerar sig själva ombord på tre underjordiska tåg och en buss i en morgon rusningstid attack mot Londons transportnät, döda 52 människor och skada omkring 700 fler. Al-Qaida tar på sig ansvaret i ett videouttalande."

	model-index:
	- name: bart-base-cnn-swe
	results:
	- task:
	type: summarization
	name: summarization
	dataset:
	name: Gabriel/cnn_daily_swe
	type: Gabriel/cnn_daily_swe
	split: validation
	metrics:
	- name: Validation ROGUE-1
	type: rouge-1
	value: 22.2046
	verified: true
	- name: Validation ROGUE-2
	type: rouge-2
	value: 10.4332
	verified: true
	- name: Validation ROGUE-L
	type: rouge-l
	value: 18.1753
	verified: true
	- name: Validation ROGUE-L-SUM
	type: rouge-l-sum
	value: 20.846
	verified: true

	train-eval-index:
	- config: Gabriel--xsum_swe
	task: summarization
	task_id: summarization
	splits:
	eval_split: train
	col_mapping:
	document: text
	summary: target
	---

	# bart-base-cnn-swe
	This model is a W.I.P

	## Model description
	BART is a transformer encoder-encoder (seq2seq) model with a bidirectional (BERT-like) encoder and an autoregressive (GPT-like) decoder. BART is pre-trained by (1) corrupting text with an arbitrary noising function, and (2) learning a model to reconstruct the original text. This model is a fine-tuned version of [KBLab/bart-base-swedish-cased](https://huggingface.co/KBLab/bart-base-swedish-cased) on the [Gabriel/bart-base-cnn-swe](https://huggingface.co/datasets/Gabriel/cnn_daily_swe) dataset and can be used for summarization tasks.


	## Intended uses & limitations

	This model should only be used to fine-tune further on and summarization tasks.

	## Training procedure

	### Training hyperparameters

	The following hyperparameters were used during training:
	- learning_rate: 5e-05
	- train_batch_size: 8
	- eval_batch_size: 8
	- seed: 42
	- gradient_accumulation_steps: 2
	- total_train_batch_size: 16
	- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
	- lr_scheduler_type: linear
	- num_epochs: 2*2 = 4
	- mixed_precision_training: Native AMP

	### Training results

	\| Training Loss \| Epoch \| Step \| Validation Loss \| Rouge1 \| Rouge2 \| Rougel \| Rougelsum \| Gen Len \|
	\|:-------------:\|:-----:\|:-----:\|:---------------:\|:-------:\|:-------:\|:-------:\|:---------:\|:-------:\|
	\| 2.2349 \| 1.0 \| 17944 \| 2.0643 \| 21.9564 \| 10.2133 \| 17.9958 \| 20.6502 \| 19.9992 \|
	\| 2.0726 \| 2.0 \| 35888 \| 2.0253 \| 22.0568 \| 10.3302 \| 18.0648 \| 20.7482 \| 19.9996 \|
	\| 1.8658 \| 3.0 \| 53832 \| 2.0333 \| 22.0871 \| 10.2902 \| 18.0577 \| 20.7082 \| 19.998 \|
	\| 1.8121 \| 4.0 \| 71776 \| 1.9759 \| 22.2046 \| 10.4332 \| 18.1753 \| 20.846 \| 19.9971 \|


	### Framework versions

	- Transformers 4.22.1
	- Pytorch 1.12.1+cu113
	- Datasets 2.4.0
	- Tokenizers 0.12.1