Jisu80609
/

custom_summarization_dataset

Model card Files Files and versions Community

custom_summarization_dataset / README.md

Jisu80609

Initial commit for the custom_summarization_dataset

fc41744 8 months ago

preview code

raw

history blame contribute delete

1.72 kB


	# Dataset Card for Custom Text Dataset

	## Dataset Name
	커스텀 CNN/DailyMail 추출 요약 데이터셋

	## Overview
	이 데이터셋은 CNN/DailyMail 뉴스 기사에서 추출한 문장들과 해당 문장의 요약으로 구성되어 있다.
	이 데이터셋은 훈련 및 테스트를 위해 커스텀한 소규모 하위 데이터셋을 포함하고 있다.

	## Composition
	- 훈련 데이터: 하나의 문장과 그에 대한 요약이 포함된 샘플.
	- 테스트 데이터: CNN/DailyMail 데이터셋의 원본 테스트 세트에서 100개의 샘플을 추출.

	## Collection Process
	훈련 데이터는 수작업으로 생성되었으며, 테스트 데이터는 `cnn_dailymail` 데이터셋의 테스트 세트에서 추출되었다.

	## Preprocessing
	Hugging Face `datasets` 라이브러리를 사용하여 데이터를 전처리했다. 훈련 및 테스트 데이터셋은 Hugging Face에서 사용할 수 있는 형식으로 저장되었다.

	## How to Use
	```python
	from datasets import load_from_disk

	train_dataset = load_from_disk('./results/custom_dataset/train')
	test_dataset = load_from_disk('./results/custom_dataset/test')
	```

	## Evaluation
	이 데이터셋은 ROUGE와 같은 전통적인 요약 평가 지표를 사용하여 평가할 수 있다.

	## Limitations
	훈련 데이터셋은 매우 적은 양으로, 일반화가 어려울 수 있다. 테스트 데이터는 외부 출처에서 가져왔으며, 원본 데이터셋에 존재하는 편향이 포함될 수 있다.

	## Ethical Considerations
	이 데이터셋에는 민감한 정치적 주제와 관련된 내용이 포함되어 있다. 사용자는 요약에서 발생할 수 있는 오해나 편향을 주의해야 한다