Initial commit for the custom_summarization_dataset
Browse files- README.md +37 -0
- test/dataset_dict.json +1 -0
- test/test/data-00000-of-00001.arrow +3 -0
- test/test/dataset_info.json +22 -0
- test/test/state.json +13 -0
- train/dataset_dict.json +1 -0
- train/train/data-00000-of-00001.arrow +3 -0
- train/train/dataset_info.json +16 -0
- train/train/state.json +13 -0
README.md
ADDED
@@ -0,0 +1,37 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
|
2 |
+
# Dataset Card for Custom Text Dataset
|
3 |
+
|
4 |
+
## Dataset Name
|
5 |
+
커스텀 CNN/DailyMail 추출 요약 데이터셋
|
6 |
+
|
7 |
+
## Overview
|
8 |
+
이 데이터셋은 CNN/DailyMail 뉴스 기사에서 추출한 문장들과 해당 문장의 요약으로 구성되어 있다.
|
9 |
+
이 데이터셋은 훈련 및 테스트를 위해 커스텀한 소규모 하위 데이터셋을 포함하고 있다.
|
10 |
+
|
11 |
+
## Composition
|
12 |
+
- 훈련 데이터: 하나의 문장과 그에 대한 요약이 포함된 샘플.
|
13 |
+
- 테스트 데이터: CNN/DailyMail 데이터셋의 원본 테스트 세트에서 100개의 샘플을 추출.
|
14 |
+
|
15 |
+
## Collection Process
|
16 |
+
훈련 데이터는 수작업으로 생성되었으며, 테스트 데이터는 `cnn_dailymail` 데이터셋의 테스트 세트에서 추출되었다.
|
17 |
+
|
18 |
+
## Preprocessing
|
19 |
+
Hugging Face `datasets` 라이브러리를 사용하여 데이터를 전처리했다. 훈련 및 테스트 데이터셋은 Hugging Face에서 사용할 수 있는 형식으로 저장되었다.
|
20 |
+
|
21 |
+
## How to Use
|
22 |
+
```python
|
23 |
+
from datasets import load_from_disk
|
24 |
+
|
25 |
+
train_dataset = load_from_disk('./results/custom_dataset/train')
|
26 |
+
test_dataset = load_from_disk('./results/custom_dataset/test')
|
27 |
+
```
|
28 |
+
|
29 |
+
## Evaluation
|
30 |
+
이 데이터셋은 ROUGE와 같은 전통적인 요약 평가 지표를 사용하여 평가할 수 있다.
|
31 |
+
|
32 |
+
## Limitations
|
33 |
+
훈련 데이터셋은 매우 적은 양으로, 일반화가 어려울 수 있다. 테스트 데이터는 외부 출처에서 가져왔으며, 원본 데이터셋에 존재하는 편향이 포함될 수 있다.
|
34 |
+
|
35 |
+
## Ethical Considerations
|
36 |
+
이 데이터셋에는 민감한 정치적 주제와 관련된 내용이 포함되어 있다. 사용자는 요약에서 발생할 수 있는 오해나 편향을 주의해야 한다
|
37 |
+
|
test/dataset_dict.json
ADDED
@@ -0,0 +1 @@
|
|
|
|
|
1 |
+
{"splits": ["test"]}
|
test/test/data-00000-of-00001.arrow
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:1e6aa13a3e10a33624931f6c220c9618528323886bd7b7ac334af681b8dc0646
|
3 |
+
size 346576
|
test/test/dataset_info.json
ADDED
@@ -0,0 +1,22 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"citation": "",
|
3 |
+
"description": "",
|
4 |
+
"features": {
|
5 |
+
"sentence": {
|
6 |
+
"feature": {
|
7 |
+
"dtype": "string",
|
8 |
+
"_type": "Value"
|
9 |
+
},
|
10 |
+
"_type": "Sequence"
|
11 |
+
},
|
12 |
+
"labels": {
|
13 |
+
"feature": {
|
14 |
+
"dtype": "string",
|
15 |
+
"_type": "Value"
|
16 |
+
},
|
17 |
+
"_type": "Sequence"
|
18 |
+
}
|
19 |
+
},
|
20 |
+
"homepage": "",
|
21 |
+
"license": ""
|
22 |
+
}
|
test/test/state.json
ADDED
@@ -0,0 +1,13 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_data_files": [
|
3 |
+
{
|
4 |
+
"filename": "data-00000-of-00001.arrow"
|
5 |
+
}
|
6 |
+
],
|
7 |
+
"_fingerprint": "a966e5e39a3a551f",
|
8 |
+
"_format_columns": null,
|
9 |
+
"_format_kwargs": {},
|
10 |
+
"_format_type": null,
|
11 |
+
"_output_all_columns": false,
|
12 |
+
"_split": null
|
13 |
+
}
|
train/dataset_dict.json
ADDED
@@ -0,0 +1 @@
|
|
|
|
|
1 |
+
{"splits": ["train"]}
|
train/train/data-00000-of-00001.arrow
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:c3b84a293ed7afd9641f578c760558feab774e12174775ffef3bd6d130873903
|
3 |
+
size 1400
|
train/train/dataset_info.json
ADDED
@@ -0,0 +1,16 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"citation": "",
|
3 |
+
"description": "",
|
4 |
+
"features": {
|
5 |
+
"sentence": {
|
6 |
+
"dtype": "string",
|
7 |
+
"_type": "Value"
|
8 |
+
},
|
9 |
+
"labels": {
|
10 |
+
"dtype": "string",
|
11 |
+
"_type": "Value"
|
12 |
+
}
|
13 |
+
},
|
14 |
+
"homepage": "",
|
15 |
+
"license": ""
|
16 |
+
}
|
train/train/state.json
ADDED
@@ -0,0 +1,13 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_data_files": [
|
3 |
+
{
|
4 |
+
"filename": "data-00000-of-00001.arrow"
|
5 |
+
}
|
6 |
+
],
|
7 |
+
"_fingerprint": "a1df46296853828f",
|
8 |
+
"_format_columns": null,
|
9 |
+
"_format_kwargs": {},
|
10 |
+
"_format_type": null,
|
11 |
+
"_output_all_columns": false,
|
12 |
+
"_split": null
|
13 |
+
}
|