Jisu80609 commited on
Commit
fc41744
·
1 Parent(s): 803f1c4

Initial commit for the custom_summarization_dataset

Browse files
README.md ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+
2
+ # Dataset Card for Custom Text Dataset
3
+
4
+ ## Dataset Name
5
+ 커스텀 CNN/DailyMail 추출 요약 데이터셋
6
+
7
+ ## Overview
8
+ 이 데이터셋은 CNN/DailyMail 뉴스 기사에서 추출한 문장들과 해당 문장의 요약으로 구성되어 있다.
9
+ 이 데이터셋은 훈련 및 테스트를 위해 커스텀한 소규모 하위 데이터셋을 포함하고 있다.
10
+
11
+ ## Composition
12
+ - 훈련 데이터: 하나의 문장과 그에 대한 요약이 포함된 샘플.
13
+ - 테스트 데이터: CNN/DailyMail 데이터셋의 원본 테스트 세트에서 100개의 샘플을 추출.
14
+
15
+ ## Collection Process
16
+ 훈련 데이터는 수작업으로 생성되었으며, 테스트 데이터는 `cnn_dailymail` 데이터셋의 테스트 세트에서 추출되었다.
17
+
18
+ ## Preprocessing
19
+ Hugging Face `datasets` 라이브러리를 사용하여 데이터를 전처리했다. 훈련 및 테스트 데이터셋은 Hugging Face에서 사용할 수 있는 형식으로 저장되었다.
20
+
21
+ ## How to Use
22
+ ```python
23
+ from datasets import load_from_disk
24
+
25
+ train_dataset = load_from_disk('./results/custom_dataset/train')
26
+ test_dataset = load_from_disk('./results/custom_dataset/test')
27
+ ```
28
+
29
+ ## Evaluation
30
+ 이 데이터셋은 ROUGE와 같은 전통적인 요약 평가 지표를 사용하여 평가할 수 있다.
31
+
32
+ ## Limitations
33
+ 훈련 데이터셋은 매우 적은 양으로, 일반화가 어려울 수 있다. 테스트 데이터는 외부 출처에서 가져왔으며, 원본 데이터셋에 존재하는 편향이 포함될 수 있다.
34
+
35
+ ## Ethical Considerations
36
+ 이 데이터셋에는 민감한 정치적 주제와 관련된 내용이 포함되어 있다. 사용자는 요약에서 발생할 수 있는 오해나 편향을 주의해야 한다
37
+
test/dataset_dict.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"splits": ["test"]}
test/test/data-00000-of-00001.arrow ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1e6aa13a3e10a33624931f6c220c9618528323886bd7b7ac334af681b8dc0646
3
+ size 346576
test/test/dataset_info.json ADDED
@@ -0,0 +1,22 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "citation": "",
3
+ "description": "",
4
+ "features": {
5
+ "sentence": {
6
+ "feature": {
7
+ "dtype": "string",
8
+ "_type": "Value"
9
+ },
10
+ "_type": "Sequence"
11
+ },
12
+ "labels": {
13
+ "feature": {
14
+ "dtype": "string",
15
+ "_type": "Value"
16
+ },
17
+ "_type": "Sequence"
18
+ }
19
+ },
20
+ "homepage": "",
21
+ "license": ""
22
+ }
test/test/state.json ADDED
@@ -0,0 +1,13 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_data_files": [
3
+ {
4
+ "filename": "data-00000-of-00001.arrow"
5
+ }
6
+ ],
7
+ "_fingerprint": "a966e5e39a3a551f",
8
+ "_format_columns": null,
9
+ "_format_kwargs": {},
10
+ "_format_type": null,
11
+ "_output_all_columns": false,
12
+ "_split": null
13
+ }
train/dataset_dict.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"splits": ["train"]}
train/train/data-00000-of-00001.arrow ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c3b84a293ed7afd9641f578c760558feab774e12174775ffef3bd6d130873903
3
+ size 1400
train/train/dataset_info.json ADDED
@@ -0,0 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "citation": "",
3
+ "description": "",
4
+ "features": {
5
+ "sentence": {
6
+ "dtype": "string",
7
+ "_type": "Value"
8
+ },
9
+ "labels": {
10
+ "dtype": "string",
11
+ "_type": "Value"
12
+ }
13
+ },
14
+ "homepage": "",
15
+ "license": ""
16
+ }
train/train/state.json ADDED
@@ -0,0 +1,13 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_data_files": [
3
+ {
4
+ "filename": "data-00000-of-00001.arrow"
5
+ }
6
+ ],
7
+ "_fingerprint": "a1df46296853828f",
8
+ "_format_columns": null,
9
+ "_format_kwargs": {},
10
+ "_format_type": null,
11
+ "_output_all_columns": false,
12
+ "_split": null
13
+ }