File size: 1,715 Bytes
fc41744
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38

# Dataset Card for Custom Text Dataset

## Dataset Name
μ»€μŠ€ν…€ CNN/DailyMail μΆ”μΆœ μš”μ•½ 데이터셋

## Overview
이 데이터셋은 CNN/DailyMail λ‰΄μŠ€ κΈ°μ‚¬μ—μ„œ μΆ”μΆœν•œ λ¬Έμž₯λ“€κ³Ό ν•΄λ‹Ή λ¬Έμž₯의 μš”μ•½μœΌλ‘œ κ΅¬μ„±λ˜μ–΄ μžˆλ‹€. 
이 데이터셋은 ν›ˆλ ¨ 및 ν…ŒμŠ€νŠΈλ₯Ό μœ„ν•΄ μ»€μŠ€ν…€ν•œ μ†Œκ·œλͺ¨ ν•˜μœ„ 데이터셋을 ν¬ν•¨ν•˜κ³  μžˆλ‹€.

## Composition
- ν›ˆλ ¨ 데이터: ν•˜λ‚˜μ˜ λ¬Έμž₯κ³Ό 그에 λŒ€ν•œ μš”μ•½μ΄ ν¬ν•¨λœ μƒ˜ν”Œ.
- ν…ŒμŠ€νŠΈ 데이터: CNN/DailyMail λ°μ΄ν„°μ…‹μ˜ 원본 ν…ŒμŠ€νŠΈ μ„ΈνŠΈμ—μ„œ 100개의 μƒ˜ν”Œμ„ μΆ”μΆœ.

## Collection Process
ν›ˆλ ¨ λ°μ΄ν„°λŠ” μˆ˜μž‘μ—…μœΌλ‘œ μƒμ„±λ˜μ—ˆμœΌλ©°, ν…ŒμŠ€νŠΈ λ°μ΄ν„°λŠ” `cnn_dailymail` λ°μ΄ν„°μ…‹μ˜ ν…ŒμŠ€νŠΈ μ„ΈνŠΈμ—μ„œ μΆ”μΆœλ˜μ—ˆλ‹€.

## Preprocessing
Hugging Face `datasets` 라이브러리λ₯Ό μ‚¬μš©ν•˜μ—¬ 데이터λ₯Ό μ „μ²˜λ¦¬ν–ˆλ‹€. ν›ˆλ ¨ 및 ν…ŒμŠ€νŠΈ 데이터셋은 Hugging Faceμ—μ„œ μ‚¬μš©ν•  수 μžˆλŠ” ν˜•μ‹μœΌλ‘œ μ €μž₯λ˜μ—ˆλ‹€.

## How to Use
```python
from datasets import load_from_disk

train_dataset = load_from_disk('./results/custom_dataset/train')
test_dataset = load_from_disk('./results/custom_dataset/test')
```

## Evaluation
이 데이터셋은 ROUGE와 같은 전톡적인 μš”μ•½ 평가 μ§€ν‘œλ₯Ό μ‚¬μš©ν•˜μ—¬ 평가할 수 μžˆλ‹€.

## Limitations
ν›ˆλ ¨ 데이터셋은 맀우 적은 μ–‘μœΌλ‘œ, μΌλ°˜ν™”κ°€ μ–΄λ €μšΈ 수 μžˆλ‹€. ν…ŒμŠ€νŠΈ λ°μ΄ν„°λŠ” μ™ΈλΆ€ μΆœμ²˜μ—μ„œ κ°€μ Έμ™”μœΌλ©°, 원본 데이터셋에 μ‘΄μž¬ν•˜λŠ” 편ν–₯이 포함될 수 μžˆλ‹€.

## Ethical Considerations
이 λ°μ΄ν„°μ…‹μ—λŠ” λ―Όκ°ν•œ μ •μΉ˜μ  μ£Όμ œμ™€ κ΄€λ ¨λœ λ‚΄μš©μ΄ ν¬ν•¨λ˜μ–΄ μžˆλ‹€. μ‚¬μš©μžλŠ” μš”μ•½μ—μ„œ λ°œμƒν•  수 μžˆλŠ” μ˜€ν•΄λ‚˜ 편ν–₯을 μ£Όμ˜ν•΄μ•Ό ν•œλ‹€