File size: 1,715 Bytes
fc41744 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 |
# Dataset Card for Custom Text Dataset
## Dataset Name
컀μ€ν
CNN/DailyMail μΆμΆ μμ½ λ°μ΄ν°μ
## Overview
μ΄ λ°μ΄ν°μ
μ CNN/DailyMail λ΄μ€ κΈ°μ¬μμ μΆμΆν λ¬Έμ₯λ€κ³Ό ν΄λΉ λ¬Έμ₯μ μμ½μΌλ‘ ꡬμ±λμ΄ μλ€.
μ΄ λ°μ΄ν°μ
μ νλ ¨ λ° ν
μ€νΈλ₯Ό μν΄ μ»€μ€ν
ν μκ·λͺ¨ νμ λ°μ΄ν°μ
μ ν¬ν¨νκ³ μλ€.
## Composition
- νλ ¨ λ°μ΄ν°: νλμ λ¬Έμ₯κ³Ό κ·Έμ λν μμ½μ΄ ν¬ν¨λ μν.
- ν
μ€νΈ λ°μ΄ν°: CNN/DailyMail λ°μ΄ν°μ
μ μλ³Έ ν
μ€νΈ μΈνΈμμ 100κ°μ μνμ μΆμΆ.
## Collection Process
νλ ¨ λ°μ΄ν°λ μμμ
μΌλ‘ μμ±λμμΌλ©°, ν
μ€νΈ λ°μ΄ν°λ `cnn_dailymail` λ°μ΄ν°μ
μ ν
μ€νΈ μΈνΈμμ μΆμΆλμλ€.
## Preprocessing
Hugging Face `datasets` λΌμ΄λΈλ¬λ¦¬λ₯Ό μ¬μ©νμ¬ λ°μ΄ν°λ₯Ό μ μ²λ¦¬νλ€. νλ ¨ λ° ν
μ€νΈ λ°μ΄ν°μ
μ Hugging Faceμμ μ¬μ©ν μ μλ νμμΌλ‘ μ μ₯λμλ€.
## How to Use
```python
from datasets import load_from_disk
train_dataset = load_from_disk('./results/custom_dataset/train')
test_dataset = load_from_disk('./results/custom_dataset/test')
```
## Evaluation
μ΄ λ°μ΄ν°μ
μ ROUGEμ κ°μ μ ν΅μ μΈ μμ½ νκ° μ§νλ₯Ό μ¬μ©νμ¬ νκ°ν μ μλ€.
## Limitations
νλ ¨ λ°μ΄ν°μ
μ λ§€μ° μ μ μμΌλ‘, μΌλ°νκ° μ΄λ €μΈ μ μλ€. ν
μ€νΈ λ°μ΄ν°λ μΈλΆ μΆμ²μμ κ°μ ΈμμΌλ©°, μλ³Έ λ°μ΄ν°μ
μ μ‘΄μ¬νλ νΈν₯μ΄ ν¬ν¨λ μ μλ€.
## Ethical Considerations
μ΄ λ°μ΄ν°μ
μλ λ―Όκ°ν μ μΉμ μ£Όμ μ κ΄λ ¨λ λ΄μ©μ΄ ν¬ν¨λμ΄ μλ€. μ¬μ©μλ μμ½μμ λ°μν μ μλ μ€ν΄λ νΈν₯μ μ£Όμν΄μΌ νλ€
|