# Dataset Card for Custom Text Dataset | |
## Dataset Name | |
컀μ€ν CNN/DailyMail μΆμΆ μμ½ λ°μ΄ν°μ | |
## Overview | |
μ΄ λ°μ΄ν°μ μ CNN/DailyMail λ΄μ€ κΈ°μ¬μμ μΆμΆν λ¬Έμ₯λ€κ³Ό ν΄λΉ λ¬Έμ₯μ μμ½μΌλ‘ ꡬμ±λμ΄ μλ€. | |
μ΄ λ°μ΄ν°μ μ νλ ¨ λ° ν μ€νΈλ₯Ό μν΄ μ»€μ€ν ν μκ·λͺ¨ νμ λ°μ΄ν°μ μ ν¬ν¨νκ³ μλ€. | |
## Composition | |
- νλ ¨ λ°μ΄ν°: νλμ λ¬Έμ₯κ³Ό κ·Έμ λν μμ½μ΄ ν¬ν¨λ μν. | |
- ν μ€νΈ λ°μ΄ν°: CNN/DailyMail λ°μ΄ν°μ μ μλ³Έ ν μ€νΈ μΈνΈμμ 100κ°μ μνμ μΆμΆ. | |
## Collection Process | |
νλ ¨ λ°μ΄ν°λ μμμ μΌλ‘ μμ±λμμΌλ©°, ν μ€νΈ λ°μ΄ν°λ `cnn_dailymail` λ°μ΄ν°μ μ ν μ€νΈ μΈνΈμμ μΆμΆλμλ€. | |
## Preprocessing | |
Hugging Face `datasets` λΌμ΄λΈλ¬λ¦¬λ₯Ό μ¬μ©νμ¬ λ°μ΄ν°λ₯Ό μ μ²λ¦¬νλ€. νλ ¨ λ° ν μ€νΈ λ°μ΄ν°μ μ Hugging Faceμμ μ¬μ©ν μ μλ νμμΌλ‘ μ μ₯λμλ€. | |
## How to Use | |
```python | |
from datasets import load_from_disk | |
train_dataset = load_from_disk('./results/custom_dataset/train') | |
test_dataset = load_from_disk('./results/custom_dataset/test') | |
``` | |
## Evaluation | |
μ΄ λ°μ΄ν°μ μ ROUGEμ κ°μ μ ν΅μ μΈ μμ½ νκ° μ§νλ₯Ό μ¬μ©νμ¬ νκ°ν μ μλ€. | |
## Limitations | |
νλ ¨ λ°μ΄ν°μ μ λ§€μ° μ μ μμΌλ‘, μΌλ°νκ° μ΄λ €μΈ μ μλ€. ν μ€νΈ λ°μ΄ν°λ μΈλΆ μΆμ²μμ κ°μ ΈμμΌλ©°, μλ³Έ λ°μ΄ν°μ μ μ‘΄μ¬νλ νΈν₯μ΄ ν¬ν¨λ μ μλ€. | |
## Ethical Considerations | |
μ΄ λ°μ΄ν°μ μλ λ―Όκ°ν μ μΉμ μ£Όμ μ κ΄λ ¨λ λ΄μ©μ΄ ν¬ν¨λμ΄ μλ€. μ¬μ©μλ μμ½μμ λ°μν μ μλ μ€ν΄λ νΈν₯μ μ£Όμν΄μΌ νλ€ | |