language: ko
license: apache-2.0
tags:
- summarization
- legal
- korean
datasets:
- ai-hub
model_name: gemma-2b-it-sum-ko-legal
base_model:
- google/gemma-2-2b-it
Gemma-2B-it-sum-ko-legal
๋ชจ๋ธ ์ค๋ช
Gemma-2B-it-sum-ko-legal์ AI ํ๋ธ์ ๋ฒ๋ฅ ์ ๊ฒํ ๋ณด๊ณ ์ ์์ฝ ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋ ๋ชจ๋ธ์ ๋๋ค. ์ด ๋ชจ๋ธ์ ๋ฒ๋ฅ ๋ฌธ์, ๋ฒ๋ฅ ์ ๊ฒํ ๋ณด๊ณ ์์ ๊ฐ์ ํ๊ตญ์ด ๋ฌธ์๋ฅผ ๊ฐ๊ฒฐํ๊ฒ ์์ฝํ๋ ๋ฐ ํนํ๋์ด ์์ผ๋ฉฐ, Hugging Face์ ์ฌ์ ํ์ต๋ Gemma 2B ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ๋ฏธ์ธ ์กฐ์ ๋์์ต๋๋ค. ๊ธด ๋ฒ๋ฅ ๋ฌธ์๋ฅผ ์ฒ๋ฆฌํ๊ณ ํต์ฌ ๋ด์ฉ์ ์๋์ผ๋ก ์ถ์ถํ์ฌ ๋ฒ๋ฅ ์ ๋ฌธ๊ฐ๋ค์ด ๋ ๋น ๋ฅด๊ณ ํจ์จ์ ์ผ๋ก ๋ฌธ์๋ฅผ ๊ฒํ ํ ์ ์๋๋ก ๋์ต๋๋ค.
- ์ง์ ์ธ์ด: ํ๊ตญ์ด
- ํน์ง: ๋ฒ๋ฅ ๋ฌธ์ ์์ฝ์ ์ต์ ํ
๋ชจ๋ธ ํ์ต ๊ณผ์
๋ฐ์ดํฐ์
์ด ๋ชจ๋ธ์ AI ํ๋ธ์ ๋ฒ๋ฅ ์ ๊ฒํ ๋ณด๊ณ ์ ์์ฝ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์ฌ ํ์ต๋์์ต๋๋ค. ํด๋น ๋ฐ์ดํฐ์ ์ ๋ฒ๋ฅ ๋ฌธ์์ ๊ตฌ์กฐ์ ๋ด์ฉ์ ์ดํดํ๊ณ ์์ฝํ๋ ๋ฐ ์ ํฉํ ๋ฐ์ดํฐ๋ก, ์ฌ๋ฌ ๋ฒ๋ฅ ์ฃผ์ ๋ฅผ ํฌ๊ดํ๊ณ ์์ต๋๋ค.
ํ์ต ๋ฐฉ๋ฒ
๋ชจ๋ธ์ Hugging Face์ Gemma 2B ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ฏธ์ธ ์กฐ์ ๋์์ผ๋ฉฐ, ๋ฒ๋ฅ ๋ฌธ์์ ํน์์ฑ์ ๋ฐ์ํ ์ถ๊ฐ ํ์ต์ ํตํด ์ต์ ํ๋์์ต๋๋ค. ๋ชจ๋ธ ํ์ต์๋ FP16 ํผํฉ ์ ๋ฐ๋ ํ์ต์ด ์ฌ์ฉ๋์์ผ๋ฉฐ, ์ฃผ์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ ์๋์ ๊ฐ์ต๋๋ค:
- ๋ฐฐ์น ํฌ๊ธฐ: 16
- ํ์ต๋ฅ : 5e-5
- ์ต์ ํ ๊ธฐ๋ฒ: AdamW
- ํ์ต ์ํญ: 3
- ํ๋์จ์ด: NVIDIA A100 GPU
์ฝ๋ ์์
์๋ ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ์ด ๋ชจ๋ธ์ ๋ก๋ํ๊ณ ํ๊ตญ์ด ๋ฒ๋ฅ ๋ฌธ์๋ฅผ ์์ฝํ ์ ์์ต๋๋ค.
from transformers import pipeline
# ๋ชจ๋ธ ๋ฐ ํ ํฌ๋์ด์ ๋ก๋
pipe_finetuned = pipeline("text-generation", model="your-username/gemma-2b-it-sum-ko-legal", tokenizer="your-username/gemma-2b-it-sum-ko-legal", max_new_tokens=512)
# ์์ฝํ ํ
์คํธ ์
๋ ฅ
paragraph = """
ํ๊ตญ์ ๋ฒ๋ฅ ์ ๊ฒํ ๋ณด๊ณ ์ ๋ด์ฉ์ ๋งค์ฐ ๋ณต์กํ๊ณ ๊ธด ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค.
์ด๋ฌํ ๋ฌธ์๋ฅผ ์์ฝํ์ฌ ์ฃผ์ ์ ๋ณด๋ฅผ ๋น ๋ฅด๊ฒ ํ์
ํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
"""
# ์์ฝ ์์ฒญ
summary = pipe_finetuned(paragraph, do_sample=True, temperature=0.2, top_k=50, top_p=0.95)
print(summary[0]["generated_text"])