library_name: transformers
license: mit
language:
- ko
base_model:
- google/gemma-2-2b-it
pipeline_tag: text-generation
๐ Model Card for Model ID
Gemma2 2b ํ๊ตญ์ด ๋ฐฉ์ธ ํต์ญ๊ธฐ v0.2.0
๐ Model Description
Gemma2 2b ํ๊ตญ์ด ๋ฐฉ์ธ ํต์ญ๊ธฐ๋ ํ๊ตญ์ด ์ฌํฌ๋ฆฌ๋ฅผ ํ์ค์ด๋ก ๋ฒ์ญํ๊ฑฐ๋ ํ์ค์ด๋ฅผ ํ๊ตญ์ด ์ฌํฌ๋ฆฌ๋ก ๋ณํํ๋ ํ๋ก์ ํธ์ ์ผํ์ผ๋ก ๊ฐ๋ฐ๋ ๋ชจ๋ธ์ ๋๋ค.
ํด๋น ๋ชจ๋ธ์ Gemma2 2b it ๋ชจ๋ธ์ QLoRa ๊ธฐ๋ฒ์ผ๋ก ํ์ธํ๋ํ์ฌ ์ ์ํ์์ต๋๋ค.
๐ Uses
์ด ๋ชจ๋ธ์ ํ๊ตญ์ด ๋ฐฉ์ธ์ ํ์ค ํ๊ตญ์ด๋ก ๋ฒ์ญํ๊ฑฐ๋ ๊ทธ ๋ฐ๋๋ก ๋ฒ์ญํ๋ ๋ฐ ์ง์ ์ฌ์ฉํ ์ ์์ต๋๋ค. ์์ฑ ์ธ์ ๋ฐ ๋ฒ์ญ ๋๊ตฌ๋ฅผ ๊ฐ๋ฐํ๋ ๊ต์ก์, ์ธ์ดํ์, ๊ธฐ์ ๊ฐ๋ฐ์์๊ฒ ์ ์ฉํ ์ ์์ต๋๋ค.
โ๏ธ ์์
์ ๋ ฅ ๋ฌธ์ฅ | ๋ฐฉ์ธ: ๊ฒ๋ ์ ์ด๋จธ๋ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ | ํ์ค์ด: ๊ทธ๋ฌ๋๊น ์ ์ด๋จธ๋ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ฐ |
---|---|---|
๋ฐฉ์ธ ํต์ญ๊ธฐ ์ถ๋ ฅ | ํ์ค์ด: ๊ทธ๋ฌ๋๊น ์ ์ด๋จธ๋ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ฐ | ๋ฐฉ์ธ: ๊ฒ๋ ์ ์ด๋ฉ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ |
์ ๋ ฅ ๋ฌธ์ฅ | ๋ฐฉ์ธ: ์์ด ํด์ ๋ ์ ๋ง ๋ ๊ฑฐ ๋ณด๋ ์ธ ์์ด์ฐ๋ค | ํ์ค์ด: ์ฌ ํ์ ๋ญ์ด์ด ๋ง ๋ ๊ฑฐ ๋ณด๋, ์ถ์ด ๋ชจ์์ด๋ค |
---|---|---|
๋ฐฉ์ธ ํต์ญ๊ธฐ ์ถ๋ ฅ | ํ์ค์ด: ์ค ํ์ ๋ญ์ด์ด ๋ง์ด ๋ ๊ฑฐ ๋ณด๋๊น ์ถ์ด ๋ชจ์์ ๋๋ค | ๋ฐฉ์ธ: ์ฌ ํด์ ๋ ์ ๋ง ๋ ๊ฑฐ ๋ณด๋ ์ธ ์์ด์ฐ๋ค |
โ ๏ธ Bias, Risks, and Limitations | ํ๊ณ์
์ด ๋ชจ๋ธ์ ํ์ฌ ์ ์ฃผ ๋ฐฉ์ธ์ ์ด์ ์ ๋ง์ถ ํน์ ๋ฐ์ดํฐ ์ธํธ์ ๋ง์ถฐ ๋ฏธ์ธ ์กฐ์ ๋์๊ธฐ ๋๋ฌธ์ ๋ค๋ฅธ ๋ฐฉ์ธ์ด๋ ์ธ์ด์ ๋ํ ์ฑ๋ฅ์ด ์ ํ๋ ์ ์์ต๋๋ค.
ํฅํ ๋ฒ์ ์์ ๋ค์ํ ๋ฐฉ์ธ์ ๋ํ ์ง์์ ์ถ๊ฐํ ์์ ์ ๋๋ค.
๐ How to Get Started with the Model | ์ฌ์ฉ๋ฒ
import transformers
import torch
model_id = "sjbaek/gemma2-2b-it-korean-dialect"
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id, add_eos_token=True)
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
tokenizer=tokenizer,
torch_dtype=torch.float16,
device_map="auto",
max_new_tokens = 512,
)
def dialect_to_standard(text, dialect_type):
return [
{
"role":"user",
"content": "Convert the following sentence or word which is {}'s dialect to standard Korean:\n\n{}".format(dialect_type, text)
}
]
def standard_to_dialect(text, dialect_type):
return [
{
"role":"user",
"content": "Convert the following sentence or word which is standard Korean to {}'s dialect :\n\n{}".format(dialect_type, text)
}
]
outputs = pipeline(
dialect_to_standard("์ฐ๋ฆฌ ๋์๋ ์๋ฒ์ ์์์ผ๋ ๋ฏธ๊นก ํ์นด๋ถ๋ ๋ด๋ ค์๋น ๋ชป ํ๋", "์ ์ฃผ๋"),
do_sample=True,
temperature=0.1,
top_p=0.90,
add_special_tokens=True
)
print(outputs[0]["generated_text"][-1])
# {'role': 'assistant', 'content': '์ฐ๋ฆฌ ๋์๋ ์๋ฒ์ ์์์ผ๋ ๊ทค ํ๊ณ ์๋ค๊ฐ ๋ชป ํ๋๊น'}
outputs = pipeline(
standard_to_dialect("๊ทธ๋ฌ๋๊น ์ ์ด๋จธ๋ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ฐ", "์ ์ฃผ๋"),
do_sample=True,
temperature=0.1,
top_p=0.90,
add_special_tokens=True
)
print(outputs[0]["generated_text"][-1])
# {'role': 'assistant', 'content': '๊ทธ๋ฌ๋๊น ์ ์ด๋จธ๋ ๋ ๋์ด ๋จน์ด๊ฐ๊ธฐ ์ ์ ์ฌ๊ธฐ ์์ผ ๋ ๊ฑด๋ฐ'}
๐ Training Data | ์ฌ์ฉ ๋ฐ์ดํฐ์
๐ TODO
- ์ถฉ์ฒญ๋ ๋ฐฉ์ธ ๋ณํ ๊ธฐ๋ฅ (v0.3.0)
- ์ ๋ผ๋ ๋ฐฉ์ธ ๋ณํ ๊ธฐ๋ฅ (v0.4.0)
- ๊ฒฝ์๋ ๋ฐฉ์ธ ๋ณํ ๊ธฐ๋ฅ (v0.5.0)
- ๊ฐ์๋ ๋ฐฉ์ธ ๋ณํ ๊ธฐ๋ฅ (v1.0.0)