metadata

library_name: transformers
license: mit
language:
  - ko
base_model:
  - google/gemma-2-2b-it
pipeline_tag: text-generation

📄 Model Card for Model ID

Gemma2 2b 한국어 방언 통역기 v0.2.0

📝 Model Description

Gemma2 2b 한국어 방언 통역기는 한국어 사투리를 표준어로 번역하거나 표준어를 한국어 사투리로 변환하는 프로젝트의 일환으로 개발된 모델입니다.

해당 모델은 Gemma2 2b it 모델을 QLoRa 기법으로 파인튜닝하여 제작하였습니다.

📚 Uses

이 모델은 한국어 방언을 표준 한국어로 번역하거나 그 반대로 번역하는 데 직접 사용할 수 있습니다. 음성 인식 및 번역 도구를 개발하는 교육자, 언어학자, 기술 개발자에게 유용할 수 있습니다.

✍️ 예시

입력 문장	방언: 게난 저 어머니 더 나이 먹어가기 전에 여기 와야 될 건디	표준어: 그러니깐 저 어머니 더 나이 먹어가기 전에 여기 와야 될 건데
방언 통역기 출력	표준어: 그러니까 저 어머니 더 나이 먹어가기 전에 여기 와야 될 건데	방언: 게난 저 어멍 더 나이 먹어가기 전에 여기 와야 될 건디

입력 문장	방언: 자이 폴에 독솔 막 난 거 보난 언 생이우다	표준어: 재 팔에 닭살이 막 난 거 보니, 추운 모양이다
방언 통역기 출력	표준어: 쟤 팔에 닭살이 많이 난 거 보니까 추운 모양입니다	방언: 재 폴에 독솔 막 난 거 보난 언 생이우다

⚠️ Bias, Risks, and Limitations | 한계점

이 모델은 현재 제주 방언에 초점을 맞춘 특정 데이터 세트에 맞춰 미세 조정되었기 때문에 다른 방언이나 언어에 대한 성능이 제한될 수 있습니다.
향후 버전에서 다양한 방언에 대한 지원을 추가할 예정입니다.

🚀 How to Get Started with the Model | 사용법

import transformers
import torch

model_id = "sjbaek/gemma2-2b-it-korean-dialect"
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id, add_eos_token=True)

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    torch_dtype=torch.float16,
    device_map="auto",
    max_new_tokens = 512,
)


def dialect_to_standard(text, dialect_type):
        return [
            {
                "role":"user", 
                "content": "Convert the following sentence or word which is {}'s dialect to standard Korean:\n\n{}".format(dialect_type, text)
            }
        ]


def standard_to_dialect(text, dialect_type):
        return [
            {
                "role":"user", 
                "content": "Convert the following sentence or word which is standard Korean to {}'s dialect :\n\n{}".format(dialect_type, text)
            }
        ]

outputs = pipeline(
    dialect_to_standard("우리 동생도 요번에 월요일날 미깡 타카부댄 내려왔당 못 타난", "제주도"),
    do_sample=True,
    temperature=0.1,
    top_p=0.90,
    add_special_tokens=True
)

print(outputs[0]["generated_text"][-1])
# {'role': 'assistant', 'content': '우리 동생도 요번에 월요일날 귤 타고 왔다가 못 타니까'}

outputs = pipeline(
    standard_to_dialect("그러니깐 저 어머니 더 나이 먹어가기 전에 여기 와야 될 건데", "제주도"),
    do_sample=True,
    temperature=0.1,
    top_p=0.90,
    add_special_tokens=True
)

print(outputs[0]["generated_text"][-1])
# {'role': 'assistant', 'content': '그러니깐 저 어머니 더 나이 먹어가기 전에 여기 와야 될 건데'}

📊 Training Data | 사용 데이터셋

AI_HUB 중·노년층 한국어 방언 데이터 (충청도, 전라도, 제주도)

🔜 TODO

충청도 방언 변환 기능 (v0.3.0)
전라도 방언 변환 기능 (v0.4.0)
경상도 방언 변환 기능 (v0.5.0)
강원도 방언 변환 기능 (v1.0.0)