--- library_name: transformers license: mit language: - ko base_model: - google/gemma-2-2b-it pipeline_tag: text-generation --- # Model Card for Model ID Gemma2 2b 한국어 방언 통역기 v0.2.0 ## Model Description Gemma2 2b 한국어 방언 통역기는 한국어 사투리를 표준어로 번역하거나 표준어를 한국어 사투리로 변환하는 프로젝트의 일환으로 개발된 모델입니다. 해당 모델은 Gemma2 2b it 모델을 QLoRa 기법으로 파인튜닝하여 제작하였습니다. ## Uses 이 모델은 한국어 방언을 표준 한국어로 번역하거나 그 반대로 번역하는 데 직접 사용할 수 있습니다. 음성 인식 및 번역 도구를 개발하는 교육자, 언어학자, 기술 개발자에게 유용할 수 있습니다. ### 예시 | 입력 문장 | 방언: 게난 저 어머니 더 나이 먹어가기 전에 여기 와야 될 건디 | 표준어: 그러니깐 저 어머니 더 나이 먹어가기 전에 여기 와야 될 건데 | |:--------------------------|:----------------------------------------------------------:|:------------------------------------------:| | 방언 통역기 출력 | 표준어: 그러니까 저 어머니 더 나이 먹어가기 전에 여기 와야 될 건데 | 방언: 게난 저 어멍 더 나이 먹어가기 전에 여기 와야 될 건디 | | 입력 문장 | 방언: 자이 폴에 독솔 막 난 거 보난 언 생이우다 | 표준어: 재 팔에 닭살이 막 난 거 보니, 추운 모양이다 | |:--------------------------|:----------------------------------------------------------:|:-------------------------------------:| | 방언 통역기 출력 | 표준어: 쟤 팔에 닭살이 많이 난 거 보니까 추운 모양입니다 | 방언: 재 폴에 독솔 막 난 거 보난 언 생이우다 | ## Bias, Risks, and Limitations 이 모델은 현재제주 방언에 초점을 맞춘 특정 데이터 세트에 맞춰 미세 조정되었기 때문에 다른 방언이나 언어에 대한 성능이 제한될 수 있습니다. ## How to Get Started with the Model ``` import transformers import torch model_id = "sjbaek/gemma2-2b-it-korean-dialect" tokenizer = transformers.AutoTokenizer.from_pretrained(model_id, add_eos_token=True) pipeline = transformers.pipeline( "text-generation", model=model_id, tokenizer=tokenizer, torch_dtype=torch.float16, device_map="auto", max_new_tokens = 512, ) def dialect_to_standard(text, dialect_type): return [ { "role":"user", "content": "Convert the following sentence or word which is {}'s dialect to standard Korean:\n\n{}".format(dialect_type, text) } ] def standard_to_dialect(text, dialect_type): return [ { "role":"user", "content": "Convert the following sentence or word which is standard Korean to {}'s dialect :\n\n{}".format(dialect_type, text) } ] outputs = pipeline( dialect_to_standard("우리 동생도 요번에 월요일날 미깡 타카부댄 내려왔당 못 타난", "제주도"), do_sample=True, temperature=0.1, top_p=0.90, add_special_tokens=True ) print(outputs[0]["generated_text"][-1]) # {'role': 'assistant', 'content': '우리 동생도 요번에 월요일날 귤 타고 왔다가 못 타니까'} outputs = pipeline( standard_to_dialect("그러니깐 저 어머니 더 나이 먹어가기 전에 여기 와야 될 건데", "제주도"), do_sample=True, temperature=0.1, top_p=0.90, add_special_tokens=True ) print(outputs[0]["generated_text"][-1]) # {'role': 'assistant', 'content': '그러니깐 저 어머니 더 나이 먹어가기 전에 여기 와야 될 건데'} ``` ### Training Data [AI_HUB 중·노년층 한국어 방언 데이터 (충청도, 전라도, 제주도)](https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71558) ## TODO - 충청도 방언 변환 기능 (v0.3.0) - 전라도 방언 변환 기능 (v0.4.0) - 경상도 방언 변환 기능 (v0.5.0) - 강원도 방언 변환 기능 (v1.0.0)