---
license: mit
---

학습 데이터
Kullmv2 dataset, alpaca instruction dataset, dolly 데이터셋, share GPT 데이터셋 , AIhub 한국어-영어 병렬 데이터셋
을 활용하여 사용
한국어 영어 병렬 데이터의 경우 번역을 해달라는 지시문의 형태로 변환후 instruction tuning

tokenizer의 경우 beomi님의 llama2 tokenizer를 사용하여 학습을 진행하였으며,
모델의 초기 parameter의 경우 meta의 llama2-7b-hf를 사용하여 학습을 진행