--- license: mit --- 학습 데이터 Kullmv2 dataset, alpaca instruction dataset, dolly 데이터셋, share GPT 데이터셋 , AIhub 한국어-영어 병렬 데이터셋 을 활용하여 사용 한국어 영어 병렬 데이터의 경우 번역을 해달라는 지시문의 형태로 변환후 instruction tuning tokenizer의 경우 beomi님의 llama2 tokenizer를 사용하여 학습을 진행하였으며, 모델의 초기 parameter의 경우 meta의 llama2-7b-hf를 사용하여 학습을 진행