한국어 pretrainng 할때 training방법에 대해 몇개 질문 있습니다.

#2
by beomgon - opened

안녕하세요, beomi님
그레이비랩에서 NLP/llm을 연구하고 있는 jake입니다.

먼저 solar ko 버전을 공유해 주셔서 너무 감사합니다.
몇가지 궁금한 게 있어 글을 남깁니다.

  1. aihub및 몇몇 사이트에서 한국어 데이터를 취해서 pretraining을 하셨는데, 이때 영어 corpus도 포함이 된 건가요??
    포함이 안되었다면 영어에 대한 성능이 떨어질 것 같은데요.. vocab에서 영어의 비중이 높은데 training을 할때 막상 영어가 별로 없으면
    이로 인한 문제될 만한게 없는지 궁금해서 문의드립니다.
    한국어 전용 버전이라면 영어의 비중을 좀 줄이고,. 한국어를 더 추가하는 것에 대해서 어떻게 생각하시는지 궁금합니다.
  2. pre training시 full model에 대해서 training을 하신 건지 lora등의 최적화 방법 등이 이용되었는지 궁금합니다.

감사합니다.
jake 드림/

Owner

안녕하세요.

  1. 기재된 Corpus 부분에서 영문을 의도적으로 배제하지는 않았습니다. 따라서, 번역 코퍼스 등에 있는 외국어는 모두 포함되어있습니다. 학습시 영어토큰 관련해서는 어차피 Cross Entropy Loss 계산시점에 새 데이터에 있는 토큰만 업데이트 되기 때문에 영문 비중이 적음으로 인해 한국어 성능이 낮아지지는 않습니다. (단, 기존 영문 기반 지식 등의 Transfer는 고려하지 않았습니다.) 이미 OPEN-SOLAR-KO는 거의 한국어 전용 모델인데, 영문을 어떻게 줄이는지에 대해서는 질문이 모호하네요.

  2. 제가 올리는 Continual Pretrain 계열은, 따로 명시하지 않는 이상 Full training을 기본으로 합니다.

감사합니다.

beomi changed discussion status to closed

Sign up or log in to comment