Midm의 토크나이저 한국어 토큰 구성이 우수하고, 사용할 가치가 높다고 생각하여 연구 중입니다. 굳이 Midm repo의 토크나이저를 그대로 사용하지 않고, 라마 객체로 불러오도록 커스터마이징 한 이유는 다음과 같습니다. 1. 최근 대부분 모델들이 LlamaTokenizer를 베이스로 토크나이저를 만들고 있음 2. Midm의 내부 코드 구조 또한 대체 비슷한 구조를 따라가고 있고 비슷하나, 특정 커스텀 코드의 내용으로 인해, load시 Midm repo의 custom code가 작동해야 정상적으로 불러올 수 있음(폐쇄망에서는 불러올 때 repo 접속이 불가하여 오류 발생) 3. 다른 토크나이저에 Midm 토크나이저의 토큰을 추가하여 사용해보려 했으나, 비정상 작동(tokenize 후, decoding 시 띄어쓰기가 사라지는 문제 등) 4. tokenizer 추가 커스터마이징 이후, 정상적인 save, load 보장을 위함 이 레포는 KT-AI/midm-bitext-S-7B-inst-v1[https://huggingface.co/KT-AI/midm-bitext-S-7B-inst-v1]의 토크나이저 모델 옵션을 살짝 수정하여 AutoModel로 자유롭게 부르고 로드하도록 만든 것으로 KT-AI팀 요청 시 내려갈 수 있습니다.