maywell/Mistral-ko-7B-v0.1 · 토크나이저 관련 질문입니다.

Mar 14

안녕하세요, 먼저 좋은 모델을 공개해주셔서 감사합니다.

제가 궁금한것은 다름이아니라, tokenizer 관련하여 질문이 있습니다.

mistral의 경우 tokenizer.json이 아닌 tokenizer.model을 사용하였습니다.
maywell 님께서 사용하신것은 beomi님의 tokenizer인거같은데, 어떻게 학습을 진행한것인지 궁금합니다.

제가 아래 조건으로 Fine-Tuning을 진행해보았을때 에러가 계속 발생하였어서 여쭤봅니다...
모델 : Mistral-7b
토크나이저 : llama-ko-7b

maywell

Owner Mar 14

토크나이저를 확장을 하시려면 토크나이저 파일뿐만 아닌 모델에 수정이 필요합니다.

import torch
from transformers import BertTokenizer, BertModel

tokenizer = BertTokenizer.from_pretrained("bert-base-cased") #
model = BertModel.from_pretrained("bert-base-cased")

print(len(tokenizer))  # 28996
tokenizer.add_tokens(["NEW_TOKEN"])
print(len(tokenizer))  # 28997

model.resize_token_embeddings(len(tokenizer))

해당 예시처럼 모델 토큰 임베딩을 재정의하고 모델을 다시 저장한 후 시도하시는 것을 추천드립니다.
코드 출처 - https://arca.live/b/alpaca/87641150

만약 본인이 단일 모델 학습에 500만원 이상 쓰실 생각이 없으시다면 토크나이저 확장을 직접 시도하시는것은 강력히 비추천드립니다.
beomi님 repo에 가시면 토크나이저 확장 된 좋은 모델이 많이 있습니다.

관심 가져주셔서 감사합니다. 좋은 저녁 되세요.

maywell changed discussion status to closed Mar 31