언어모델 훈련에 관한 질문

#1
by kbuwel - opened

이 분야를 잘 모르는 초보입니다.
쉽게 이해 가능한 교제를 아직 못 찾아서 여러 커뮤니티를 전전중입니다.
구글 검색하다 이 곳을 발견해서 질문하게 되었습니다.
다른 게 아니고 언어모델을 재 스타일로 커스텀을하고싶습니다.
커스텀을하기 위해 토크나이저가 필요하다는거까지는 알게되었습니다.
gguf 모델의 경우 원본 파일이 필요하다라는것도 들었고요.
전 koboldcpp를 이용하고싶습니다.
시나리오 작성도되고 가상 채팅도 되는 모델을 원합니다.
님이 올려주신 언어모델이 잘 작동하는데 재 스타일로 만들고싶습니다.
제가 갖고있는 모델의 목록입니다.
added_tokens.json
config.json
model.safetensors
model.safetensors.index.json
model-00001-of-00003.safetensors
model-00002-of-00003.safetensors
model-00003-of-00003.safetensors
special_tokens_map.json
tokenizer.json
tokenizer.model
tokenizer_config.json
그리고 aihub에서 다운받은 텍스트파일이있습니다.
전 음성합성을 만들줄은 알고있습니다.
vits로 음성합성을 많이 만들어 보았습니다.
폴더/파일명|대본 이런식이죠.
그리고 대본 부분을 자모로 분리합니다.
그리고 학습을 시작하면 되는데 언어모델은 어떤식으로 학습을해야할까요?
제가 알고있는 커뮤니티에서는 문장단위로 분할하고 토큰화 작업을하고 학습하면 된다 정도로만 답변을합니다.
정말 이게 답니까?
제가 학습할 자료는 소설 위주입니다.
이걸로 문장단위로 분할하고 토큰화 작업을하고 학습만하면 님이 올려주신 언어모델처럼 가상채팅이 될까요?
제가 안녕 오늘 무엇을했어?라고 질문을 채팅창에 입력을하면 언어모델이 오늘 무엇 무엇을했어라고 답변이 가능할까요?
소설 위주의 텍스트라 좀 불안해서 질문 올리는겁니다.

Sign up or log in to comment