RAG 관련 문의 드립니다 :)
안녕하세요.
좋은 모델 만들어주셔서 너무 잘 사용하고 있습니다 :)
질문드릴건 RAG 관련인데요.
포인트는 "llama3.2-3B 모델에서 한글을 embedding해서 VectorDB에 넣어도 RAG를 사용할 수 있나요?" 입니다.
만약 가능하다면 어떤 embedding 모델을 사용해야할까요?
제가 정확하게 모르는 걸 수도 있지만, 제 생각에는 각각 모델에 사용되는 embedding 모델이 하나여야 한다고 생각합니다. 왜냐면 embedding 작업이 모델이 이해할 수 있게 특정 기준을 갖고 각 단어들을 수로 변환하는거라면, 그 기준이 변해서는 안되기 때문입니다.
근데 RAG를 사용하기 위해서 embedding을 하려고 보니, llama3.2가 원래 한국어를 지원하지 않기 때문에, 아래 영상의 방식대로 embedding을 해서 VectorDB를 구축 할 경우 RAG가 제대로 동작하지 않을 것 같다는 생각이 들었습니다.
(※ https://www.youtube.com/watch?v=vVGTegRvXg8)
그래서 다시 질문을 정리해서 드리면 아래와 같습니다.
"올려주신 한국어 Fine Turning 모델에서 한글 데이터를 embedding해서 VectorDB를 구축해도 RAG를 사용할 수 있나요? 가능하다면 어떤 embedding 모델로 embedding을 해야할까요?"
안녕하세요. 임현석 연구원입니다.
일반적으로 활용하는 embedding model은 "BAAI/bge-m3"라고 알고 있습니다.
쿼리와 Context(혹은 chunk 단위로 구성된 chunk 문서들)는 embedding 모델을 통해 vector representation을 얻게 될텐데, 저는 llama3.2-3b 모델이 아닌 별개의 embedding 모델(ex. bge-m3)을 통해서 VectorDB를 구성하는 것을 추천드립니다!
답변이 늦었네요 ㅎㅎ
저는 모델을 학습할 때 사용했던 embedding 모델과 VectorDB를 구성할 때 사용하는 embedding 모델이 같아야 할거라고 생각했는데 아니었나보군요. 다행입니다 ㅎㅎ
답변 감사합니다 :)
하나 새로 생긴 질문이 있는데, blossom을 사용 할 때, 가끔씩 동일한 답변을 반복하는 경우가 있는데 왜 그런지 그리고 어떻게 해결 혹은 조치 할 수 있는지 알 수 있을까요?
우선은 ollama가 일정 시간 이상 동작하면 정지하게 하려는데 궁여지책인듯하여,
혹시나 하는 마음에 해결책이나 조치 방법을 여쭤봅니다 :)
종종 동일한 답변을 반복하는 경우가 존재합니다.
이는 repetition_penalty 파라미터를 건드려주시면 이런 현상은 좀 줄어들겁니다! (디폴트는 1.0으로 되어 있고, 1.1 혹은 1.2 사용하시면 반복하는게 좀 줄어들겁니다!)