Spaces:

anpigon
/

obsidian-qa-bot

Sleeping

App Files Files Community

anpigon commited on Jul 14

Commit

7b40096

•

1 Parent(s): e272fa2

Replaced HuggingFaceEmbeddings with HuggingFaceBgeEmbeddings, updated embedding normalization, and adjusted retriever weights.

Browse files

Files changed (1) hide show

app.py +9 -9

app.py CHANGED Viewed

@@ -6,7 +6,7 @@ from langchain_text_splitters import RecursiveCharacterTextSplitter, Language
 from langchain.embeddings import CacheBackedEmbeddings
 from langchain.storage import LocalFileStore
-from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_community.vectorstores import FAISS
 from langchain_community.retrievers import BM25Retriever
@@ -33,11 +33,11 @@ directories = ["./docs/obsidian-help", "./docs/obsidian-developer"]
 # 1. 문서 로더를 사용하여 모든 .md 파일을 로드합니다.
-md_documents = []
 for directory in directories:
     try:
         loader = ObsidianLoader(directory, encoding="utf-8")
-        md_documents.extend(loader.load())
     except Exception:
         pass
@@ -49,7 +49,7 @@ md_splitter = RecursiveCharacterTextSplitter.from_language(
     chunk_size=2000,
     chunk_overlap=200,
 )
-md_docs = md_splitter.split_documents(md_documents)
 # 3. 임베딩 모델을 사용하여 문서의 임베딩을 계산합니다.
@@ -59,8 +59,8 @@ if platform.system() == "Darwin":
 else:
     model_kwargs = {"device": "cpu"}
 model_name = "BAAI/bge-m3"
-encode_kwargs = {"normalize_embeddings": False}
-embeddings = HuggingFaceEmbeddings(
     model_name=model_name,
     model_kwargs=model_kwargs,
     encode_kwargs=encode_kwargs,
@@ -87,7 +87,7 @@ if os.path.exists(FAISS_DB_INDEX):
 else:
     # combined_documents 문서들과 cached_embeddings 임베딩을 사용하여
     # FAISS 데이터베이스 인스턴스를 생성합니다.
-    db = FAISS.from_documents(md_docs, cached_embeddings)
     # 생성된 데이터베이스 인스턴스를 지정한 폴더에 로컬로 저장합니다.
     db.save_local(folder_path=FAISS_DB_INDEX)
@@ -96,13 +96,13 @@ else:
 faiss_retriever = db.as_retriever(search_type="mmr", search_kwargs={"k": 10})
 # 문서 컬렉션을 사용하여 BM25 검색 모델 인스턴스를 생성합니다.
-bm25_retriever = BM25Retriever.from_documents(md_docs)  # 초기화에 사용할 문서 컬렉션
 bm25_retriever.k = 10  # 검색 시 최대 10개의 결과를 반환하도록 합니다.
 # EnsembleRetriever 인스턴스를 생성합니다.
 ensemble_retriever = EnsembleRetriever(
     retrievers=[bm25_retriever, faiss_retriever],  # 사용할 검색 모델의 리스트
-    weights=[0.6, 0.4],  # 각 검색 모델의 결과에 적용할 가중치
     search_type="mmr",  # 검색 결과의 다양성을 증진시키는 MMR 방식을 사용
 )

 from langchain.embeddings import CacheBackedEmbeddings
 from langchain.storage import LocalFileStore
+from langchain_community.embeddings import HuggingFaceBgeEmbeddings
 from langchain_community.vectorstores import FAISS
 from langchain_community.retrievers import BM25Retriever
 # 1. 문서 로더를 사용하여 모든 .md 파일을 로드합니다.
+md_docs = []
 for directory in directories:
     try:
         loader = ObsidianLoader(directory, encoding="utf-8")
+        md_docs.extend(loader.load())
     except Exception:
         pass
     chunk_size=2000,
     chunk_overlap=200,
 )
+splitted_docs = md_splitter.split_documents(md_docs)
 # 3. 임베딩 모델을 사용하여 문서의 임베딩을 계산합니다.
 else:
     model_kwargs = {"device": "cpu"}
 model_name = "BAAI/bge-m3"
+encode_kwargs = {"normalize_embeddings": True}
+embeddings = HuggingFaceBgeEmbeddings(
     model_name=model_name,
     model_kwargs=model_kwargs,
     encode_kwargs=encode_kwargs,
 else:
     # combined_documents 문서들과 cached_embeddings 임베딩을 사용하여
     # FAISS 데이터베이스 인스턴스를 생성합니다.
+    db = FAISS.from_documents(splitted_docs, cached_embeddings)
     # 생성된 데이터베이스 인스턴스를 지정한 폴더에 로컬로 저장합니다.
     db.save_local(folder_path=FAISS_DB_INDEX)
 faiss_retriever = db.as_retriever(search_type="mmr", search_kwargs={"k": 10})
 # 문서 컬렉션을 사용하여 BM25 검색 모델 인스턴스를 생성합니다.
+bm25_retriever = BM25Retriever.from_documents(splitted_docs)  # 초기화에 사용할 문서 컬렉션
 bm25_retriever.k = 10  # 검색 시 최대 10개의 결과를 반환하도록 합니다.
 # EnsembleRetriever 인스턴스를 생성합니다.
 ensemble_retriever = EnsembleRetriever(
     retrievers=[bm25_retriever, faiss_retriever],  # 사용할 검색 모델의 리스트
+    weights=[0.5, 0.5],  # 각 검색 모델의 결과에 적용할 가중치
     search_type="mmr",  # 검색 결과의 다양성을 증진시키는 MMR 방식을 사용
 )