Spaces:

anpigon
/

obsidian-qa-bot

Sleeping

App Files Files Community

anpigon commited on May 3, 2024

Commit

84af0cb

1 Parent(s): f46dfb5

Update document loader and add platform-specific model configuration

Browse files

Files changed (1) hide show

app.py +12 -17

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import os
 import gradio as gr
-from langchain_community.document_loaders import TextLoader
 from langchain_text_splitters import RecursiveCharacterTextSplitter, Language
 from langchain.embeddings import CacheBackedEmbeddings
@@ -26,6 +26,7 @@ from langchain_core.runnables import RunnablePassthrough
 from langchain_groq import ChatGroq
 from langchain_community.llms import HuggingFaceHub
 from langchain_google_genai import GoogleGenerativeAI
 directories = ["./docs/obsidian-help", "./docs/obsidian-developer"]
@@ -34,20 +35,11 @@ directories = ["./docs/obsidian-help", "./docs/obsidian-developer"]
 # 1. 문서 로더를 사용하여 모든 .md 파일을 로드합니다.
 md_documents = []
 for directory in directories:
-    # os.walk를 사용하여 root_dir부터 시작하는 모든 디렉토리를 순회합니다.
-    for dirpath, dirnames, filenames in os.walk(directory):
-        # 각 디렉토리에서 파일 목록을 확인합니다.
-        for file in filenames:
-            # 파일 확장자가 .md인지 확인하고, 경로 내 '*venv/' 문자열이 포함되지 않는지도 체크합니다.
-            if (file.endswith(".md")) and "*venv/" not in dirpath:
-                try:
-                    # TextLoader를 사용하여 파일의 전체 경로를 지정하고 문서를 로드합니다.
-                    loader = TextLoader(os.path.join(dirpath, file), encoding="utf-8")
-                    # 로드한 문서를 분할하여 documents 리스트에 추가합니다.
-                    md_documents.extend(loader.load())
-                except Exception:
-                    # 파일 로드 중 오류가 발생하면 이를 무시하고 계속 진행합니다.
-                    pass
 # 2. 청크 분할기를 생성합니다.
@@ -62,8 +54,11 @@ md_docs = md_splitter.split_documents(md_documents)
 # 3. 임베딩 모델을 사용하여 문서의 임베딩을 계산합니다.
 # 허깅페이스 임베딩 모델 인스턴스를 생성합니다. 모델명으로 "BAAI/bge-m3 "을 사용합니다.
 model_name = "BAAI/bge-m3"
-model_kwargs = {"device": "mps"}
 encode_kwargs = {"normalize_embeddings": False}
 embeddings = HuggingFaceEmbeddings(
     model_name=model_name,
@@ -112,7 +107,7 @@ ensemble_retriever = EnsembleRetriever(
 )
 # 6. CohereRerank 모델을 사용하여 재정렬을 수행합니다.
-compressor = CohereRerank(model="rerank-multilingual-v3.0")
 compression_retriever = ContextualCompressionRetriever(
     base_compressor=compressor,
     base_retriever=ensemble_retriever,

 import os
 import gradio as gr
+from langchain_community.document_loaders import ObsidianLoader
 from langchain_text_splitters import RecursiveCharacterTextSplitter, Language
 from langchain.embeddings import CacheBackedEmbeddings
 from langchain_groq import ChatGroq
 from langchain_community.llms import HuggingFaceHub
 from langchain_google_genai import GoogleGenerativeAI
+import platform
 directories = ["./docs/obsidian-help", "./docs/obsidian-developer"]
 # 1. 문서 로더를 사용하여 모든 .md 파일을 로드합니다.
 md_documents = []
 for directory in directories:
+    try:
+        loader = ObsidianLoader(directory, encoding="utf-8")
+        md_documents.extend(loader.load())
+    except Exception:
+        pass
 # 2. 청크 분할기를 생성합니다.
 # 3. 임베딩 모델을 사용하여 문서의 임베딩을 계산합니다.
 # 허깅페이스 임베딩 모델 인스턴스를 생성합니다. 모델명으로 "BAAI/bge-m3 "을 사용합니다.
+if platform.system() == "Darwin":
+    model_kwargs = {"device": "mps"}
+else:
+    model_kwargs = {"device": "cpu"}
 model_name = "BAAI/bge-m3"
 encode_kwargs = {"normalize_embeddings": False}
 embeddings = HuggingFaceEmbeddings(
     model_name=model_name,
 )
 # 6. CohereRerank 모델을 사용하여 재정렬을 수행합니다.
+compressor = CohereRerank(model="rerank-multilingual-v3.0", top_n=5)
 compression_retriever = ContextualCompressionRetriever(
     base_compressor=compressor,
     base_retriever=ensemble_retriever,