SucheRAG

Running

App Files Files Community

alexkueck commited on 14 days ago

Commit

1590faf

•

1 Parent(s): 7a812ee

Update utils.py

Browse files

Files changed (1) hide show

utils.py +4 -6

utils.py CHANGED Viewed

@@ -29,10 +29,9 @@ from pygments.lexers import guess_lexer,get_lexer_by_name
 from pygments.formatters import HtmlFormatter
 from langchain.chains import LLMChain, RetrievalQA
-from langchain_community.document_loaders import PyPDFLoader, WebBaseLoader, UnstructuredWordDocumentLoader, DirectoryLoader
 from langchain.document_loaders.blob_loaders.youtube_audio import YoutubeAudioLoader
-from langchain.document_loaders.generic import GenericLoader
-from langchain.document_loaders.parsers import OpenAIWhisperParser
 from langchain.schema import AIMessage, HumanMessage
 from langchain_community.llms import HuggingFaceHub
 from langchain_community.llms import HuggingFaceTextGenInference
@@ -47,7 +46,6 @@ from langchain import hub
 from langchain.output_parsers.openai_tools import PydanticToolsParser
 from langchain.prompts import PromptTemplate
 from langchain.schema import Document
-from langchain_community.tools.tavily_search import TavilySearchResults
 from langchain_community.vectorstores import Chroma
 from langchain_core.messages import BaseMessage, FunctionMessage
 from langchain_core.output_parsers import StrOutputParser
@@ -189,10 +187,10 @@ def document_loading_splitting():
 #Chroma DB die splits ablegen - vektorisiert...
 def document_storage_chroma(splits):
     #OpenAi embeddings----------------------------------
-    Chroma.from_documents(documents = splits, embedding = OpenAIEmbeddings(disallowed_special = ()),  persist_directory = PATH_WORK + CHROMA_DIR)
     #HF embeddings--------------------------------------
-    #Chroma.from_documents(documents = splits, embedding = HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2", model_kwargs={"device": "cpu"}, encode_kwargs={'normalize_embeddings': False}),  persist_directory = PATH_WORK + CHROMA_DIR)
 ############################################

 from pygments.formatters import HtmlFormatter
 from langchain.chains import LLMChain, RetrievalQA
+from langchain_community.document_loaders import PyPDFLoader,  UnstructuredWordDocumentLoader, DirectoryLoader
 from langchain.document_loaders.blob_loaders.youtube_audio import YoutubeAudioLoader
+from langchain.document_loaders import GenericLoader
 from langchain.schema import AIMessage, HumanMessage
 from langchain_community.llms import HuggingFaceHub
 from langchain_community.llms import HuggingFaceTextGenInference
 from langchain.output_parsers.openai_tools import PydanticToolsParser
 from langchain.prompts import PromptTemplate
 from langchain.schema import Document
 from langchain_community.vectorstores import Chroma
 from langchain_core.messages import BaseMessage, FunctionMessage
 from langchain_core.output_parsers import StrOutputParser
 #Chroma DB die splits ablegen - vektorisiert...
 def document_storage_chroma(splits):
     #OpenAi embeddings----------------------------------
+    #Chroma.from_documents(documents = splits, embedding = OpenAIEmbeddings(disallowed_special = ()),  persist_directory = PATH_WORK + CHROMA_DIR)
     #HF embeddings--------------------------------------
+    Chroma.from_documents(documents = splits, embedding = HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2", model_kwargs={"device": "cpu"}, encode_kwargs={'normalize_embeddings': False}),  persist_directory = PATH_WORK + CHROMA_DIR)
 ############################################