Spaces:

valeriylo
/

sample_rag

Running

App Files Files Community

valeriylo commited on Oct 7, 2023

Commit

4b442ac

1 Parent(s): cd053e7

Update app.py

Browse files

Files changed (1) hide show

app.py +23 -22

app.py CHANGED Viewed

@@ -10,48 +10,46 @@ from langchain.chains import ConversationalRetrievalChain
 from htmlTemplates import css, bot_template, user_template
 from langchain.llms import HuggingFaceHub, LlamaCpp
 from huggingface_hub import snapshot_download, hf_hub_download
-#from prompts import CONDENSE_QUESTION_PROMPT
 repo_name = "IlyaGusev/saiga2_13b_gguf"
 model_name = "model-q4_K.gguf"
 snapshot_download(repo_id=repo_name, local_dir=".", allow_patterns=model_name)
 def get_pdf_text(pdf_docs):
     text = ""
     for pdf in pdf_docs:
         pdf_reader = PdfReader(pdf)
         for page in pdf_reader.pages:
             text += page.extract_text()
     return text
 def get_text_chunks(text):
     text_splitter = CharacterTextSplitter(separator="\n",
-                                          chunk_size=500, #1000
-                                          chunk_overlap=30, #200
                                           length_function=len
-                                         )
     chunks = text_splitter.split_text(text)
     return chunks
 def get_vectorstore(text_chunks):
-    #embeddings = OpenAIEmbeddings()
     embeddings = HuggingFaceInstructEmbeddings(model_name="hkunlp/instructor-xl")
-    #embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-mpnet-base-v2")
     vectorstore = FAISS.from_texts(texts=text_chunks, embedding=embeddings)
     return vectorstore
 def get_conversation_chain(vectorstore, model_name):
     llm = LlamaCpp(model_path=model_name,
                    temperature=0.1,
                    top_k=30,
@@ -60,26 +58,27 @@ def get_conversation_chain(vectorstore, model_name):
                    n_ctx=2048,
                    n_parts=1,
                    echo=True
-                  )
-    #llm = ChatOpenAI()
     memory = ConversationBufferMemory(memory_key='chat_history', return_messages=True)
     conversation_chain = ConversationalRetrievalChain.from_llm(llm=llm,
-                                                               #condense_question_prompt=CONDENSE_QUESTION_PROMPT,
                                                                retriever=vectorstore.as_retriever(),
                                                                memory=memory,
                                                                return_source_documents=True
-                                                              )
-    return conversation_chain, conversation_chain['source_documents'][0]
 def handle_userinput(user_question):
     response = st.session_state.conversation({'question': user_question})
     st.session_state.chat_history = response['chat_history']
     for i, message in enumerate(st.session_state.chat_history):
@@ -90,6 +89,7 @@ def handle_userinput(user_question):
             st.write(bot_template.replace(
                 "{{MSG}}", message.content), unsafe_allow_html=True)
 # main code
 load_dotenv()
@@ -126,3 +126,4 @@ with st.sidebar:
             # create conversation chain
             st.session_state.conversation, retrieved_docs = get_conversation_chain(vectorstore, model_name)
             st.text_area(retrieved_docs)

 from htmlTemplates import css, bot_template, user_template
 from langchain.llms import HuggingFaceHub, LlamaCpp
 from huggingface_hub import snapshot_download, hf_hub_download
+# from prompts import CONDENSE_QUESTION_PROMPT
 repo_name = "IlyaGusev/saiga2_13b_gguf"
 model_name = "model-q4_K.gguf"
 snapshot_download(repo_id=repo_name, local_dir=".", allow_patterns=model_name)
 def get_pdf_text(pdf_docs):
     text = ""
     for pdf in pdf_docs:
         pdf_reader = PdfReader(pdf)
         for page in pdf_reader.pages:
             text += page.extract_text()
     return text
 def get_text_chunks(text):
     text_splitter = CharacterTextSplitter(separator="\n",
+                                          chunk_size=500,  # 1000
+                                          chunk_overlap=30,  # 200
                                           length_function=len
+                                          )
     chunks = text_splitter.split_text(text)
     return chunks
 def get_vectorstore(text_chunks):
+    # embeddings = OpenAIEmbeddings()
     embeddings = HuggingFaceInstructEmbeddings(model_name="hkunlp/instructor-xl")
+    # embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/paraphrase-multilingual-mpnet-base-v2")
     vectorstore = FAISS.from_texts(texts=text_chunks, embedding=embeddings)
     return vectorstore
 def get_conversation_chain(vectorstore, model_name):
     llm = LlamaCpp(model_path=model_name,
                    temperature=0.1,
                    top_k=30,
                    n_ctx=2048,
                    n_parts=1,
                    echo=True
+                   )
+    # llm = ChatOpenAI()
     memory = ConversationBufferMemory(memory_key='chat_history', return_messages=True)
     conversation_chain = ConversationalRetrievalChain.from_llm(llm=llm,
+                                                               # condense_question_prompt=CONDENSE_QUESTION_PROMPT,
                                                                retriever=vectorstore.as_retriever(),
                                                                memory=memory,
                                                                return_source_documents=True
+                                                               )
+    result = conversation_chain
+    return result, result['source_documents'][0]
 def handle_userinput(user_question):
     response = st.session_state.conversation({'question': user_question})
     st.session_state.chat_history = response['chat_history']
     for i, message in enumerate(st.session_state.chat_history):
             st.write(bot_template.replace(
                 "{{MSG}}", message.content), unsafe_allow_html=True)
 # main code
 load_dotenv()
             # create conversation chain
             st.session_state.conversation, retrieved_docs = get_conversation_chain(vectorstore, model_name)
             st.text_area(retrieved_docs)