Spaces:

SiraH
/

DQA-Llama2-4bit

Sleeping

App Files Files Community

SiraH commited on Oct 18, 2023

Commit

559a5f6

•

1 Parent(s): 78238f1

add file path method

Browse files

Files changed (1) hide show

app.py +23 -25

app.py CHANGED Viewed

@@ -203,29 +203,15 @@ def load_embeddings():
 def main():
     data = []
     msgs = StreamlitChatMessageHistory(key="langchain_messages")
     print(msgs)
     if "messages" not in st.session_state:
         st.session_state.messages = []
-    # DB_FAISS_UPLOAD_PATH = "vectorstores/db_faiss"
-    st.header("DOCUMENT QUESTION ANSWERING IS2")
-    directory = "data"
-    data_dir = UploadDoc(directory).create_document()
-    data.extend(data_dir)
-    #create vector from upload
-    #if len(data) > 0 :
-    sp_docs = split_docs(documents = data)
-    st.write(f"This document have {len(sp_docs)} chunks")
-    embeddings = load_embeddings()
-        # with st.spinner('Wait for create vector'):
-    db = FAISS.from_documents(sp_docs, embeddings)
-            # db.save_local(DB_FAISS_UPLOAD_PATH)
-            # st.write(f"Your model is already store in {DB_FAISS_UPLOAD_PATH}")
     llm = load_llama2_llamaCpp()
     qa_prompt = set_custom_prompt()
     #memory = ConversationBufferWindowMemory(k = 0, return_messages=True,  input_key= 'question', output_key='answer', memory_key="chat_history")
     #memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
     #doc_chain = load_qa_chain(llm, chain_type="stuff", prompt = qa_prompt)
@@ -233,16 +219,28 @@ def main():
     #embeddings = load_embeddings()
-    # uploaded_file = st.file_uploader('Choose your .pdf file', type="pdf")
-    # print(uploaded_file)
-    # if uploaded_file is not None:
-    #     pdf_reader = PdfReader(uploaded_file)
-    #     text = ""
-    #     for page in pdf_reader.pages:
-    #         text += page.extract_text()
-    #     print(text)
-    #     db = FAISS.from_texts(text, embeddings)
     memory = ConversationBufferMemory(memory_key="chat_history",
                               return_messages=True,
                               input_key="query",

 def main():
     data = []
+    sp_docs_list = []
     msgs = StreamlitChatMessageHistory(key="langchain_messages")
     print(msgs)
     if "messages" not in st.session_state:
         st.session_state.messages = []
     llm = load_llama2_llamaCpp()
     qa_prompt = set_custom_prompt()
+    embeddings = load_embeddings()
     #memory = ConversationBufferWindowMemory(k = 0, return_messages=True,  input_key= 'question', output_key='answer', memory_key="chat_history")
     #memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
     #doc_chain = load_qa_chain(llm, chain_type="stuff", prompt = qa_prompt)
     #embeddings = load_embeddings()
+    uploaded_file = st.file_uploader('Choose your .pdf file', type="pdf")
+    if uploaded_file is not None :
+        with NamedTemporaryFile(dir='PDF', suffix='.pdf', delete=False) as f:
+            f.write(uploaded_file.getbuffer())
+            print(f.name)
+            #filename = f.name
+            loader = PyPDFLoader(f.name)
+            pages = loader.load_and_split()
+            data.extend(pages)
+            #st.write(pages)
+            f.close()
+            os.unlink(f.name)
+            os.path.exists(f.name)
+    if len(data) > 0 :
+        embeddings = load_embeddings()
+        sp_docs = split_docs(documents = data)
+        st.write(f"This document have {len(sp_docs)} chunks")
+        st.write(sp_docs)
+        sp_docs_list.extend(sp_docs)
+    st.write(sp_docs_list)
+    db = FAISS.from_documents(sp_docs_list, embeddings)
     memory = ConversationBufferMemory(memory_key="chat_history",
                               return_messages=True,
                               input_key="query",