Spaces:

salgadev
/

docverifyrag

Running

App Files Files Community

elia-waefler commited on Apr 17

Commit

7d56215

•

1 Parent(s): a232b2b

added mock functionality

Browse files

Files changed (1) hide show

app.py +23 -25

app.py CHANGED Viewed

@@ -1,17 +1,17 @@
 import streamlit as st
 from dotenv import load_dotenv
 from PyPDF2 import PdfReader
-from langchain import embeddings
 from langchain.text_splitter import CharacterTextSplitter
 from langchain.embeddings import OpenAIEmbeddings, HuggingFaceInstructEmbeddings
 from langchain.vectorstores import FAISS
-from langchain.vectorstores import faiss
 from langchain.chat_models import ChatOpenAI
 from langchain.memory import ConversationBufferMemory
 from langchain.chains import ConversationalRetrievalChain
 import os
 import pickle
 from datetime import datetime
 css = '''
@@ -111,12 +111,16 @@ def handle_userinput(user_question):
             print(message)
             # Display AI response
             st.write(bot_template.replace("{{MSG}}", message.content), unsafe_allow_html=True)
             # Display source document information if available in the message
             if hasattr(message, 'source') and message.source:
                 st.write(f"Source Document: {message.source}", unsafe_allow_html=True)
 def safe_vec_store():
     os.makedirs('vectorstore', exist_ok=True)
     filename = 'vectores' + datetime.now().strftime('%Y%m%d%H%M') + '.pkl'
     file_path = os.path.join('vectorstore', filename)
@@ -127,18 +131,22 @@ def safe_vec_store():
         pickle.dump(vector_store, f)
 def main():
     load_dotenv()
     st.set_page_config(page_title="Doc Verify RAG", page_icon=":hospital:")
     st.write(css, unsafe_allow_html=True)
     st.subheader("Your documents")
-    pdf_docs = st.file_uploader("Upload your PDFs here and click on 'Process'", accept_multiple_files=True)
     filenames = [file.name for file in pdf_docs if file is not None]
     if st.button("Process"):
         with st.spinner("Processing"):
             loaded_vec_store = None
             for filename in filenames:
                 if ".pkl" in filename:
@@ -156,7 +164,12 @@ def main():
                 st.warning("merged to existing")
             st.session_state.vectorstore = vec
             st.session_state.conversation = get_conversation_chain(vec)
-            st.success("data loaded")
     if "conversation" not in st.session_state:
         st.session_state.conversation = None
@@ -176,31 +189,16 @@ def main():
         if st.button("Process Classification"):
             with st.spinner("Processing"):
-                loaded_vec_store = None
-                for filename in filenames:
-                    if ".pkl" in filename:
-                        file_path = os.path.join('vectorstore', filename)
-                        with open(file_path, 'rb') as f:
-                            loaded_vec_store = pickle.load(f)
-                raw_text = get_pdf_text(pdf_docs)
-                text_chunks = get_text_chunks(raw_text)
-                vec = get_vectorstore(text_chunks)
-                if loaded_vec_store:
-                    vec.merge_from(loaded_vec_store)
-                    st.warning("loaded vectorstore")
-                if "vectorstore" in st.session_state:
-                    vec.merge_from(st.session_state.vectorstore)
-                    st.warning("merged to existing")
-                st.session_state.vectorstore = vec
-                st.session_state.conversation = get_conversation_chain(vec)
-                st.success("data loaded")
         # Save and Load Embeddings
         if st.button("Save Embeddings"):
             if "vectorstore" in st.session_state:
                 safe_vec_store()
                 # st.session_state.vectorstore.save_local("faiss_index")
-                st.sidebar.success("safed")
             else:
                 st.sidebar.warning("No embeddings to save. Please process documents first.")

+import time
 import streamlit as st
 from dotenv import load_dotenv
 from PyPDF2 import PdfReader
 from langchain.text_splitter import CharacterTextSplitter
 from langchain.embeddings import OpenAIEmbeddings, HuggingFaceInstructEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.chat_models import ChatOpenAI
 from langchain.memory import ConversationBufferMemory
 from langchain.chains import ConversationalRetrievalChain
 import os
 import pickle
 from datetime import datetime
+from backend.generate_metadata import extract_metadata, ingest
 css = '''
             print(message)
             # Display AI response
             st.write(bot_template.replace("{{MSG}}", message.content), unsafe_allow_html=True)
+            # THIS DOESNT WORK, SOMEONE PLS FIX
             # Display source document information if available in the message
             if hasattr(message, 'source') and message.source:
                 st.write(f"Source Document: {message.source}", unsafe_allow_html=True)
 def safe_vec_store():
+    # USE VECTARA INSTEAD
     os.makedirs('vectorstore', exist_ok=True)
     filename = 'vectores' + datetime.now().strftime('%Y%m%d%H%M') + '.pkl'
     file_path = os.path.join('vectorstore', filename)
         pickle.dump(vector_store, f)
 def main():
     load_dotenv()
     st.set_page_config(page_title="Doc Verify RAG", page_icon=":hospital:")
     st.write(css, unsafe_allow_html=True)
+    st.session_state.classify = False
     st.subheader("Your documents")
+    pdf_docs = st.file_uploader("Upload your PDFs here and click on 'Process'", accept_multiple_files=not st.session_state.classify)
     filenames = [file.name for file in pdf_docs if file is not None]
     if st.button("Process"):
         with st.spinner("Processing"):
+            if st.session_state.classify:
+                # THE CLASSIFICATION APP
+                plain_text_doc = ingest(pdf_docs)
+            # NORMAL RAG
             loaded_vec_store = None
             for filename in filenames:
                 if ".pkl" in filename:
                 st.warning("merged to existing")
             st.session_state.vectorstore = vec
             st.session_state.conversation = get_conversation_chain(vec)
+        st.success("data loaded")
+        if st.session_state.classify:
+            # THE CLASSIFICATION APP
+            classification_result = extract_metadata(plain_text_doc)
+            st.write(classification_result)
     if "conversation" not in st.session_state:
         st.session_state.conversation = None
         if st.button("Process Classification"):
             with st.spinner("Processing"):
+                st.session_state.classify = True
+                time.sleep(3)
         # Save and Load Embeddings
         if st.button("Save Embeddings"):
             if "vectorstore" in st.session_state:
                 safe_vec_store()
                 # st.session_state.vectorstore.save_local("faiss_index")
+                st.sidebar.success("saved")
             else:
                 st.sidebar.warning("No embeddings to save. Please process documents first.")