Spaces:

fahmiaziz
/

agentic-rag

Sleeping

App Files Files Community

fahmiaziz98 commited on May 9

Commit

986437f

1 Parent(s): 31a1fee

init

Browse files

Files changed (4) hide show

app.py +51 -56
src/llm/llm_interface.py +2 -2
src/tools_retrieval/retriever.py +3 -2
src/workflow.py +1 -2

app.py CHANGED Viewed

@@ -6,18 +6,16 @@ from src.tools_retrieval.retriever import RetrieverManager
 from src.workflow import RAGWorkflow
 from src.utils import (
     logger,
-    convert_document_to_markdown,
-    save_to_markdown,
     determine_top_k,
     determine_reranking_top_n
 )
 UPLOAD_FOLDER = "uploads/"
 PERSIST_DIRECTORY = "./chroma_db"
 os.makedirs(UPLOAD_FOLDER, exist_ok=True)
 os.makedirs(PERSIST_DIRECTORY, exist_ok=True)
 if "messages" not in st.session_state:
     st.session_state.messages = []
 if "retriever" not in st.session_state:
@@ -27,7 +25,6 @@ if "vector_store" not in st.session_state:
 if "workflow" not in st.session_state:
     st.session_state.workflow = None
 st.set_page_config(
     page_title="RAG Chatbot",
     layout="wide",
@@ -35,76 +32,74 @@ st.set_page_config(
 )
 st.title("Agentic RAG Chatbot")
 with st.sidebar:
     st.header("Upload")
     uploaded_file = st.file_uploader("Upload Document", type=["pdf", "xlsx", "docx", "txt"])
     process_button = st.button("Process Document")
-    if uploaded_file and process_button:
-        with st.spinner("Processing Document..."):
-            file_path = os.path.join(UPLOAD_FOLDER, uploaded_file.name)
-            with open(file_path, "wb") as f:
-                f.write(uploaded_file.getbuffer())
-            doc_processor = DocumentProcessor()
-            chunks = doc_processor.load_and_split_pdf(file_path)
-            vector_store_manager = VectorStoreManager()
-            vector_store = vector_store_manager.index_documents(chunks)
-            st.session_state.vector_store = vector_store
-            st.success("Document processed and indexed successfully!")
-            top_k = determine_top_k(len(chunks))
-            top_n = determine_reranking_top_n(top_k)
-            retriever_manager = RetrieverManager(vector_store)
-            retriever_tool = retriever_manager.create_retriever(
-                documents=chunks,
-                top_n=top_n,
-                k=top_k
-            )
-            st.session_state.retriever = retriever_tool
-            st.success("Retriever tool created successfully!")
-            rag_workflow = RAGWorkflow(retriever_tool)
-            workflow = rag_workflow.compile()
-            st.session_state.workflow = workflow
-# Display chat messages
 for message in st.session_state.messages:
     with st.chat_message(message["role"]):
         st.markdown(message["content"])
 if prompt := st.chat_input("Ask a question about your document"):
-    # Add user message to chat history
     st.session_state.messages.append({"role": "user", "content": prompt})
     with st.chat_message("user"):
-        st.markdown(prompt)
-    # Generate response
     with st.chat_message("assistant"):
-        if st.session_state.retriever is None:
-            final_response = "Please upload a PDF document first."
         else:
-            with st.spinner("Thinking..."):
-                # Retrieve relevant documents
-                inputs = {
-                    "messages": [
-                        ("user", prompt),
-                    ]
-                }
-                # Generate response using workflow
-                if st.session_state.workflow is not None:
                     response = st.session_state.workflow.invoke(inputs)
                     final_response = response["messages"][-1].content
-                else:
-                    final_response = "Please upload a PDF document first."
         st.markdown(final_response)
         st.session_state.messages.append({"role": "assistant", "content": final_response})
-# Add clear chat button
 if st.sidebar.button("Clear Chat"):
-    st.session_state.messages = []

 from src.workflow import RAGWorkflow
 from src.utils import (
     logger,
     determine_top_k,
     determine_reranking_top_n
 )
 UPLOAD_FOLDER = "uploads/"
 PERSIST_DIRECTORY = "./chroma_db"
 os.makedirs(UPLOAD_FOLDER, exist_ok=True)
 os.makedirs(PERSIST_DIRECTORY, exist_ok=True)
+# Initialize session state
 if "messages" not in st.session_state:
     st.session_state.messages = []
 if "retriever" not in st.session_state:
 if "workflow" not in st.session_state:
     st.session_state.workflow = None
 st.set_page_config(
     page_title="RAG Chatbot",
     layout="wide",
 )
 st.title("Agentic RAG Chatbot")
+def process_document_upload(file_obj):
+    file_path = os.path.join(UPLOAD_FOLDER, file_obj.name)
+    with open(file_path, "wb") as f:
+        f.write(file_obj.getbuffer())
+    return file_path
 with st.sidebar:
     st.header("Upload")
     uploaded_file = st.file_uploader("Upload Document", type=["pdf", "xlsx", "docx", "txt"])
     process_button = st.button("Process Document")
+    if uploaded_file and process_button:
+        with st.spinner("Processing Document..."):
+            try:
+                file_path = process_document_upload(uploaded_file)
+                doc_processor = DocumentProcessor()
+                chunks = doc_processor.load_and_split_pdf(file_path)
+                vector_store_manager = VectorStoreManager()
+                vector_store = vector_store_manager.index_documents(chunks)
+                st.session_state.vector_store = vector_store
+                st.success("Document processed and indexed successfully!")
+                top_k = determine_top_k(len(chunks))
+                top_n = determine_reranking_top_n(top_k)
+                retriever_manager = RetrieverManager(vector_store)
+                retriever_tool = retriever_manager.create_retriever(
+                    documents=chunks,
+                    top_n=top_n,
+                    k=top_k
+                )
+                st.session_state.retriever = retriever_tool
+                st.success("Retriever tool created successfully!")
+                rag_workflow = RAGWorkflow(retriever_tool)
+                workflow = rag_workflow.compile()
+                st.session_state.workflow = workflow
+            except Exception as e:
+                logger.error(f"Error processing document: {e}")
+                st.error(f"Error processing document: {e}")
 for message in st.session_state.messages:
     with st.chat_message(message["role"]):
         st.markdown(message["content"])
 if prompt := st.chat_input("Ask a question about your document"):
     st.session_state.messages.append({"role": "user", "content": prompt})
     with st.chat_message("user"):
+        st.markdown(prompt)
     with st.chat_message("assistant"):
+        if st.session_state.workflow is None:
+            final_response = "Please upload a document first."
         else:
+            try:
+                with st.spinner("Thinking..."):
+                    inputs = {"messages": [("user", prompt)]}
                     response = st.session_state.workflow.invoke(inputs)
                     final_response = response["messages"][-1].content
+            except Exception as e:
+                logger.error(f"Error invoking workflow: {e}")
+                final_response = f"An error occurred while processing your request: {e}"
         st.markdown(final_response)
         st.session_state.messages.append({"role": "assistant", "content": final_response})
 if st.sidebar.button("Clear Chat"):
+    st.session_state.messages = []

src/llm/llm_interface.py CHANGED Viewed

@@ -5,6 +5,6 @@ llm_groq = ChatGroq(
     model="llama3-8b-8192",
     temperature=0.1,
     api_key=os.getenv("GROQ_API_KEY"),
-    # max_retries=3,
-    # streaming=True,
 )

     model="llama3-8b-8192",
     temperature=0.1,
     api_key=os.getenv("GROQ_API_KEY"),
+    max_retries=3,
+    streaming=True,
 )

src/tools_retrieval/retriever.py CHANGED Viewed

@@ -45,8 +45,9 @@ class RetrieverManager:
     def create_retriever(self, documents, top_n: int, k: int = 3, ):
         base_retriever = self.create_ensemble_retriever(texts=documents, k=k)
         compression_retriever = self.create_compression_retriever(base_retriever=base_retriever, top_n=top_n)
-        return create_retriever_tool(
             compression_retriever,
             "retrieve_docs",
             "use tools for search through the user's provided documents and return relevant information about user query.",
-        )

     def create_retriever(self, documents, top_n: int, k: int = 3, ):
         base_retriever = self.create_ensemble_retriever(texts=documents, k=k)
         compression_retriever = self.create_compression_retriever(base_retriever=base_retriever, top_n=top_n)
+        retriever_tool = create_retriever_tool(
             compression_retriever,
             "retrieve_docs",
             "use tools for search through the user's provided documents and return relevant information about user query.",
+        )
+        return retriever_tool

src/workflow.py CHANGED Viewed

@@ -9,13 +9,12 @@ from langgraph.graph import END, StateGraph, START
 from langgraph.prebuilt import ToolNode, tools_condition
 from .state import AgentState
 from src.llm.llm_interface import llm_groq
 class GradeDocs(BaseModel):
     binary_score: str = Field(description="Relevance score 'yes' or 'no'")
 class RAGWorkflow:
     def __init__(self, retriever_tool):
         self.workflow = StateGraph(AgentState)

 from langgraph.prebuilt import ToolNode, tools_condition
 from .state import AgentState
 from src.llm.llm_interface import llm_groq
 class GradeDocs(BaseModel):
     binary_score: str = Field(description="Relevance score 'yes' or 'no'")
 class RAGWorkflow:
     def __init__(self, retriever_tool):
         self.workflow = StateGraph(AgentState)