Spaces:

Contentwise
/

langchain-streamlit-demo

Paused

App Files Files Community

fsal commited on Feb 14, 2024

Commit

9032eee

1 Parent(s): 99a01d3

update chains

Browse files

Files changed (6) hide show

Dockerfile +3 -1
langchain-streamlit-demo/app.py +59 -42
langchain-streamlit-demo/defaults.py +22 -5
langchain-streamlit-demo/llm_resources.py +48 -27
langchain-streamlit-demo/research_assistant/search/web.py +1 -1
requirements.txt +2 -0

Dockerfile CHANGED Viewed

@@ -1,6 +1,8 @@
-FROM python:3.11-slim-bookworm
 RUN adduser --uid 1000 --disabled-password --gecos '' appuser
 USER 1000
 ENV PYTHONDONTWRITEBYTECODE=1 \

+FROM python:3.11
+#slim-bookworm
 RUN adduser --uid 1000 --disabled-password --gecos '' appuser
+RUN apt-get update && apt-get install gcc tesseract-ocr -y
 USER 1000
 ENV PYTHONDONTWRITEBYTECODE=1 \

langchain-streamlit-demo/app.py CHANGED Viewed

@@ -18,8 +18,7 @@ from langchain.schema.retriever import BaseRetriever
 from langchain_community.callbacks import StreamlitCallbackHandler
 from langsmith.client import Client
 from llm_resources import (
-    # get_agent,
-    get_doc_agent,
     get_llm,
     get_runnable,
     get_texts_and_multiretriever,
@@ -396,15 +395,19 @@ get_llm_args = dict(
     # },
 )
 get_llm_args_temp_zero = get_llm_args | {"temperature": 0.0}
-st.session_state.llm = get_llm(**get_llm_args)
 # --- Chat History ---
 for msg in STMEMORY.messages:
     if msg.content and msg.type in ("ai", "assistant", "human", "user"):
         st.chat_message(
             msg.type,
             avatar="🦜" if msg.type in ("ai", "assistant") else None,
-        ).write(msg.content)
 # --- Current Chat ---
@@ -423,10 +426,11 @@ if st.session_state.llm:
     # --- Chat Input ---
     prompt = st.chat_input(placeholder="Ask me a question!")
-    if question and question != "--":
         prompt = question
-    if prompt:
-        st.chat_message("user").write(prompt)
         feedback_update = None
         feedback = None
@@ -441,7 +445,7 @@ if st.session_state.llm:
                 config: Dict[str, Any] = dict(
                     callbacks=callbacks,
                     tags=["Streamlit Chat"],
-                    verbose=True,
                     return_intermediate_steps=False,
                 )
                 if st.session_state.provider == "Anthropic":
@@ -456,8 +460,7 @@ if st.session_state.llm:
             # )
             full_response: Union[str, None] = None
-            # stream_handler = StreamHandler(message_placeholder)
-            # callbacks.append(stream_handler)
             message_placeholder = st.empty()
             default_tools = [
                 # DuckDuckGoSearchRun(),
@@ -470,7 +473,9 @@ if st.session_state.llm:
                 #     search_llm=get_llm(**get_llm_args_temp_zero),  # type: ignore
                 #     writer_llm=get_llm(**get_llm_args_temp_zero),  # type: ignore
                 # )
-                st_callback = StreamlitCallbackHandler(st.container())
                 callbacks.append(st_callback)
                 # @tool("web-research-assistant")
@@ -513,46 +518,58 @@ if st.session_state.llm:
                 @tool("user-document-chat")
                 def doc_chain_tool(input_str: str, callbacks: Callbacks = None):
-                    """Always use this tool at least once. Input should be a question."""
-                    return st.session_state.doc_chain.invoke(
                         input_str,
                         config=get_config(callbacks),
                     )
-                doc_chain_agent = get_doc_agent(
-                    [doc_chain_tool],
-                )
-                @tool("document-question-tool")
-                def doc_question_tool(input_str: str, callbacks: Callbacks = None):
-                    """This tool is an AI assistant with access to the user's uploaded document.
-                    Input should be one or more questions, requests, instructions, etc.
-                    If the user's meaning is unclear, perhaps the answer is here.
-                    Generally speaking, try this tool before conducting web research.
-                    """
-                    return doc_chain_agent.invoke(
-                        input_str,
-                        config=get_config(callbacks),
-                    )
-                TOOLS = [doc_question_tool] + TOOLS
-                # st.session_state.chain = get_agent(
-                #     TOOLS,
-                #     STMEMORY,
-                #     st.session_state.llm,
-                #     callbacks,
-                # )
-                # else:
-                st.session_state.chain = get_runnable(
-                    True,  # use_document_chat,
-                    document_chat_chain_type,
                     st.session_state.llm,
-                    st.session_state.retriever,
-                    MEMORY,
-                    chat_prompt,
-                    prompt,
                 )
             # --- LLM call ---
             try:

 from langchain_community.callbacks import StreamlitCallbackHandler
 from langsmith.client import Client
 from llm_resources import (
+    get_agent,
     get_llm,
     get_runnable,
     get_texts_and_multiretriever,
     # },
 )
 get_llm_args_temp_zero = get_llm_args | {"temperature": 0.0}
+st.session_state.llm = get_llm(**get_llm_args_temp_zero)
 # --- Chat History ---
 for msg in STMEMORY.messages:
     if msg.content and msg.type in ("ai", "assistant", "human", "user"):
+        content = (
+            # msg.content.split("-" * 50)[1] if ("-" * 50) in msg.content else
+            msg.content
+        )
         st.chat_message(
             msg.type,
             avatar="🦜" if msg.type in ("ai", "assistant") else None,
+        ).write(content)
 # --- Current Chat ---
     # --- Chat Input ---
     prompt = st.chat_input(placeholder="Ask me a question!")
+    if question and question != "--" and not prompt:
         prompt = question
+    if not uploaded_file:
+        st.error("Please upload a PDF to use the document chat feature.")
+    elif prompt:
         feedback_update = None
         feedback = None
                 config: Dict[str, Any] = dict(
                     callbacks=callbacks,
                     tags=["Streamlit Chat"],
+                    verbose=False,
                     return_intermediate_steps=False,
                 )
                 if st.session_state.provider == "Anthropic":
             # )
             full_response: Union[str, None] = None
             message_placeholder = st.empty()
             default_tools = [
                 # DuckDuckGoSearchRun(),
                 #     search_llm=get_llm(**get_llm_args_temp_zero),  # type: ignore
                 #     writer_llm=get_llm(**get_llm_args_temp_zero),  # type: ignore
                 # )
+                st_callback = StreamlitCallbackHandler(
+                    st.container(), expand_new_thoughts=False
+                )
                 callbacks.append(st_callback)
                 # @tool("web-research-assistant")
                 @tool("user-document-chat")
                 def doc_chain_tool(input_str: str, callbacks: Callbacks = None):
+                    """Usa sempre questo strumento almeno una volta. L'input dovrebbe essere una domanda."""
+                    # """Always use this tool at least once. Input should be a question."""
+                    response = st.session_state.doc_chain.invoke(
                         input_str,
                         config=get_config(callbacks),
                     )
+                    with st.sidebar.expander("Sources"):
+                        for source in response["source_documents"][:3]:
+                            st.markdown("-" * 50)
+                            st.markdown(source.page_content)
+                    return response["output_text"]
+                # doc_chain_agent = get_doc_agent(
+                #     [doc_chain_tool],
+                #     st.session_state.llm,
+                # )
+                # @tool("document-question-tool")
+                # def doc_question_tool(input_str: str, callbacks: Callbacks = None):
+                #     """Questo strumento è un assistente AI con accesso al documento caricato dall'utente.
+                #     L'input dovrebbe essere una o più domande, richieste, istruzioni, ecc.
+                #     """
+                #     # """This tool is an AI assistant with access to the user's uploaded document.
+                #     # Input should be one or more questions, requests, instructions, etc.
+                #     # If the user's meaning is unclear, perhaps the answer is here.
+                #     # Generally speaking, try this tool before conducting web research.
+                #     # """
+                #     return doc_chain_agent.invoke(
+                #         input_str,
+                #         config=get_config(callbacks),
+                #     )
+                TOOLS = TOOLS + [doc_chain_tool]
+                st.session_state.chain = get_agent(
+                    TOOLS,
+                    STMEMORY,
                     st.session_state.llm,
+                    callbacks,
                 )
+                # else:
+                # st.session_state.chain = get_runnable(
+                #     True,  # use_document_chat,
+                #     document_chat_chain_type,
+                #     st.session_state.llm,
+                #     st.session_state.retriever,
+                #     MEMORY,
+                #     chat_prompt,
+                #     prompt,
+                # )
             # --- LLM call ---
             try:

langchain-streamlit-demo/defaults.py CHANGED Viewed

@@ -21,16 +21,19 @@ MODEL_DICT = {
 SUPPORTED_MODELS = list(MODEL_DICT.keys())
-DEFAULT_MODEL = os.environ.get("DEFAULT_MODEL", "gpt-4-turbo-preview")
 DEFAULT_SYSTEM_PROMPT = os.environ.get(
     "DEFAULT_SYSTEM_PROMPT",
     # "You are a helpful chatbot. Do not rush. Always plan, think, and act in a step-by-step manner.",
     """
-    Comportati come un operatore di call center.
     Hai accesso a tutte le informazioni necessarie per rispondere alle domande dei clienti tramite il tool 'document-question-tool'.
-    Se non sai rispondere ad una domanda, rispondi che non hai la risposta e offri di connettere il cliente con un operatore umano.
-    Rispondi in italiano, usando uno stile amichevole ma formale.
     """,
 )
@@ -45,6 +48,20 @@ DEFAULT_MAX_TOKENS = int(os.environ.get("DEFAULT_MAX_TOKENS", 1000))
 DEFAULT_LANGSMITH_PROJECT = os.environ.get("LANGCHAIN_PROJECT")
 TEST_QUESTIONS = [
     "non ho ricevuto le credenziali di accesso all'area riservata: dove posso trovarle?",
     "vorrei informazioni relativamente alle prestazioni presenti nel checkup",
     "la risonanza magnetica è coperta dalla polizza?",
@@ -72,7 +89,7 @@ TEST_QUESTIONS = [
 SHOW_LANGSMITH_OPTIONS = (
-    os.environ.get("SHOW_LANGSMITH_OPTIONS", "true").lower() == "true"
 )
 SHOW_AZURE_OPTIONS = os.environ.get("SHOW_AZURE_OPTIONS", "true").lower() == "true"

 SUPPORTED_MODELS = list(MODEL_DICT.keys())
+DEFAULT_MODEL = os.environ.get(
+    "DEFAULT_MODEL", "gpt-3.5-turbo"
+)  # "gpt-4-turbo-preview")
 DEFAULT_SYSTEM_PROMPT = os.environ.get(
     "DEFAULT_SYSTEM_PROMPT",
     # "You are a helpful chatbot. Do not rush. Always plan, think, and act in a step-by-step manner.",
     """
+    Comportati come un operatore di call center di Poste Assicurazioni. Ti vengono rivolte domande su polizze, prestazioni, autorizzazioni, rimborsi.
     Hai accesso a tutte le informazioni necessarie per rispondere alle domande dei clienti tramite il tool 'document-question-tool'.
+    Usa sempre il 'document-question-tool' per trovare le informazioni necessarie a formulare la risposta. Rispondi sempre in maniera specifica e dettagliata rispetto alla polizza di Poste Assicurazioni accessibile tramite tool.
+    Se non sai rispondere ad una domanda, chiedi all'utente le informazioni mancante oppure rispondi che non hai la risposta e offri di connettere il cliente con un operatore umano. Non consigliare mai di leggere la polizza o di cercare informazioni altrove.
+    Rispondi in italiano, usando uno stile amichevole ma formale, e meno di 150 parole per risposta, a meno che non contengona una lunga lista.
     """,
 )
 DEFAULT_LANGSMITH_PROJECT = os.environ.get("LANGCHAIN_PROJECT")
 TEST_QUESTIONS = [
+    "Non ho ricevuto le credenziali di accesso all'area riservata: come posso ottenerle?",
+    "Quali prestazioni presenti nel checkup",
+    "La risonanza magnetica è coperta dalla polizza?",
+    "Le visite odontoiatriche sono coperte dalla polizza?",
+    "Come posso richiedere il checkup",
+    "Come posso trovare struttura convenzionata che faccia le risonanze magnetiche",
+    "Come chiedere autorizzazione per fare una risonanza magnetica?",
+    "Come chiedere un rimborso per una risonanza magnetica?",
+    "Quali prestazioni sono incluse nel pacchetto maternità?",
+    "Come chiedere autorizzazione per prestazioni incluse mel pacchetto maternità?",
+    "Come devo procedere per fare l'estensione della copertura al nucleo familiare?",
+]
+OLD_TEST_QUESTIONS = [
     "non ho ricevuto le credenziali di accesso all'area riservata: dove posso trovarle?",
     "vorrei informazioni relativamente alle prestazioni presenti nel checkup",
     "la risonanza magnetica è coperta dalla polizza?",
 SHOW_LANGSMITH_OPTIONS = (
+    os.environ.get("SHOW_LANGSMITH_OPTIONS", "false").lower() == "true"
 )
 SHOW_AZURE_OPTIONS = os.environ.get("SHOW_AZURE_OPTIONS", "true").lower() == "true"

langchain-streamlit-demo/llm_resources.py CHANGED Viewed

@@ -2,19 +2,16 @@ import uuid
 from tempfile import NamedTemporaryFile
 from typing import Dict, List, Optional, Tuple
-from defaults import DEFAULT_CHUNK_OVERLAP, DEFAULT_CHUNK_SIZE, DEFAULT_RETRIEVER_K
 from langchain.agents import AgentExecutor, AgentType, initialize_agent
 from langchain.agents.openai_functions_agent.base import OpenAIFunctionsAgent
 from langchain.callbacks.base import BaseCallbackHandler
 from langchain.chains import RetrievalQA
-from langchain.chat_models import (
-    AzureChatOpenAI,
-    ChatAnthropic,
-    ChatAnyscale,
-    ChatOpenAI,
-)
-from langchain.document_loaders import PyPDFLoader
-from langchain.embeddings import OpenAIEmbeddings
 from langchain.llms.base import BaseLLM
 from langchain.memory import ConversationBufferMemory
 from langchain.prompts import ChatPromptTemplate, MessagesPlaceholder
@@ -27,8 +24,15 @@ from langchain.schema.runnable import RunnablePassthrough
 from langchain.storage import InMemoryStore
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.tools.base import BaseTool
-from langchain.vectorstores import FAISS
 from langchain_core.messages import SystemMessage
 # from qagen import get_rag_qa_gen_chain
 # from summarize import get_rag_summarization_chain
@@ -42,11 +46,12 @@ def get_agent(
 ):
     memory_key = "agent_history"
     system_message = SystemMessage(
-        content=(
-            "Do your best to answer the questions. "
-            "Feel free to use any tools available to look up "
-            "relevant information, only if necessary"
-        ),
     )
     prompt = OpenAIFunctionsAgent.create_prompt(
         system_message=system_message,
@@ -97,11 +102,17 @@ def get_doc_agent(
             (
                 "system",
                 """
-                You assist a chatbot with answering questions about a document.
-                If necessary, break up incoming questions into multiple parts,
-                and use the tools provided to answer smaller questions before
-                answering the larger question.
                 """,
             ),
             ("user", "{input}"),
             MessagesPlaceholder(variable_name="agent_scratchpad"),
@@ -157,13 +168,20 @@ def get_runnable(
         retriever=retriever,
         output_key="output_text",
         return_source_documents=True,
-    ) | (
-        lambda output: output["output_text"]
-        + "\n\n"
-        + "Source Documents:"
-        + "\n"
-        + "\n".join([x.page_content for x in output["source_documents"][:3]])
     )
 def get_llm(
@@ -232,7 +250,7 @@ def get_texts_and_multiretriever(
         temp_file.write(uploaded_file_bytes)
         temp_file.seek(0)
-        loader = PyPDFLoader(temp_file.name)
         documents = loader.load()
         text_splitter = RecursiveCharacterTextSplitter(
             chunk_size=10000,
@@ -252,7 +270,10 @@ def get_texts_and_multiretriever(
                 _text.metadata[id_key] = _id
             sub_texts.extend(_sub_texts)
-        embeddings_kwargs = {"openai_api_key": openai_api_key}
         # if use_azure and azure_kwargs:
         #     azure_kwargs["azure_endpoint"] = azure_kwargs.pop("openai_api_base")
         #     embeddings_kwargs.update(azure_kwargs)

 from tempfile import NamedTemporaryFile
 from typing import Dict, List, Optional, Tuple
+from defaults import (
+    DEFAULT_CHUNK_OVERLAP,
+    DEFAULT_CHUNK_SIZE,
+    DEFAULT_RETRIEVER_K,
+    DEFAULT_SYSTEM_PROMPT,
+)
 from langchain.agents import AgentExecutor, AgentType, initialize_agent
 from langchain.agents.openai_functions_agent.base import OpenAIFunctionsAgent
 from langchain.callbacks.base import BaseCallbackHandler
 from langchain.chains import RetrievalQA
 from langchain.llms.base import BaseLLM
 from langchain.memory import ConversationBufferMemory
 from langchain.prompts import ChatPromptTemplate, MessagesPlaceholder
 from langchain.storage import InMemoryStore
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.tools.base import BaseTool
+from langchain_community.chat_models import (
+    AzureChatOpenAI,
+    ChatAnthropic,
+    ChatAnyscale,
+)
+from langchain_community.document_loaders import PyMuPDFLoader
+from langchain_community.vectorstores.faiss import FAISS
 from langchain_core.messages import SystemMessage
+from langchain_openai import ChatOpenAI, OpenAIEmbeddings
 # from qagen import get_rag_qa_gen_chain
 # from summarize import get_rag_summarization_chain
 ):
     memory_key = "agent_history"
     system_message = SystemMessage(
+        content=DEFAULT_SYSTEM_PROMPT
+        # (
+        #     "Do your best to answer the questions. "
+        #     "Feel free to use any tools available to look up "
+        #     "relevant information, only if necessary"
+        # ),
     )
     prompt = OpenAIFunctionsAgent.create_prompt(
         system_message=system_message,
             (
                 "system",
                 """
+                Assisti un chatbot a rispondere a domande su un documento di polizza.
+                Se necessario, suddividi le domande in più parti
+                e usa gli strumenti forniti per rispondere a domande più piccole
+                prima di rispondere alla domanda più grande.
                 """,
+                # """
+                # You assist a chatbot with answering questions about a document.
+                # If necessary, break up incoming questions into multiple parts,
+                # and use the tools provided to answer smaller questions before
+                # answering the larger question.
+                # """,
             ),
             ("user", "{input}"),
             MessagesPlaceholder(variable_name="agent_scratchpad"),
         retriever=retriever,
         output_key="output_text",
         return_source_documents=True,
     )
+    # ) | (
+    #     lambda output: output["output_text"]
+    #     + "\n\n"
+    #     + ("-" * 50)
+    #     + "\nSource Documents:"
+    #     + "\n"
+    #     + "\n".join(
+    #         [
+    #             f"\nRisorsa {e}:\n" + x.page_content
+    #             for e, x in enumerate(output["source_documents"][:3])
+    #         ]
+    #     )
+    # )
 def get_llm(
         temp_file.write(uploaded_file_bytes)
         temp_file.seek(0)
+        loader = PyMuPDFLoader(temp_file.name, clip=(0, 0.10 * 842, 595, 0.85 * 842))
         documents = loader.load()
         text_splitter = RecursiveCharacterTextSplitter(
             chunk_size=10000,
                 _text.metadata[id_key] = _id
             sub_texts.extend(_sub_texts)
+        embeddings_kwargs = {
+            "openai_api_key": openai_api_key,
+            "model": "text-embedding-3-large",
+        }
         # if use_azure and azure_kwargs:
         #     azure_kwargs["azure_endpoint"] = azure_kwargs.pop("openai_api_base")
         #     embeddings_kwargs.update(azure_kwargs)

langchain-streamlit-demo/research_assistant/search/web.py CHANGED Viewed

@@ -6,7 +6,7 @@ from bs4 import BeautifulSoup
 from langchain.llms.base import BaseLLM
 from langchain.prompts import ChatPromptTemplate
 from langchain.retrievers.tavily_search_api import TavilySearchAPIRetriever
-from langchain.utilities import DuckDuckGoSearchAPIWrapper
 from langchain_core.messages import SystemMessage
 from langchain_core.output_parsers import StrOutputParser
 from langchain_core.runnables import (

 from langchain.llms.base import BaseLLM
 from langchain.prompts import ChatPromptTemplate
 from langchain.retrievers.tavily_search_api import TavilySearchAPIRetriever
+from langchain_community.utilities.duckduckgo_search import DuckDuckGoSearchAPIWrapper
 from langchain_core.messages import SystemMessage
 from langchain_core.output_parsers import StrOutputParser
 from langchain_core.runnables import (

requirements.txt CHANGED Viewed

@@ -6,6 +6,7 @@ duckduckgo-search==4.3.1
 faiss-cpu==1.7.4
 langchain==0.1.4
 langchain-community==0.0.16
 langsmith==0.0.84
 # mypy==1.8.0
 numexpr==2.9.0
@@ -22,3 +23,4 @@ tiktoken==0.5.2
 tornado>=6.3.3 # not directly required, pinned by Snyk to avoid a vulnerability
 validators>=0.21.0 # not directly required, pinned by Snyk to avoid a vulnerability
 wikipedia==1.4.0

 faiss-cpu==1.7.4
 langchain==0.1.4
 langchain-community==0.0.16
+langchain-openai
 langsmith==0.0.84
 # mypy==1.8.0
 numexpr==2.9.0
 tornado>=6.3.3 # not directly required, pinned by Snyk to avoid a vulnerability
 validators>=0.21.0 # not directly required, pinned by Snyk to avoid a vulnerability
 wikipedia==1.4.0
+pymupdf