Spaces:

myscale
/

ChatData

Running

App Files Files Community

lqhl commited on Jan 17, 2024

Commit

0e573d0

verified ·

1 Parent(s): ff7aa95

Synced repo using 'sync_with_huggingface' Github Action

Browse files

Files changed (12) hide show

.streamlit/secrets.example.toml +4 -1
app.py +7 -9
callbacks/arxiv_callbacks.py +4 -3
chains/arxiv_chains.py +11 -8
chat.py +6 -6
lib/helper.py +43 -28
lib/json_conv.py +5 -2
lib/private_kb.py +2 -1
lib/schemas.py +1 -1
lib/sessions.py +14 -11
login.py +9 -8
prompts/arxiv_prompt.py +1 -1

.streamlit/secrets.example.toml CHANGED Viewed

@@ -1,6 +1,9 @@
-MYSCALE_HOST = "msc-4a9e710a.us-east-1.aws.staging.myscale.cloud"
 MYSCALE_PORT = 443
 MYSCALE_USER = "chatdata"
 MYSCALE_PASSWORD = "myscale_rocks"
 OPENAI_API_BASE = "https://api.openai.com/v1"
 OPENAI_API_KEY = "<your-openai-key>"

+MYSCALE_HOST = "msc-4a9e710a.us-east-1.aws.staging.myscale.cloud" # read-only database provided by MyScale
 MYSCALE_PORT = 443
 MYSCALE_USER = "chatdata"
 MYSCALE_PASSWORD = "myscale_rocks"
 OPENAI_API_BASE = "https://api.openai.com/v1"
 OPENAI_API_KEY = "<your-openai-key>"
+UNSTRUCTURED_API = "<your-unstructured-io-api>" # optional if you don't upload documents
+AUTH0_DOMAIN = "<your-auth0-domain>"            # optional if you don't user management
+AUTH0_CLIENT_ID = "<your-auth0-client-id>"      # optiona

app.py CHANGED Viewed

@@ -1,5 +1,3 @@
-import json
-import time
 import pandas as pd
 from os import environ
 import streamlit as st
@@ -13,10 +11,10 @@ from login import login, back_to_main
 from lib.helper import build_tools, build_all, sel_map, display
 environ['OPENAI_API_BASE'] = st.secrets['OPENAI_API_BASE']
-st.set_page_config(page_title="ChatData", page_icon="https://myscale.com/favicon.ico")
 st.markdown(
     f"""
     <style>
@@ -36,11 +34,12 @@ if login():
     if "user_name" in st.session_state:
         chat_page()
     elif "jump_query_ask" in st.session_state and st.session_state.jump_query_ask:
         sel = st.selectbox('Choose the knowledge base you want to ask with:',
-                        options=['ArXiv Papers', 'Wikipedia'])
         sel_map[sel]['hint']()
-        tab_sql, tab_self_query = st.tabs(['Vector SQL', 'Self-Query Retrievers'])
         with tab_sql:
             sel_map[sel]['hint_sql']()
             st.text_input("Ask a question:", key='query_sql')
@@ -85,7 +84,6 @@ if login():
                         st.write('Oops 😵 Something bad happened...')
                         raise e
         with tab_self_query:
             st.info("You can retrieve papers with button `Query` or ask questions based on retrieved papers with button `Ask`.", icon='💡')
             st.dataframe(st.session_state.sel_map_obj[sel]["metadata_columns"])
@@ -132,4 +130,4 @@ if login():
                             docs, ['ref_id'] + sel_map[sel]["must_have_cols"], index='ref_id')
                     except Exception as e:
                         st.write('Oops 😵 Something bad happened...')
-                        raise e

 import pandas as pd
 from os import environ
 import streamlit as st
 from lib.helper import build_tools, build_all, sel_map, display
 environ['OPENAI_API_BASE'] = st.secrets['OPENAI_API_BASE']
+st.set_page_config(page_title="ChatData",
+                   page_icon="https://myscale.com/favicon.ico")
 st.markdown(
     f"""
     <style>
     if "user_name" in st.session_state:
         chat_page()
     elif "jump_query_ask" in st.session_state and st.session_state.jump_query_ask:
         sel = st.selectbox('Choose the knowledge base you want to ask with:',
+                           options=['ArXiv Papers', 'Wikipedia'])
         sel_map[sel]['hint']()
+        tab_sql, tab_self_query = st.tabs(
+            ['Vector SQL', 'Self-Query Retrievers'])
         with tab_sql:
             sel_map[sel]['hint_sql']()
             st.text_input("Ask a question:", key='query_sql')
                         st.write('Oops 😵 Something bad happened...')
                         raise e
         with tab_self_query:
             st.info("You can retrieve papers with button `Query` or ask questions based on retrieved papers with button `Ask`.", icon='💡')
             st.dataframe(st.session_state.sel_map_obj[sel]["metadata_columns"])
                             docs, ['ref_id'] + sel_map[sel]["must_have_cols"], index='ref_id')
                     except Exception as e:
                         st.write('Oops 😵 Something bad happened...')
+                        raise e

callbacks/arxiv_callbacks.py CHANGED Viewed

@@ -8,7 +8,6 @@ from langchain.callbacks.streamlit.streamlit_callback_handler import (
     StreamlitCallbackHandler,
 )
 from langchain.schema.output import LLMResult
-from streamlit.delta_generator import DeltaGenerator
 class ChatDataSelfSearchCallBackHandler(StreamlitCallbackHandler):
@@ -26,7 +25,8 @@ class ChatDataSelfSearchCallBackHandler(StreamlitCallbackHandler):
         self.progress_bar.progress(value=0.6, text="Searching in DB...")
         if "repr" in outputs:
             st.markdown("### Generated Filter")
-            st.markdown(f"```python\n{outputs['repr']}\n```", unsafe_allow_html=True)
     def on_chain_start(self, serialized, inputs, **kwargs) -> None:
         pass
@@ -88,7 +88,8 @@ class ChatDataSQLSearchCallBackHandler(StreamlitCallbackHandler):
             st.markdown(f"""```sql\n{format_sql(text, max_len=80)}\n```""")
             print(f"Vector SQL: {text}")
             self.prog_value += self.prog_interval
-            self.progress_bar.progress(value=self.prog_value, text="Searching in DB...")
     def on_chain_start(self, serialized, inputs, **kwargs) -> None:
         cid = ".".join(serialized["id"])

     StreamlitCallbackHandler,
 )
 from langchain.schema.output import LLMResult
 class ChatDataSelfSearchCallBackHandler(StreamlitCallbackHandler):
         self.progress_bar.progress(value=0.6, text="Searching in DB...")
         if "repr" in outputs:
             st.markdown("### Generated Filter")
+            st.markdown(
+                f"```python\n{outputs['repr']}\n```", unsafe_allow_html=True)
     def on_chain_start(self, serialized, inputs, **kwargs) -> None:
         pass
             st.markdown(f"""```sql\n{format_sql(text, max_len=80)}\n```""")
             print(f"Vector SQL: {text}")
             self.prog_value += self.prog_interval
+            self.progress_bar.progress(
+                value=self.prog_value, text="Searching in DB...")
     def on_chain_start(self, serialized, inputs, **kwargs) -> None:
         cid = ".".join(serialized["id"])

chains/arxiv_chains.py CHANGED Viewed

@@ -8,7 +8,6 @@ from langchain.callbacks.manager import (
     CallbackManagerForChainRun,
 )
 from langchain.embeddings.base import Embeddings
-from langchain.schema import BaseRetriever
 from langchain.callbacks.manager import Callbacks
 from langchain.schema.prompt_template import format_document
 from langchain.docstore.document import Document
@@ -20,11 +19,12 @@ from langchain_experimental.sql.vector_sql import VectorSQLOutputParser
 logger = logging.getLogger()
 class MyScaleWithoutMetadataJson(MyScale):
     def __init__(self, embedding: Embeddings, config: Optional[MyScaleSettings] = None, must_have_cols: List[str] = [], **kwargs: Any) -> None:
         super().__init__(embedding, config, **kwargs)
         self.must_have_cols: List[str] = must_have_cols
     def _build_qstr(
         self, q_emb: List[float], topk: int, where_str: Optional[str] = None
     ) -> str:
@@ -43,7 +43,7 @@ class MyScaleWithoutMetadataJson(MyScale):
             LIMIT {topk}
             """
         return q_str
     def similarity_search_by_vector(self, embedding: List[float], k: int = 4, where_str: Optional[str] = None, **kwargs: Any) -> List[Document]:
         q_str = self._build_qstr(embedding, k, where_str)
         try:
@@ -55,9 +55,11 @@ class MyScaleWithoutMetadataJson(MyScale):
                 for r in self.client.query(q_str).named_results()
             ]
         except Exception as e:
-            logger.error(f"\033[91m\033[1m{type(e)}\033[0m \033[95m{str(e)}\033[0m")
             return []
 class VectorSQLRetrieveCustomOutputParser(VectorSQLOutputParser):
     """Based on VectorSQLOutputParser
     It also modify the SQL to get all columns
@@ -73,9 +75,11 @@ class VectorSQLRetrieveCustomOutputParser(VectorSQLOutputParser):
         start = text.upper().find("SELECT")
         if start >= 0:
             end = text.upper().find("FROM")
-            text = text.replace(text[start + len("SELECT") + 1 : end - 1], ", ".join(self.must_have_columns))
         return super().parse(text)
 class ArXivStuffDocumentChain(StuffDocumentsChain):
     """Combine arxiv documents with PDF reference number"""
@@ -172,8 +176,7 @@ class ArXivQAwithSourcesChain(RetrievalQAWithSourcesChain):
                 answer = answer.replace(f"#{ref_id}", f"{title} [{ref_cnt}]")
                 sources.append(d)
                 ref_cnt += 1
         result: Dict[str, Any] = {
             self.answer_key: answer,
             self.sources_answer_key: sources,
@@ -191,4 +194,4 @@ class ArXivQAwithSourcesChain(RetrievalQAWithSourcesChain):
     @property
     def _chain_type(self) -> str:
-        return "arxiv_qa_with_sources_chain"

     CallbackManagerForChainRun,
 )
 from langchain.embeddings.base import Embeddings
 from langchain.callbacks.manager import Callbacks
 from langchain.schema.prompt_template import format_document
 from langchain.docstore.document import Document
 logger = logging.getLogger()
 class MyScaleWithoutMetadataJson(MyScale):
     def __init__(self, embedding: Embeddings, config: Optional[MyScaleSettings] = None, must_have_cols: List[str] = [], **kwargs: Any) -> None:
         super().__init__(embedding, config, **kwargs)
         self.must_have_cols: List[str] = must_have_cols
     def _build_qstr(
         self, q_emb: List[float], topk: int, where_str: Optional[str] = None
     ) -> str:
             LIMIT {topk}
             """
         return q_str
     def similarity_search_by_vector(self, embedding: List[float], k: int = 4, where_str: Optional[str] = None, **kwargs: Any) -> List[Document]:
         q_str = self._build_qstr(embedding, k, where_str)
         try:
                 for r in self.client.query(q_str).named_results()
             ]
         except Exception as e:
+            logger.error(
+                f"\033[91m\033[1m{type(e)}\033[0m \033[95m{str(e)}\033[0m")
             return []
 class VectorSQLRetrieveCustomOutputParser(VectorSQLOutputParser):
     """Based on VectorSQLOutputParser
     It also modify the SQL to get all columns
         start = text.upper().find("SELECT")
         if start >= 0:
             end = text.upper().find("FROM")
+            text = text.replace(
+                text[start + len("SELECT") + 1: end - 1], ", ".join(self.must_have_columns))
         return super().parse(text)
 class ArXivStuffDocumentChain(StuffDocumentsChain):
     """Combine arxiv documents with PDF reference number"""
                 answer = answer.replace(f"#{ref_id}", f"{title} [{ref_cnt}]")
                 sources.append(d)
                 ref_cnt += 1
         result: Dict[str, Any] = {
             self.answer_key: answer,
             self.sources_answer_key: sources,
     @property
     def _chain_type(self) -> str:
+        return "arxiv_qa_with_sources_chain"

chat.py CHANGED Viewed

@@ -8,9 +8,6 @@ from lib.sessions import SessionManager
 from lib.private_kb import PrivateKnowledgeBase
 from langchain.schema import HumanMessage, FunctionMessage
 from callbacks.arxiv_callbacks import ChatDataAgentCallBackHandler
-from langchain.callbacks.streamlit.streamlit_callback_handler import (
-    StreamlitCallbackHandler,
-)
 from lib.json_conv import CustomJSONDecoder
 from lib.helper import (
@@ -313,7 +310,8 @@ def chat_page():
                     key="b_tool_files",
                     format_func=lambda x: x["file_name"],
                 )
-                st.text_input("Tool Name", "get_relevant_documents", key="b_tool_name")
                 st.text_input(
                     "Tool Description",
                     "Searches among user's private files and returns related documents",
@@ -359,14 +357,16 @@ def chat_page():
                 )
                 st.markdown("### Uploaded Files")
                 st.dataframe(
-                    st.session_state.private_kb.list_files(st.session_state.user_name),
                     use_container_width=True,
                 )
                 col_1, col_2 = st.columns(2)
                 with col_1:
                     st.button("Add Files", on_click=add_file)
                 with col_2:
-                    st.button("Clear Files and All Tools", on_click=clear_files)
         st.button("Clear Chat History", on_click=clear_history)
         st.button("Logout", on_click=back_to_main)

 from lib.private_kb import PrivateKnowledgeBase
 from langchain.schema import HumanMessage, FunctionMessage
 from callbacks.arxiv_callbacks import ChatDataAgentCallBackHandler
 from lib.json_conv import CustomJSONDecoder
 from lib.helper import (
                     key="b_tool_files",
                     format_func=lambda x: x["file_name"],
                 )
+                st.text_input(
+                    "Tool Name", "get_relevant_documents", key="b_tool_name")
                 st.text_input(
                     "Tool Description",
                     "Searches among user's private files and returns related documents",
                 )
                 st.markdown("### Uploaded Files")
                 st.dataframe(
+                    st.session_state.private_kb.list_files(
+                        st.session_state.user_name),
                     use_container_width=True,
                 )
                 col_1, col_2 = st.columns(2)
                 with col_1:
                     st.button("Add Files", on_click=add_file)
                 with col_2:
+                    st.button("Clear Files and All Tools",
+                              on_click=clear_files)
         st.button("Clear Chat History", on_click=clear_history)
         st.button("Logout", on_click=back_to_main)

lib/helper.py CHANGED Viewed

@@ -4,10 +4,8 @@ import time
 import hashlib
 from typing import Dict, Any, List, Tuple
 import re
-import pandas as pd
 from os import environ
 import streamlit as st
-import datetime
 from langchain.schema import BaseRetriever
 from langchain.tools import Tool
 from langchain.pydantic_v1 import BaseModel, Field
@@ -20,7 +18,7 @@ except ImportError:
     from sqlalchemy.ext.declarative import declarative_base
 from sqlalchemy.orm import sessionmaker
 from clickhouse_sqlalchemy import (
-    Table, make_session, get_declarative_base, types, engines
 )
 from langchain_experimental.sql.vector_sql import VectorSQLDatabaseChain
 from langchain_experimental.retrievers.vector_sql_database import VectorSQLDatabaseChainRetriever
@@ -43,12 +41,12 @@ from langchain.prompts.prompt import PromptTemplate
 from langchain.prompts.chat import MessagesPlaceholder
 from langchain.agents.openai_functions_agent.agent_token_buffer_memory import AgentTokenBufferMemory
 from langchain.agents.openai_functions_agent.base import OpenAIFunctionsAgent
-from langchain.schema.messages import BaseMessage, HumanMessage, AIMessage, FunctionMessage,\
     SystemMessage, ChatMessage, ToolMessage
 from langchain.memory import SQLChatMessageHistory
 from langchain.memory.chat_message_histories.sql import \
-    BaseMessageConverter, DefaultMessageConverter
-from langchain.schema.messages import BaseMessage, _message_to_dict, messages_from_dict
 # from langchain.agents.agent_toolkits import create_retriever_tool
 from prompts.arxiv_prompt import combine_prompt_template, _myscale_prompt
 from chains.arxiv_chains import ArXivQAwithSourcesChain, ArXivStuffDocumentChain
@@ -73,7 +71,7 @@ UNSTRUCTURED_API = st.secrets['UNSTRUCTURED_API']
 COMBINE_PROMPT = ChatPromptTemplate.from_strings(
     string_messages=[(SystemMessagePromptTemplate, combine_prompt_template),
-                    (HumanMessagePromptTemplate, '{question}')])
 DEFAULT_SYSTEM_PROMPT = (
     "Do your best to answer the questions. "
     "Feel free to use any tools available to look up "
@@ -81,6 +79,7 @@ DEFAULT_SYSTEM_PROMPT = (
     "when calling search functions."
 )
 def hint_arxiv():
     st.info("We provides you metadata columns below for query. Please choose a natural expression to describe filters on those columns.\n\n"
             "For example: \n\n"
@@ -150,7 +149,8 @@ sel_map = {
         "hint": hint_wiki,
         "hint_sql": hint_sql_wiki,
         "doc_prompt": PromptTemplate(
-            input_variables=["page_content", "url", "title", "ref_id", "views"],
             template="Title for Doc #{ref_id}: {title}\n\tviews: {views}\n\tcontent: {page_content}\nSOURCE: {url}"),
         "metadata_cols": [
             AttributeInfo(
@@ -224,6 +224,7 @@ sel_map = {
     }
 }
 def build_embedding_model(_sel):
     """Build embedding model
     """
@@ -253,7 +254,8 @@ def build_chains_retrievers(_sel: str) -> Dict[str, Any]:
         "sql_retriever": sql_retriever,
         "sql_chain": sql_chain
     }
 def build_self_query(_sel: str) -> SelfQueryRetriever:
     """Build self querying retriever
@@ -278,18 +280,20 @@ def build_self_query(_sel: str) -> SelfQueryRetriever:
                                      "vector": sel_map[_sel]["vector_col"],
                                      "metadata": sel_map[_sel]["metadata_col"]
                                  })
-        doc_search = MyScaleWithoutMetadataJson(st.session_state[f"emb_model_{_sel}"], config,
                                                 must_have_cols=sel_map[_sel]['must_have_cols'])
     with st.spinner(f"Building Self Query Retriever for {_sel}..."):
         metadata_field_info = sel_map[_sel]["metadata_cols"]
         retriever = SelfQueryRetriever.from_llm(
-            OpenAI(model_name=query_model_name, openai_api_key=OPENAI_API_KEY, temperature=0),
             doc_search, "Scientific papers indexes with abstracts. All in English.", metadata_field_info,
             use_original_query=False, structured_query_translator=MyScaleTranslator())
     return retriever
-def build_vector_sql(_sel: str)->VectorSQLDatabaseChainRetriever:
     """Build Vector SQL Database Retriever
     :param _sel: selected knowledge base
@@ -308,7 +312,8 @@ def build_vector_sql(_sel: str)->VectorSQLDatabaseChainRetriever:
         output_parser = VectorSQLRetrieveCustomOutputParser.from_embeddings(
             model=st.session_state[f'emb_model_{_sel}'], must_have_columns=sel_map[_sel]["must_have_cols"])
         sql_query_chain = VectorSQLDatabaseChain.from_llm(
-            llm=OpenAI(model_name=query_model_name, openai_api_key=OPENAI_API_KEY, temperature=0),
             prompt=PROMPT,
             top_k=10,
             return_direct=True,
@@ -319,8 +324,9 @@ def build_vector_sql(_sel: str)->VectorSQLDatabaseChainRetriever:
         sql_retriever = VectorSQLDatabaseChainRetriever(
             sql_db_chain=sql_query_chain, page_content_key=sel_map[_sel]["text_col"])
     return sql_retriever
-def build_qa_chain(_sel: str, retriever: BaseRetriever, name: str="Self-query") -> ArXivQAwithSourcesChain:
     """_summary_
     :param _sel: selected knowledge base
@@ -350,6 +356,7 @@ def build_qa_chain(_sel: str, retriever: BaseRetriever, name: str="Self-query")
         )
     return chain
 @st.cache_resource
 def build_all() -> Tuple[Dict[str, Any], Dict[str, Any]]:
     """build all resources
@@ -365,6 +372,7 @@ def build_all() -> Tuple[Dict[str, Any], Dict[str, Any]]:
         sel_map_obj[k] = build_chains_retrievers(k)
     return sel_map_obj, embeddings
 def create_message_model(table_name, DynamicBase):  # type: ignore
     """
     Create a message model for a given table name.
@@ -397,6 +405,7 @@ def create_message_model(table_name, DynamicBase):  # type: ignore
     return Message
 def _message_from_dict(message: dict) -> BaseMessage:
     _type = message["type"]
     if _type == "human":
@@ -417,6 +426,7 @@ def _message_from_dict(message: dict) -> BaseMessage:
     else:
         raise ValueError(f"Got unexpected message type: {_type}")
 class DefaultClickhouseMessageConverter(DefaultMessageConverter):
     """The default message converter for SQLChatMessageHistory."""
@@ -425,27 +435,28 @@ class DefaultClickhouseMessageConverter(DefaultMessageConverter):
     def to_sql_model(self, message: BaseMessage, session_id: str) -> Any:
         tstamp = time.time()
-        msg_id = hashlib.sha256(f"{session_id}_{message}_{tstamp}".encode('utf-8')).hexdigest()
         user_id, _ = session_id.split("?")
         return self.model_class(
-            id=tstamp,
             msg_id=msg_id,
             user_id=user_id,
-            session_id=session_id,
             type=message.type,
             addtionals=json.dumps(message.additional_kwargs),
             message=json.dumps({
-                "type": message.type,
                 "additional_kwargs": {"timestamp": tstamp},
                 "data": message.dict()})
         )
     def from_sql_model(self, sql_message: Any) -> BaseMessage:
         msg_dump = json.loads(sql_message.message)
         msg = _message_from_dict(msg_dump)
         msg.additional_kwargs = msg_dump["additional_kwargs"]
         return msg
     def get_sql_model_class(self) -> Any:
         return self.model_class
@@ -458,7 +469,7 @@ def create_agent_executor(name, session_id, llm, tools, system_prompt, **kwargs)
         connection_string=f'{conn_str}/chat?protocol=https',
         custom_message_converter=DefaultClickhouseMessageConverter(name))
     memory = AgentTokenBufferMemory(llm=llm, chat_memory=chat_memory)
     _system_message = SystemMessage(
         content=system_prompt
     )
@@ -475,10 +486,12 @@ def create_agent_executor(name, session_id, llm, tools, system_prompt, **kwargs)
         return_intermediate_steps=True,
         **kwargs
     )
 class RetrieverInput(BaseModel):
     query: str = Field(description="query to look up in retriever")
 def create_retriever_tool(
     retriever: BaseRetriever, name: str, description: str
 ) -> Tool:
@@ -499,7 +512,7 @@ def create_retriever_tool(
             docs: List[Document] = func(*args, **kwargs)
             return json.dumps([d.dict() for d in docs], cls=CustomJSONEncoder)
         return wrapped_retrieve
     return Tool(
         name=name,
         description=description,
@@ -507,7 +520,8 @@ def create_retriever_tool(
         coroutine=retriever.aget_relevant_documents,
         args_schema=RetrieverInput,
     )
 @st.cache_resource
 def build_tools():
     """build all resources
@@ -531,8 +545,9 @@ def build_tools():
         })
     return sel_map_obj
 def build_agents(session_id, tool_names, chat_model_name=chat_model_name, temperature=0.6, system_prompt=DEFAULT_SYSTEM_PROMPT):
-    chat_llm = ChatOpenAI(model_name=chat_model_name, temperature=temperature,
                           openai_api_base=OPENAI_API_BASE, openai_api_key=OPENAI_API_KEY, streaming=True,
                           )
     tools = st.session_state.tools if "tools_with_users" not in st.session_state else st.session_state.tools_with_users
@@ -543,7 +558,7 @@ def build_agents(session_id, tool_names, chat_model_name=chat_model_name, temper
         chat_llm,
         tools=sel_tools,
         system_prompt=system_prompt
-        )
     return agent
@@ -556,4 +571,4 @@ def display(dataframe, columns_=None, index=None):
         else:
             st.dataframe(dataframe)
     else:
-        st.write("Sorry 😵 we didn't find any articles related to your query.\n\nMaybe the LLM is too naughty that does not follow our instruction... \n\nPlease try again and use verbs that may match the datatype.", unsafe_allow_html=True)

 import hashlib
 from typing import Dict, Any, List, Tuple
 import re
 from os import environ
 import streamlit as st
 from langchain.schema import BaseRetriever
 from langchain.tools import Tool
 from langchain.pydantic_v1 import BaseModel, Field
     from sqlalchemy.ext.declarative import declarative_base
 from sqlalchemy.orm import sessionmaker
 from clickhouse_sqlalchemy import (
+    types, engines
 )
 from langchain_experimental.sql.vector_sql import VectorSQLDatabaseChain
 from langchain_experimental.retrievers.vector_sql_database import VectorSQLDatabaseChainRetriever
 from langchain.prompts.chat import MessagesPlaceholder
 from langchain.agents.openai_functions_agent.agent_token_buffer_memory import AgentTokenBufferMemory
 from langchain.agents.openai_functions_agent.base import OpenAIFunctionsAgent
+from langchain.schema.messages import BaseMessage, HumanMessage, AIMessage, FunctionMessage, \
     SystemMessage, ChatMessage, ToolMessage
 from langchain.memory import SQLChatMessageHistory
 from langchain.memory.chat_message_histories.sql import \
+    DefaultMessageConverter
+from langchain.schema.messages import BaseMessage
 # from langchain.agents.agent_toolkits import create_retriever_tool
 from prompts.arxiv_prompt import combine_prompt_template, _myscale_prompt
 from chains.arxiv_chains import ArXivQAwithSourcesChain, ArXivStuffDocumentChain
 COMBINE_PROMPT = ChatPromptTemplate.from_strings(
     string_messages=[(SystemMessagePromptTemplate, combine_prompt_template),
+                     (HumanMessagePromptTemplate, '{question}')])
 DEFAULT_SYSTEM_PROMPT = (
     "Do your best to answer the questions. "
     "Feel free to use any tools available to look up "
     "when calling search functions."
 )
 def hint_arxiv():
     st.info("We provides you metadata columns below for query. Please choose a natural expression to describe filters on those columns.\n\n"
             "For example: \n\n"
         "hint": hint_wiki,
         "hint_sql": hint_sql_wiki,
         "doc_prompt": PromptTemplate(
+            input_variables=["page_content",
+                             "url", "title", "ref_id", "views"],
             template="Title for Doc #{ref_id}: {title}\n\tviews: {views}\n\tcontent: {page_content}\nSOURCE: {url}"),
         "metadata_cols": [
             AttributeInfo(
     }
 }
 def build_embedding_model(_sel):
     """Build embedding model
     """
         "sql_retriever": sql_retriever,
         "sql_chain": sql_chain
     }
 def build_self_query(_sel: str) -> SelfQueryRetriever:
     """Build self querying retriever
                                      "vector": sel_map[_sel]["vector_col"],
                                      "metadata": sel_map[_sel]["metadata_col"]
                                  })
+        doc_search = MyScaleWithoutMetadataJson(st.session_state[f"emb_model_{_sel}"], config,
                                                 must_have_cols=sel_map[_sel]['must_have_cols'])
     with st.spinner(f"Building Self Query Retriever for {_sel}..."):
         metadata_field_info = sel_map[_sel]["metadata_cols"]
         retriever = SelfQueryRetriever.from_llm(
+            OpenAI(model_name=query_model_name,
+                   openai_api_key=OPENAI_API_KEY, temperature=0),
             doc_search, "Scientific papers indexes with abstracts. All in English.", metadata_field_info,
             use_original_query=False, structured_query_translator=MyScaleTranslator())
     return retriever
+def build_vector_sql(_sel: str) -> VectorSQLDatabaseChainRetriever:
     """Build Vector SQL Database Retriever
     :param _sel: selected knowledge base
         output_parser = VectorSQLRetrieveCustomOutputParser.from_embeddings(
             model=st.session_state[f'emb_model_{_sel}'], must_have_columns=sel_map[_sel]["must_have_cols"])
         sql_query_chain = VectorSQLDatabaseChain.from_llm(
+            llm=OpenAI(model_name=query_model_name,
+                       openai_api_key=OPENAI_API_KEY, temperature=0),
             prompt=PROMPT,
             top_k=10,
             return_direct=True,
         sql_retriever = VectorSQLDatabaseChainRetriever(
             sql_db_chain=sql_query_chain, page_content_key=sel_map[_sel]["text_col"])
     return sql_retriever
+def build_qa_chain(_sel: str, retriever: BaseRetriever, name: str = "Self-query") -> ArXivQAwithSourcesChain:
     """_summary_
     :param _sel: selected knowledge base
         )
     return chain
 @st.cache_resource
 def build_all() -> Tuple[Dict[str, Any], Dict[str, Any]]:
     """build all resources
         sel_map_obj[k] = build_chains_retrievers(k)
     return sel_map_obj, embeddings
 def create_message_model(table_name, DynamicBase):  # type: ignore
     """
     Create a message model for a given table name.
     return Message
 def _message_from_dict(message: dict) -> BaseMessage:
     _type = message["type"]
     if _type == "human":
     else:
         raise ValueError(f"Got unexpected message type: {_type}")
 class DefaultClickhouseMessageConverter(DefaultMessageConverter):
     """The default message converter for SQLChatMessageHistory."""
     def to_sql_model(self, message: BaseMessage, session_id: str) -> Any:
         tstamp = time.time()
+        msg_id = hashlib.sha256(
+            f"{session_id}_{message}_{tstamp}".encode('utf-8')).hexdigest()
         user_id, _ = session_id.split("?")
         return self.model_class(
+            id=tstamp,
             msg_id=msg_id,
             user_id=user_id,
+            session_id=session_id,
             type=message.type,
             addtionals=json.dumps(message.additional_kwargs),
             message=json.dumps({
+                "type": message.type,
                 "additional_kwargs": {"timestamp": tstamp},
                 "data": message.dict()})
         )
     def from_sql_model(self, sql_message: Any) -> BaseMessage:
         msg_dump = json.loads(sql_message.message)
         msg = _message_from_dict(msg_dump)
         msg.additional_kwargs = msg_dump["additional_kwargs"]
         return msg
     def get_sql_model_class(self) -> Any:
         return self.model_class
         connection_string=f'{conn_str}/chat?protocol=https',
         custom_message_converter=DefaultClickhouseMessageConverter(name))
     memory = AgentTokenBufferMemory(llm=llm, chat_memory=chat_memory)
     _system_message = SystemMessage(
         content=system_prompt
     )
         return_intermediate_steps=True,
         **kwargs
     )
 class RetrieverInput(BaseModel):
     query: str = Field(description="query to look up in retriever")
 def create_retriever_tool(
     retriever: BaseRetriever, name: str, description: str
 ) -> Tool:
             docs: List[Document] = func(*args, **kwargs)
             return json.dumps([d.dict() for d in docs], cls=CustomJSONEncoder)
         return wrapped_retrieve
     return Tool(
         name=name,
         description=description,
         coroutine=retriever.aget_relevant_documents,
         args_schema=RetrieverInput,
     )
 @st.cache_resource
 def build_tools():
     """build all resources
         })
     return sel_map_obj
 def build_agents(session_id, tool_names, chat_model_name=chat_model_name, temperature=0.6, system_prompt=DEFAULT_SYSTEM_PROMPT):
+    chat_llm = ChatOpenAI(model_name=chat_model_name, temperature=temperature,
                           openai_api_base=OPENAI_API_BASE, openai_api_key=OPENAI_API_KEY, streaming=True,
                           )
     tools = st.session_state.tools if "tools_with_users" not in st.session_state else st.session_state.tools_with_users
         chat_llm,
         tools=sel_tools,
         system_prompt=system_prompt
+    )
     return agent
         else:
             st.dataframe(dataframe)
     else:
+        st.write("Sorry 😵 we didn't find any articles related to your query.\n\nMaybe the LLM is too naughty that does not follow our instruction... \n\nPlease try again and use verbs that may match the datatype.", unsafe_allow_html=True)

lib/json_conv.py CHANGED Viewed

@@ -1,15 +1,18 @@
 import json
 import datetime
 class CustomJSONEncoder(json.JSONEncoder):
     def default(self, obj):
         if isinstance(obj, datetime.datetime):
             return datetime.datetime.isoformat(obj)
         return json.JSONEncoder.default(self, obj)
 class CustomJSONDecoder(json.JSONDecoder):
     def __init__(self, *args, **kwargs):
-        json.JSONDecoder.__init__(self, object_hook=self.object_hook, *args, **kwargs)
     def object_hook(self, source):
         for k, v in source.items():
@@ -18,4 +21,4 @@ class CustomJSONDecoder(json.JSONDecoder):
                     source[k] = datetime.datetime.fromisoformat(str(v))
                 except:
                     pass
-        return source

 import json
 import datetime
 class CustomJSONEncoder(json.JSONEncoder):
     def default(self, obj):
         if isinstance(obj, datetime.datetime):
             return datetime.datetime.isoformat(obj)
         return json.JSONEncoder.default(self, obj)
 class CustomJSONDecoder(json.JSONDecoder):
     def __init__(self, *args, **kwargs):
+        json.JSONDecoder.__init__(
+            self, object_hook=self.object_hook, *args, **kwargs)
     def object_hook(self, source):
         for k, v in source.items():
                     source[k] = datetime.datetime.fromisoformat(str(v))
                 except:
                     pass
+        return source

lib/private_kb.py CHANGED Viewed

@@ -52,7 +52,8 @@ def parse_files(api_key, user_id, files: List[UploadedFile]):
 def extract_embedding(embeddings: Embeddings, texts):
     if len(texts) > 0:
-        embs = embeddings.embed_documents([t["text"] for _, t in enumerate(texts)])
         for i, _ in enumerate(texts):
             texts[i]["vector"] = embs[i]
         return texts

 def extract_embedding(embeddings: Embeddings, texts):
     if len(texts) > 0:
+        embs = embeddings.embed_documents(
+            [t["text"] for _, t in enumerate(texts)])
         for i, _ in enumerate(texts):
             texts[i]["vector"] = embs[i]
         return texts

lib/schemas.py CHANGED Viewed

@@ -49,4 +49,4 @@ def create_session_table(table_name, DynamicBase):  # type: ignore
                 order_by=('session_id')),
             {'comment': 'Store Session and Prompts'}
         )
-    return Session

                 order_by=('session_id')),
             {'comment': 'Store Session and Prompts'}
         )
+    return Session

lib/sessions.py CHANGED Viewed

@@ -6,9 +6,9 @@ except ImportError:
 from langchain.schema import BaseChatMessageHistory
 from datetime import datetime
 from sqlalchemy import Column, Text, orm, create_engine
-from clickhouse_sqlalchemy import types, engines
 from .schemas import create_message_model, create_session_table
 def get_sessions(engine, model_class, user_id):
     with orm.sessionmaker(engine)() as session:
         result = (
@@ -20,14 +20,17 @@ def get_sessions(engine, model_class, user_id):
         )
     return json.loads(result)
 class SessionManager:
     def __init__(self, session_state, host, port, username, password,
                  db='chat', sess_table='sessions', msg_table='chat_memory') -> None:
         conn_str = f'clickhouse://{username}:{password}@{host}:{port}/{db}?protocol=https'
         self.engine = create_engine(conn_str, echo=False)
-        self.sess_model_class = create_session_table(sess_table, declarative_base())
         self.sess_model_class.metadata.create_all(self.engine)
-        self.msg_model_class = create_message_model(msg_table, declarative_base())
         self.msg_model_class.metadata.create_all(self.engine)
         self.Session = orm.sessionmaker(self.engine)
         self.session_state = session_state
@@ -46,14 +49,15 @@ class SessionManager:
                 sessions.append({
                     "session_id": r.session_id.split("?")[-1],
                     "system_prompt": r.system_prompt,
-                    })
             return sessions
     def modify_system_prompt(self, session_id, sys_prompt):
         with self.Session() as session:
-            session.update(self.sess_model_class).where(self.sess_model_class==session_id).value(system_prompt=sys_prompt)
             session.commit()
     def add_session(self, user_id, session_id, system_prompt, **kwargs):
         with self.Session() as session:
             elem = self.sess_model_class(
@@ -62,14 +66,13 @@ class SessionManager:
             )
             session.add(elem)
             session.commit()
     def remove_session(self, session_id):
         with self.Session() as session:
-            session.query(self.sess_model_class).where(self.sess_model_class.session_id==session_id).delete()
             # session.query(self.msg_model_class).where(self.msg_model_class.session_id==session_id).delete()
         if "agent" in self.session_state:
             self.session_state.agent.memory.chat_memory.clear()
         if "file_analyzer" in self.session_state:
             self.session_state.file_analyzer.clear_files()

 from langchain.schema import BaseChatMessageHistory
 from datetime import datetime
 from sqlalchemy import Column, Text, orm, create_engine
 from .schemas import create_message_model, create_session_table
 def get_sessions(engine, model_class, user_id):
     with orm.sessionmaker(engine)() as session:
         result = (
         )
     return json.loads(result)
 class SessionManager:
     def __init__(self, session_state, host, port, username, password,
                  db='chat', sess_table='sessions', msg_table='chat_memory') -> None:
         conn_str = f'clickhouse://{username}:{password}@{host}:{port}/{db}?protocol=https'
         self.engine = create_engine(conn_str, echo=False)
+        self.sess_model_class = create_session_table(
+            sess_table, declarative_base())
         self.sess_model_class.metadata.create_all(self.engine)
+        self.msg_model_class = create_message_model(
+            msg_table, declarative_base())
         self.msg_model_class.metadata.create_all(self.engine)
         self.Session = orm.sessionmaker(self.engine)
         self.session_state = session_state
                 sessions.append({
                     "session_id": r.session_id.split("?")[-1],
                     "system_prompt": r.system_prompt,
+                })
             return sessions
     def modify_system_prompt(self, session_id, sys_prompt):
         with self.Session() as session:
+            session.update(self.sess_model_class).where(
+                self.sess_model_class == session_id).value(system_prompt=sys_prompt)
             session.commit()
     def add_session(self, user_id, session_id, system_prompt, **kwargs):
         with self.Session() as session:
             elem = self.sess_model_class(
             )
             session.add(elem)
             session.commit()
     def remove_session(self, session_id):
         with self.Session() as session:
+            session.query(self.sess_model_class).where(
+                self.sess_model_class.session_id == session_id).delete()
             # session.query(self.msg_model_class).where(self.msg_model_class.session_id==session_id).delete()
         if "agent" in self.session_state:
             self.session_state.agent.memory.chat_memory.clear()
         if "file_analyzer" in self.session_state:
             self.session_state.file_analyzer.clear_files()

@@ -1,21 +1,21 @@
-import json
-import time
-import pandas as pd
-from os import environ
 import streamlit as st
 from auth0_component import login_button
 AUTH0_CLIENT_ID = st.secrets['AUTH0_CLIENT_ID']
 AUTH0_DOMAIN = st.secrets['AUTH0_DOMAIN']
 def login():
     if "user_name" in st.session_state or ("jump_query_ask" in st.session_state and st.session_state.jump_query_ask):
         return True
-    st.subheader("🤗 Welcom to [MyScale](https://myscale.com)'s [ChatData](https://github.com/myscale/ChatData)! 🤗 ")
     st.write("You can now chat with ArXiv and Wikipedia! 🌟\n")
     st.write("Built purely with streamlit 👑 , LangChain 🦜🔗 and love ❤️ for AI!")
-    st.write("Follow us on [Twitter](https://x.com/myscaledb) and [Discord](https://discord.gg/D2qpkqc4Jq)!")
-    st.write("For more details, please refer to [our repository on GitHub](https://github.com/myscale/ChatData)!")
     st.divider()
     col1, col2 = st.columns(2, gap='large')
     with col1.container():
@@ -33,7 +33,7 @@ def login():
     st.write("- [Privacy Policy](https://myscale.com/privacy/)\n"
              "- [Terms of Sevice](https://myscale.com/terms/)")
     if st.session_state.auth0 is not None:
-        st.session_state.user_info = dict(st.session_state.auth0)
         if 'email' in st.session_state.user_info:
             email = st.session_state.user_info["email"]
         else:
@@ -44,6 +44,7 @@ def login():
     if st.session_state.jump_query_ask:
         st.experimental_rerun()
 def back_to_main():
     if "user_info" in st.session_state:
         del st.session_state.user_info

 import streamlit as st
 from auth0_component import login_button
 AUTH0_CLIENT_ID = st.secrets['AUTH0_CLIENT_ID']
 AUTH0_DOMAIN = st.secrets['AUTH0_DOMAIN']
 def login():
     if "user_name" in st.session_state or ("jump_query_ask" in st.session_state and st.session_state.jump_query_ask):
         return True
+    st.subheader(
+        "🤗 Welcom to [MyScale](https://myscale.com)'s [ChatData](https://github.com/myscale/ChatData)! 🤗 ")
     st.write("You can now chat with ArXiv and Wikipedia! 🌟\n")
     st.write("Built purely with streamlit 👑 , LangChain 🦜🔗 and love ❤️ for AI!")
+    st.write(
+        "Follow us on [Twitter](https://x.com/myscaledb) and [Discord](https://discord.gg/D2qpkqc4Jq)!")
+    st.write(
+        "For more details, please refer to [our repository on GitHub](https://github.com/myscale/ChatData)!")
     st.divider()
     col1, col2 = st.columns(2, gap='large')
     with col1.container():
     st.write("- [Privacy Policy](https://myscale.com/privacy/)\n"
              "- [Terms of Sevice](https://myscale.com/terms/)")
     if st.session_state.auth0 is not None:
+        st.session_state.user_info = dict(st.session_state.auth0)
         if 'email' in st.session_state.user_info:
             email = st.session_state.user_info["email"]
         else:
     if st.session_state.jump_query_ask:
         st.experimental_rerun()
 def back_to_main():
     if "user_info" in st.session_state:
         del st.session_state.user_info

prompts/arxiv_prompt.py CHANGED Viewed

@@ -6,7 +6,7 @@ combine_prompt_template = (
             + "relevant information but still try to provide an answer based on your general knowledge. You must refer to the "
             + "corresponding section name and page that you refer to when answering. The following is the related information "
             + "about the document that will help you answer users' questions, you MUST answer it using question's language:\n\n {summaries}"
-            + "Now you should anwser user's question. Remember you must use `Doc #` to refer papers:\n\n"
         )
 _myscale_prompt = """You are a MyScale expert. Given an input question, first create a syntactically correct MyScale query to run, then look at the results of the query and return the answer to the input question.

             + "relevant information but still try to provide an answer based on your general knowledge. You must refer to the "
             + "corresponding section name and page that you refer to when answering. The following is the related information "
             + "about the document that will help you answer users' questions, you MUST answer it using question's language:\n\n {summaries}"
+            + "Now you should answer user's question. Remember you must use `Doc #` to refer papers:\n\n"
         )
 _myscale_prompt = """You are a MyScale expert. Given an input question, first create a syntactically correct MyScale query to run, then look at the results of the query and return the answer to the input question.