Spaces:

nickmuchi
/

Earnings-Call-Analysis-Whisperer

Running

App Files Files Community

nickmuchi commited on Mar 7, 2023

Commit

3e9b436

•

1 Parent(s): 023f553

Update functions.py

Browse files

Files changed (1) hide show

functions.py +50 -17

functions.py CHANGED Viewed

@@ -25,10 +25,27 @@ from langchain.docstore.document import Document
 from langchain.embeddings import HuggingFaceEmbeddings,HuggingFaceInstructEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.chains.qa_with_sources import load_qa_with_sources_chain
-from langchain.text_splitter import CharacterTextSplitter
 from langchain.llms import OpenAI
 from langchain import VectorDBQA
 from langchain.chains.question_answering import load_qa_chain
 from langchain.prompts import PromptTemplate
 from langchain.prompts.base import RegexParser
@@ -48,7 +65,7 @@ output_parser = RegexParser(
     output_keys=["answer", "score"],
 )
-template = """Given the following extracted parts of a long document and a question, create a final answer with references ("SOURCES").
 If you don't know the answer, just say that you don't know. Don't try to make up an answer.
 ALWAYS return a "SOURCES" part in your answer.
@@ -64,8 +81,13 @@ Context:
 ---------
 {summaries}
 ---------
-Question: {question}
-Helpful Answer:"""
 #Refine Chain Type Prompt Template
 refine_prompt_template = (
@@ -85,7 +107,6 @@ refine_prompt = PromptTemplate(
     template=refine_prompt_template,
 )
 initial_qa_template = (
     "Context information is below. \n"
     "---------------------\n"
@@ -123,11 +144,11 @@ def load_asr_model(asr_model_name):
     return asr_model
 @st.experimental_singleton(suppress_st_warning=True)
-def process_corpus(corpus, _tokenizer, title, embedding_model, chunk_size=200, overlap=50):
     '''Process text for Semantic Search'''
-    text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(_tokenizer,chunk_size=chunk_size,chunk_overlap=overlap,separator='.')
     texts = text_splitter.split_text(corpus)
@@ -181,10 +202,13 @@ def gen_embeddings(embedding_model):
     return embeddings
 @st.experimental_memo(suppress_st_warning=True)
-def embed_text(query,title,embedding_model,_emb_tok,_docsearch,chain_type):
     '''Embed text and generate semantic search scores'''
     title = title.split()[0].lower()
     docs = _docsearch.similarity_search_with_score(query, k=3)
@@ -193,16 +217,25 @@ def embed_text(query,title,embedding_model,_emb_tok,_docsearch,chain_type):
         docs = [d[0] for d in docs]
-        PROMPT = PromptTemplate(template=template,
-                                input_variables=["summaries", "question"],
-                                output_parser=output_parser)
-        chain = load_qa_with_sources_chain(OpenAI(temperature=0),
-                                           chain_type="stuff",
-                                           prompt=PROMPT,
-                                           )
-        answer = chain({"input_documents": docs, "question": query}, return_only_outputs=False)
     elif chain_type == 'Refined':

 from langchain.embeddings import HuggingFaceEmbeddings,HuggingFaceInstructEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.chains.qa_with_sources import load_qa_with_sources_chain
+from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.llms import OpenAI
+from langchain.callbacks.base import CallbackManager
+from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
+from langchain.chains.chat_vector_db.prompts import CONDENSE_QUESTION_PROMPT
+from langchain.chat_models import ChatOpenAI
+from langchain.prompts.chat import (
+    ChatPromptTemplate,
+    SystemMessagePromptTemplate,
+    AIMessagePromptTemplate,
+    HumanMessagePromptTemplate,
+)
+from langchain.schema import (
+    AIMessage,
+    HumanMessage,
+    SystemMessage
+)
 from langchain import VectorDBQA
 from langchain.chains.question_answering import load_qa_chain
 from langchain.prompts import PromptTemplate
 from langchain.prompts.base import RegexParser
     output_keys=["answer", "score"],
 )
+system_template = """Given the following extracted parts of a long document and a question, create a final answer with references ("SOURCES").
 If you don't know the answer, just say that you don't know. Don't try to make up an answer.
 ALWAYS return a "SOURCES" part in your answer.
 ---------
 {summaries}
 ---------
+"""
+messages = [
+    SystemMessagePromptTemplate.from_template(system_template),
+    HumanMessagePromptTemplate.from_template("{question}")
+]
+prompt = ChatPromptTemplate.from_messages(messages)
 #Refine Chain Type Prompt Template
 refine_prompt_template = (
     template=refine_prompt_template,
 )
 initial_qa_template = (
     "Context information is below. \n"
     "---------------------\n"
     return asr_model
 @st.experimental_singleton(suppress_st_warning=True)
+def process_corpus(corpus, title, embedding_model, chunk_size=1000, overlap=50):
     '''Process text for Semantic Search'''
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=chunk_size,chunk_overlap=overlap)
     texts = text_splitter.split_text(corpus)
     return embeddings
 @st.experimental_memo(suppress_st_warning=True)
+def embed_text(query,title,embedding_model,_docsearch,chain_type):
     '''Embed text and generate semantic search scores'''
+    llm = OpenAI(temperature=0)
+    chat_llm = ChatOpenAI(streaming=True, callback_manager=CallbackManager([StreamingStdOutCallbackHandler()]), verbose=True, temperature=0)
     title = title.split()[0].lower()
     docs = _docsearch.similarity_search_with_score(query, k=3)
         docs = [d[0] for d in docs]
+        # PROMPT = PromptTemplate(template=template,
+        #                         input_variables=["summaries", "question"],
+        #                         output_parser=output_parser)
+        chain_type_kwargs = {"prompt": prompt}
+        chain = VectorDBQAWithSourcesChain.from_chain_type(
+        streaming_llm,
+        chain_type="stuff",
+        vectorstore=_docsearch,
+        chain_type_kwargs=chain_type_kwargs
+    )
+        answer = chain({"question": query}, return_only_outputs=True)
+        # chain = load_qa_with_sources_chain(OpenAI(temperature=0),
+        #                                    chain_type="stuff",
+        #                                    prompt=PROMPT,
+        #                                    )
+        # answer = chain({"input_documents": docs, "question": query}, return_only_outputs=False)
     elif chain_type == 'Refined':