Spaces:

awinml
/

2-qa-earnings-sentencewise

Build error

App Files Files Community

awinml commited on Feb 24, 2023

Commit

fbd690d

•

1 Parent(s): 8cd1f1e

Upload 3 files

Browse files

Files changed (3) hide show

.gitattributes +1 -0
app.py +30 -2
earnings_calls_sentencewise.csv +3 -0

.gitattributes CHANGED Viewed

@@ -32,3 +32,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+earnings_calls_sentencewise.csv filter=lfs diff=lfs merge=lfs -text

app.py CHANGED Viewed

@@ -12,10 +12,13 @@ from transformers import (
 import streamlit as st
 import openai
 # Initialize models from HuggingFace
 @st.experimental_singleton
 def get_t5_model():
     return pipeline("summarization", model="t5-small", tokenizer="t5-small")
@@ -66,6 +69,26 @@ def format_query(query_results):
     context = [result["metadata"]["Text"] for result in query_results["matches"]]
     return context
 def gpt3_summary(text):
     response = openai.Completion.create(
@@ -136,7 +159,12 @@ elif encoder_model == "SGPT":
 query_results = query_pinecone(query_text, num_results, retriever_model, pinecone_index)
-context_list = format_query(query_results)
 st.subheader("Answer:")

 import streamlit as st
 import openai
+@st.experimental_singleton
+def get_data():
+    data = pd.read_csv("earnings_calls_sentencewise.csv")
+    return data
 # Initialize models from HuggingFace
 @st.experimental_singleton
 def get_t5_model():
     return pipeline("summarization", model="t5-small", tokenizer="t5-small")
     context = [result["metadata"]["Text"] for result in query_results["matches"]]
     return context
+def sentence_id_combine(data, query_results, lag=2):
+    # Extract sentence IDs from query results
+    ids = [result["metadata"]["Sentence_id"] for result in query_results["matches"]]
+    # Generate new IDs by adding a lag value to the original IDs
+    new_ids = [id + i for id in ids for i in range(-lag, lag + 1)]
+    # Remove duplicates and sort the new IDs
+    new_ids = sorted(set(new_ids))
+    # Create a list of lookup IDs by grouping the new IDs in groups of lag*2+1
+    lookup_ids = [
+        new_ids[i : i + (lag * 2 + 1)] for i in range(0, len(new_ids), lag * 2 + 1)
+    ]
+    # Create a list of context sentences by joining the sentences corresponding to the lookup IDs
+    context_list = [
+        " ".join(data.Text.iloc[lookup_id].to_list()) for lookup_id in lookup_ids
+    ]
+    return context_list
+def text_lookup(data, sentence_ids):
+    context = " ".join(data.iloc[sentence_ids].to_list())
+    return context
 def gpt3_summary(text):
     response = openai.Completion.create(
 query_results = query_pinecone(query_text, num_results, retriever_model, pinecone_index)
+window = int(st.number_input("Sentence Window Size", 1, 3, value=1))
+data = get_data()
+#context_list = format_query(query_results)
+context_list = sentence_id_combine(data, query_results, lag=window)
 st.subheader("Answer:")

earnings_calls_sentencewise.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a24373c9cb8d68b4681f7590b5d94916ef748bd259636d93728e99b8e50678a5
+size 12926317