Spaces:

nickmuchi
/

Earnings-Call-Analysis-Whisperer

Running

nickmuchi commited on Feb 5, 2023

Commit

242f876

1 Parent(s): 0be8860

Update functions.py

Files changed (1) hide show

functions.py CHANGED Viewed

@@ -122,13 +122,13 @@ def load_asr_model(asr_model_name):
     return asr_model
 @st.experimental_singleton(suppress_st_warning=True)
-def process_corpus(corpus, tok, title, embeddings, chunk_size=200, overlap=50):
     '''Process text for Semantic Search'''
     pinecone.init(api_key=OPEN_AI_KEY, environment="us-west1-gcp")
-    tokenizer = tok
     text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(tokenizer,chunk_size=chunk_size,chunk_overlap=overlap,separator='. ')
     texts = text_splitter.split_text(corpus)
@@ -162,16 +162,18 @@ def gen_embeddings(embedding_model):
     return embeddings
 @st.experimental_memo(suppress_st_warning=True)
-def embed_text(query,corpus,title,embedding_model,emb_tok,chain_type='stuff'):
     '''Embed text and generate semantic search scores'''
     index_id = "earnings-embeddings"
     embeddings = gen_embeddings(embedding_model)
     title = title[0]
-    docsearch = process_corpus(corpus,embed_tok,title, embeddings)
     docs = docsearch.similarity_search_with_score(query, k=3, namespace = f'{title}-earnings')

     return asr_model
 @st.experimental_singleton(suppress_st_warning=True)
+def process_corpus(corpus, _tok, title, embeddings, chunk_size=200, overlap=50):
     '''Process text for Semantic Search'''
     pinecone.init(api_key=OPEN_AI_KEY, environment="us-west1-gcp")
+    tokenizer = _tok
     text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(tokenizer,chunk_size=chunk_size,chunk_overlap=overlap,separator='. ')
     texts = text_splitter.split_text(corpus)
     return embeddings
 @st.experimental_memo(suppress_st_warning=True)
+def embed_text(query,corpus,title,embedding_model,_emb_tok,chain_type='stuff'):
     '''Embed text and generate semantic search scores'''
     index_id = "earnings-embeddings"
     embeddings = gen_embeddings(embedding_model)
     title = title[0]
+    docsearch = process_corpus(corpus,_emb_tok,title, embeddings)
     docs = docsearch.similarity_search_with_score(query, k=3, namespace = f'{title}-earnings')