Spaces:

nickmuchi
/

Earnings-Call-Analysis-Whisperer

Running

nickmuchi commited on Feb 18, 2023

Commit

b1b5065

•

1 Parent(s): 85bdaf5

Update functions.py

Files changed (1) hide show

functions.py CHANGED Viewed

@@ -136,6 +136,32 @@ def process_corpus(corpus, _tokenizer, title, embedding_model, chunk_size=200, o
     return docsearch
 @st.experimental_singleton(suppress_st_warning=True)
 def gen_embeddings(embedding_model):

     return docsearch
+@st.experimental_singleton(suppress_st_warning=True)
+def chunk_and_preprocess_text(text,thresh=500):
+    """Chunk text longer than n tokens for summarization"""
+    sentences = sent_tokenize(clean_text(text))
+    #sentences = [i.text for i in list(article.sents)]
+    current_chunk = 0
+    chunks = []
+    for sentence in sentences:
+        if len(chunks) == current_chunk + 1:
+            if len(chunks[current_chunk]) + len(sentence.split(" ")) <= thresh:
+                chunks[current_chunk].extend(sentence.split(" "))
+            else:
+                current_chunk += 1
+                chunks.append(sentence.split(" "))
+        else:
+            chunks.append(sentence.split(" "))
+    for chunk_id in range(len(chunks)):
+        chunks[chunk_id] = " ".join(chunks[chunk_id])
+    return chunks
 @st.experimental_singleton(suppress_st_warning=True)
 def gen_embeddings(embedding_model):