Spaces:

abishek-official
/

Legal-doc-Summarizer

Runtime error

abishek-official commited on Dec 21, 2023

Commit

e7b5526

•

1 Parent(s): f661324

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import streamlit as st
 from dotenv import load_dotenv
 from PyPDF2 import PdfReader
-from langchain.text_splitter import CharacterTextSplitter
 from langchain.embeddings import HuggingFaceInstructEmbeddings, HuggingFaceBgeEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.memory import ConversationBufferMemory
@@ -18,15 +18,10 @@ def get_pdf_text(pdf_docs):
     return text
-def get_text_chunks(text):
-    text_splitter = CharacterTextSplitter(
-        separator="\n",
-        chunk_size=1000,
-        chunk_overlap=200,
-        length_function=len
-    )
-    chunks = text_splitter.split_documents(text)
-    return chunks
 def get_vectorstore(text_chunks):

 import streamlit as st
 from dotenv import load_dotenv
 from PyPDF2 import PdfReader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.embeddings import HuggingFaceInstructEmbeddings, HuggingFaceBgeEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.memory import ConversationBufferMemory
     return text
+def get_text_chunks(documents):
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
+    text_chunks = text_splitter.split_documents(documents)
+    return text_chunks
 def get_vectorstore(text_chunks):