Spaces:

chatbytes
/

ChatBot

Sleeping

chatbytes commited on May 19, 2024

Commit

e8b031a

verified ·

1 Parent(s): d78dbfd

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import gradio as gr
 # from langchain_community.llms import GooglePalm
 # from langchain_community.embeddings import HuggingFaceInstructEmbeddings
-# from langchain.text_splitter import CharacterTextSplitter
 # from langchain_community.embeddings import GooglePalmEmbeddings
 # from langchain_community.vectorstores import FAISS
 # from langchain_community.document_loaders import PyPDFLoader
@@ -14,15 +14,15 @@ import PyPDF2
 #     history.append((user_input, bot_response))
 #     return history, history
-# def text_splitter_function(text):
-#     text_splitter = CharacterTextSplitter(
-#         separator = '\n',
-#         chunk_size = 1000,
-#         chunk_overlap = 40,
-#         length_function = len,
-#     )
-#     texts = text_splitter.split_text(text)
-#     return texts;
 def text_extract(file):
     pdf_reader = PyPDF2.PdfReader(file.name)
@@ -33,7 +33,7 @@ def text_extract(file):
     for page_num in range(num_pages):
         page = pdf_reader.pages[page_num]
         text += page.extract_text()
-    # text_splitter=text_splitter_function(text);
     # db = FAISS.from_texts(text_splitter, embeddings);
     # retriever = db.as_retriever(search_type="similarity", search_kwargs={"k": 2})
     # llm=GooglePalm(google_api_key=google_api)
@@ -41,7 +41,7 @@ def text_extract(file):
     #     llm=llm, chain_type="stuff", retriever=retriever, return_source_documents=True
     # )
     # print(db)
-    return text
 with gr.Blocks() as demo:

 import gradio as gr
 # from langchain_community.llms import GooglePalm
 # from langchain_community.embeddings import HuggingFaceInstructEmbeddings
+from langchain.text_splitter import CharacterTextSplitter
 # from langchain_community.embeddings import GooglePalmEmbeddings
 # from langchain_community.vectorstores import FAISS
 # from langchain_community.document_loaders import PyPDFLoader
 #     history.append((user_input, bot_response))
 #     return history, history
+def text_splitter_function(text):
+    text_splitter = CharacterTextSplitter(
+        separator = '\n',
+        chunk_size = 1000,
+        chunk_overlap = 40,
+        length_function = len,
+    )
+    texts = text_splitter.split_text(text)
+    return texts;
 def text_extract(file):
     pdf_reader = PyPDF2.PdfReader(file.name)
     for page_num in range(num_pages):
         page = pdf_reader.pages[page_num]
         text += page.extract_text()
+    text_splitter=text_splitter_function(text);
     # db = FAISS.from_texts(text_splitter, embeddings);
     # retriever = db.as_retriever(search_type="similarity", search_kwargs={"k": 2})
     # llm=GooglePalm(google_api_key=google_api)
     #     llm=llm, chain_type="stuff", retriever=retriever, return_source_documents=True
     # )
     # print(db)
+    return text_splitter
 with gr.Blocks() as demo: