Spaces:

Manglik-R
/

PDF-ChatBot-BCS

Sleeping

Manglik-R commited on Oct 30, 2023

Commit

d522487

•

1 Parent(s): 6eb7365

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import gradio as gr
 from langchain.document_loaders import OnlinePDFLoader
-from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.embeddings import HuggingFaceHubEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.llms import HuggingFaceHub
@@ -21,16 +21,14 @@ def pdf_changes(pdf_doc):
     loader = OnlinePDFLoader(pdf_doc.name)
     pages = loader.load_and_split()
-    text_splitter = RecursiveCharacterTextSplitter(
-        chunk_size=256,
-        chunk_overlap=8,
-        separators=['\n\n', '\n', '(?=>\. )', ' ', '']
     )
     docs  = text_splitter.split_documents(pages)
     embeddings = HuggingFaceHubEmbeddings()
     db = FAISS.from_documents(docs, embeddings)
-    llm=HuggingFaceHub(repo_id="google/flan-t5-xxl", model_kwargs={"temperature":0.1, "max_new_tokens":250})
     global qa
     qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff",  retriever=db.as_retriever())
     return "Ready"
@@ -39,7 +37,7 @@ def book_changes(book):
     db = FAISS.load_local( book , embeddings = HuggingFaceHubEmbeddings() )
     llm=HuggingFaceHub(repo_id="google/flan-t5-xxl", model_kwargs={"temperature":0.1, "max_new_tokens":250})
     global qa
-    qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff",  retriever=db.as_retriever())
     return "Ready"

 import gradio as gr
 from langchain.document_loaders import OnlinePDFLoader
+from langchain.text_splitter import CharacterTextSplitter
 from langchain.embeddings import HuggingFaceHubEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.llms import HuggingFaceHub
     loader = OnlinePDFLoader(pdf_doc.name)
     pages = loader.load_and_split()
+    text_splitter = CharacterTextSplitter(
+        chunk_size=350,
+        chunk_overlap=0,
     )
     docs  = text_splitter.split_documents(pages)
     embeddings = HuggingFaceHubEmbeddings()
     db = FAISS.from_documents(docs, embeddings)
+    llm = HuggingFaceHub(repo_id="google/flan-ul2", model_kwargs={"temperature":0.1, "max_new_tokens":300})
     global qa
     qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff",  retriever=db.as_retriever())
     return "Ready"
     db = FAISS.load_local( book , embeddings = HuggingFaceHubEmbeddings() )
     llm=HuggingFaceHub(repo_id="google/flan-t5-xxl", model_kwargs={"temperature":0.1, "max_new_tokens":250})
     global qa
+    qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff",  retriever=db.as_retriever(), return_source_documents=True)
     return "Ready"