Spaces:

Manglik-R
/

PDF-ChatBot-BCS

Sleeping

App Files Files Community

Manglik-R commited on Jan 6

Commit

5e80009

•

1 Parent(s): 0d88d8a

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -27

app.py CHANGED Viewed

@@ -1,15 +1,20 @@
 import gradio as gr
-from langchain.document_loaders import OnlinePDFLoader
 from langchain.text_splitter import CharacterTextSplitter
-from langchain.embeddings import HuggingFaceHubEmbeddings
-from langchain.vectorstores import FAISS
-from langchain.llms import HuggingFaceHub
-from langchain.chains import RetrievalQA
 from datasets import load_dataset
 import os
-key = os.environ.get('RLS')
-os.environ["HUGGINGFACEHUB_API_TOKEN"] = key
 import sentence_transformers
 import faiss
@@ -19,29 +24,29 @@ def loading_pdf():
 def pdf_changes(pdf_doc):
-    loader = OnlinePDFLoader(pdf_doc.name)
-    pages = loader.load_and_split()
-    text_splitter = CharacterTextSplitter(
-        chunk_size=350,
-        chunk_overlap=0,
-    )
-    docs  = text_splitter.split_documents(pages)
     embeddings = HuggingFaceHubEmbeddings()
-    db = FAISS.from_documents(docs, embeddings)
-    llm = HuggingFaceHub(repo_id="google/flan-ul2", model_kwargs={"temperature":0.1, "max_new_tokens":300})
-    global qa
-    qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff",  retriever=db.as_retriever())
-    return "Ready"
-def book_changes(book):
-    db = FAISS.load_local( book , embeddings = HuggingFaceHubEmbeddings() )
-    llm=HuggingFaceHub(repo_id="google/flan-t5-xxl", model_kwargs={"temperature":0.1, "max_new_tokens":250})
     global qa
-    qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff",  retriever=db.as_retriever(), return_source_documents=True)
     return "Ready"
 def add_text(history, text):
     history = history + [(text, None)]
     return history, ""
@@ -74,12 +79,10 @@ with gr.Blocks(css=css) as demo:
         with gr.Column():
             pdf_doc = gr.File(label="Load a PDF", file_types=['.pdf'], type="file")
             load_pdf = gr.Button("Load PDF")
-            Books = gr.Dropdown(label="Books", choices=[("Harry Potter and the Philosopher's Stone","Book1")] )
             langchain_status = gr.Textbox(label="Status", placeholder="", interactive=False)
         chatbot = gr.Chatbot([], elem_id="chatbot").style(height=350)
         question = gr.Textbox(label="Question", placeholder="Type your question and hit Enter ")
         submit_btn = gr.Button("Send message")
-    Books.change(book_changes, inputs=[Books], outputs=[langchain_status], queue=False)
     load_pdf.click(pdf_changes, inputs=[pdf_doc], outputs=[langchain_status], queue=False)
     question.submit(add_text, [chatbot, question], [chatbot, question]).then(
         bot, chatbot, chatbot

 import gradio as gr
+from langchain.llms import Replicate
+from langchain.vectorstores import Pinecone
 from langchain.text_splitter import CharacterTextSplitter
+from langchain.document_loaders import PyPDFLoader
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain.chains import ConversationalRetrievalChain
 from datasets import load_dataset
 import os
+import pinecone
+key = os.environ.get('API')
+yeh = os.environ.get('pineapi')
+os.environ["REPLICATE_API_TOKEN"] = key
+pinecone.init(api_key=yeh, environment='gcp-starter')
 import sentence_transformers
 import faiss
 def pdf_changes(pdf_doc):
+    loader = PyPDFLoader(pdf_doc.name)
+    documents = loader.load()
+    text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
+    texts = text_splitter.split_documents(documents)
     embeddings = HuggingFaceHubEmbeddings()
+    index_name = "chatbot"
+    index = pinecone.Index(index_name)
+    vectordb = Pinecone.from_documents(texts, embeddings, index_name=index_name)
+    llm = Replicate(
+        model="a16z-infra/llama13b-v2-chat:df7690f1994d94e96ad9d568eac121aecf50684a0b0963b25a41cc40061269e5",
+        input={"temperature": 0.2, "max_length": 3000, "length_penalty":1.5, "num_beams":3}
+    )
     global qa
+    qa = ConversationalRetrievalChain.from_llm(
+        llm,
+        vectordb.as_retriever(search_kwargs={'k': 2}),
+        return_source_documents=True
+    )
     return "Ready"
 def add_text(history, text):
     history = history + [(text, None)]
     return history, ""
         with gr.Column():
             pdf_doc = gr.File(label="Load a PDF", file_types=['.pdf'], type="file")
             load_pdf = gr.Button("Load PDF")
             langchain_status = gr.Textbox(label="Status", placeholder="", interactive=False)
         chatbot = gr.Chatbot([], elem_id="chatbot").style(height=350)
         question = gr.Textbox(label="Question", placeholder="Type your question and hit Enter ")
         submit_btn = gr.Button("Send message")
     load_pdf.click(pdf_changes, inputs=[pdf_doc], outputs=[langchain_status], queue=False)
     question.submit(add_text, [chatbot, question], [chatbot, question]).then(
         bot, chatbot, chatbot