Spaces:

Vageesh1
/

PDF_QA

Sleeping

App Files Files Community

Vageesh1 commited on Jul 31, 2023

Commit

2507f18

•

1 Parent(s): 8e3047c

Upload 3 files

Browse files

Files changed (3) hide show

app.py +105 -0
helper.py +83 -0
requirements.txt +11 -0

app.py ADDED Viewed

	@@ -0,0 +1,105 @@

+import tempfile
+import streamlit as st
+from streamlit_chat import message
+import torch
+import torch.nn
+import transformers
+from transformers import (
+    AutoModelForCausalLM,
+    AutoTokenizer,
+    BitsAndBytesConfig,
+    HfArgumentParser,
+    TrainingArguments,
+    pipeline,
+    logging,
+)
+import pandas as pd
+import numpy as np
+import os
+import io
+from langchain.document_loaders import TextLoader
+from langchain import PromptTemplate
+from langchain.text_splitter import CharacterTextSplitter
+from langchain.document_loaders import PyPDFLoader
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain.vectorstores import FAISS
+from langchain.chains.question_answering import load_qa_chain
+from langchain.chains import RetrievalQA
+from langchain import HuggingFacePipeline
+from helper import conversational_chat,pdf_loader,splitDoc,makeEmbeddings,create_flan_t5_base,conversational_chat
+def ui():
+    st.title('PDF Question Answer Bot')
+    hugging_face_key = os.environ["HUGGINGFACE_HUB_TOKEN"]
+    llm = create_flan_t5_base(load_in_8bit=False)
+    hf_llm = HuggingFacePipeline(pipeline=llm)
+    uploaded_file = st.file_uploader("Choose a PDF file", type=["pdf"])
+    #saving the uploaded pdf file
+    save_path = "./uploaded_file.pdf"
+    with open(save_path, "wb") as f:
+        f.write(uploaded_file.read())
+    #loading the pdf file
+    pdf_doc=pdf_loader('./uploaded_file.pdf')
+    vector_database = makeEmbeddings(pdf_doc)
+    #making the retriever of the vector database
+    retriever = vector_database.as_retriever(search_kwargs={"k":4})
+    qa_chain = RetrievalQA.from_chain_type(llm=hf_llm, chain_type="stuff",retriever=retriever)
+    # Create an empty container to hold the PDF loader section
+    pdf_loader_container = st.empty()
+    # Check if the PDF file is uploaded or not
+    if uploaded_file is not None:
+        print("The file has been uploaded successfully")
+        # Hide the PDF loader interface when the file is uploaded
+        pdf_loader_container.empty()
+        # Show the chat interface
+        show_chat_interface(qa_chain)
+def show_chat_interface(qa_chain):
+    if 'history' not in st.session_state:
+        st.session_state['history'] = []
+    if 'generated' not in st.session_state:
+        st.session_state['generated'] = ["Hello ! Ask me anything about the Uploaded PDF " + " 🤗"]
+    if 'past' not in st.session_state:
+        st.session_state['past'] = ["Hey ! 👋"]
+    response_container = st.container()
+    #container for the user's text input
+    container = st.container()
+    with container:
+        with st.form(key='my_form', clear_on_submit=True):
+            user_input = st.text_input("Query:", placeholder="Talk about your PDF data here (:", key='input')
+            submit_button = st.form_submit_button(label='Send')
+        if submit_button and user_input:
+            output = conversational_chat(qa_chain,user_input)
+            st.session_state['past'].append(user_input)
+            st.session_state['generated'].append(output)
+    if st.session_state['generated']:
+            with response_container:
+                for i in range(len(st.session_state['generated'])):
+                    message(st.session_state["past"][i], is_user=True, key=str(i) + '_user', avatar_style="big-smile")
+                    message(st.session_state["generated"][i], key=str(i), avatar_style="thumbs")
+if __name__=='__main__':
+    ui()

helper.py ADDED Viewed

	@@ -0,0 +1,83 @@

+import tempfile
+import streamlit as st
+from streamlit_chat import message
+import torch
+import torch.nn
+import transformers
+from transformers import (
+    AutoModelForCausalLM,
+    AutoTokenizer,
+    BitsAndBytesConfig,
+    HfArgumentParser,
+    TrainingArguments,
+    pipeline,
+    logging,
+)
+import pandas as pd
+import numpy as np
+import os
+import io
+from langchain.document_loaders import TextLoader
+from langchain import PromptTemplate
+from langchain.text_splitter import CharacterTextSplitter
+from langchain.document_loaders import PyPDFLoader
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain.vectorstores import FAISS
+from langchain.chains.question_answering import load_qa_chain
+from langchain.chains import RetrievalQA
+from langchain import HuggingFacePipeline
+def pdf_loader(file_path):
+  '''This is a function for loading the PDFs
+  Params:
+  file_path: The path of the PDF file
+  '''
+  output_file = "Loaded_PDF.txt"
+  loader = PyPDFLoader(file_path)
+  pdf_file_as_loaded_docs = loader.load()
+  return pdf_file_as_loaded_docs
+def splitDoc(loaded_docs):
+    '''This is a function that creates the chunks of our loaded Document
+    Params:
+    loaded_docs:The loaded document from the pdf_loader function'''
+    splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=10)
+    chunked_docs = splitter.split_documents(loaded_docs)
+    return chunked_docs
+def makeEmbeddings(chunked_docs):
+    '''This is a functuon for making the embeddings of the chunked document
+    Params:
+    chunked_docs:The chunked docs'''
+    embedder = HuggingFaceEmbeddings()
+    vector_store = FAISS.from_documents(chunked_docs, embedder)#making a FAISS based vector data
+    return vector_store
+def create_flan_t5_base(load_in_8bit=False):
+    ''''Loading the Flan T5 base in the form of pipeline'''
+    # Wrap it in HF pipeline for use with LangChain
+    model="google/flan-t5-base"
+    tokenizer = AutoTokenizer.from_pretrained(model)
+    return pipeline(
+        task="text2text-generation",
+        model=model,
+        tokenizer = tokenizer,
+        max_new_tokens=100,
+        model_kwargs={ "load_in_8bit": load_in_8bit, "max_length": 512, "temperature": 0.}
+    )
+def conversational_chat(chain,query):
+    result = chain({"question": query,
+    "chat_history": st.session_state['history']})
+    st.session_state['history'].append((query, result["answer"]))
+    return result["answer"]

requirements.txt ADDED Viewed

	@@ -0,0 +1,11 @@

+langchain
+huggingfacehub
+langchain
+streamlit
+openai
+tiktoken
+faiss-cpu
+streamlit_chat
+transformers
+sentence_transformers
+pypdf