pdf_to_langchain_ai_gradio

Runtime error

App Files Files Community

raghuram13

skeitel commited on Jul 21, 2023

Commit

0f4521b

•

0 Parent(s):

Duplicate from skeitel/pdf_to_langchain_ai_gradio

Browse files

Co-authored-by: Skeitel <skeitel@users.noreply.huggingface.co>

Files changed (4) hide show

.gitattributes +34 -0
README.md +13 -0
app.py +98 -0
requirements.txt +0 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,34 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,13 @@

+---
+title: Pdf To Langchain Ai Gradio
+emoji: 📉
+colorFrom: pink
+colorTo: blue
+sdk: gradio
+sdk_version: 3.27.0
+app_file: app.py
+pinned: false
+duplicated_from: skeitel/pdf_to_langchain_ai_gradio
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,98 @@

+#GRADIO INTERFACE TO CONVERT A PDF TO TEXT AND READ IT WITH LANGCHAIN AND OPEN AI ###################################
+import gradio as gr
+import PyPDF2, os, sys, random, time, shutil
+from pypdf import PdfReader
+from llama_index import SimpleDirectoryReader, GPTListIndex, readers, GPTSimpleVectorIndex, LLMPredictor, PromptHelper
+from langchain.chat_models import ChatOpenAI
+from langchain import OpenAI
+import openai
+directory_path = '/converted_pdf_to_text'
+def extract_info(pdf_file):
+    #BEGINS PDF TO TEXT SECTION ###################
+    if pdf_file.name.lower().endswith('.pdf'):
+        reader = PdfReader(pdf_file.name)
+        pages = reader.pages
+        extracted_text = [i.extract_text() for i in pages]
+        #WRITING TEXT FILE TO FOLDER ##############
+        directory_name = 'converted_pdf_to_text'
+        if not os.path.exists(directory_name):
+            os.mkdir(directory_name)
+        file_name = 'document_in_txt_format.txt'
+        file_path = os.path.join(directory_name, file_name)
+        with open(file_path, 'w', encoding = 'UTF-8') as f:
+            f.write(str(extracted_text))
+        if os.path.isfile(file_path):
+            print(f'{file_name} created successfully in {directory_name}.')
+        else:
+             print(f"{file_name} creation in {directory_name} failed.")
+        #BEGINS LLM SECTION ##########
+        max_input_size = 4096
+        num_outputs = 500
+        max_chunk_overlap = 200
+        chunk_size_limit = 4000
+        llm_predictor = LLMPredictor(llm = ChatOpenAI(temperature=0, model_name='gpt-3.5-turbo', max_tokens=num_outputs))
+        prompt_helper = PromptHelper(max_input_size, num_outputs, max_chunk_overlap, chunk_size_limit=chunk_size_limit)
+        documents = SimpleDirectoryReader(directory_name).load_data()
+        global index
+        index = GPTSimpleVectorIndex(documents, llm_predictor=llm_predictor, prompt_helper=prompt_helper)
+        #Remove json file if it exists to make sure it's not using a previous index file as source
+        if os.path.exists("index.json"):
+            os.remove("index.json")
+            print("The file 'index.json' has been deleted.")
+        else:
+            print("The file 'index.json' does not exist.")
+        #Save json index to disk from current information
+        index.save_to_disk('index.json')
+        #Remove directory with initial text file
+        #shutil.rmtree(directory_name)
+        return ("Success! You can now click on the 'Knowledge bot' tab to interact with your document")
+def chat(chat_history, user_input):
+    bot_response = index.query(user_input)
+    response = ''
+    #Show each letter progressively
+    for letter in ''.join(bot_response.response):
+        response += letter + ""
+        yield chat_history + [(user_input, response)]
+messages = [{"role": "system", "content": """You are a helpful assistant. You help the reader understand documents paraphrasing, quoting and summarizing information. You follow the instructions of the user at all times"""}]
+openai.api_key = os.getenv("OPENAI_API_KEY")
+with gr.Blocks() as demo:
+    gr.Markdown('Q&A bot for PDF docs. Upload your document, press the button and wait for confirmation of success')
+    with gr.Tab('Input PDF document here'):
+        text_input = gr.File()
+        text_output = gr.Textbox()
+        text_button = gr.Button('Build the bot!')
+        text_button.click(extract_info, text_input, text_output)
+    with gr.Tab('Knowledge bot'):
+        chatbot = gr.Chatbot()
+        message = gr.Textbox(label = 'Ask here your question about the document, then press "enter" and scroll up for response')
+        message.submit(chat, [chatbot, message], chatbot)
+demo.queue().launch(debug = True)
+if __name__ == "__main__":
+    demo.launch()

requirements.txt ADDED Viewed

Binary file (1.75 kB). View file