Spaces:

AamirAli123
/

chat_with_pdf

Running

App Files Files Community

AamirAli123 commited on Feb 29, 2024

Commit

4229477

verified ·

1 Parent(s): 0d7efba

Update app.py

Browse files

Files changed (1) hide show

app.py +39 -21

app.py CHANGED Viewed

@@ -12,9 +12,15 @@ from langchain.memory import ConversationBufferMemory
 from langchain.llms import HuggingFaceHub
 from pathlib import Path
 import chromadb
 load_dotenv()
 huggingfacehub_api_token = os.getenv("HUGGINGFACEHUB_API_TOKEN")
 # default_persist_directory = './chroma_HF/'
 list_llm = ["mistralai/Mixtral-8x7B-Instruct-v0.1", "mistralai/Mistral-7B-Instruct-v0.1", \
     "google/gemma-7b-it","google/gemma-2b-it", \
@@ -23,7 +29,16 @@ list_llm = ["mistralai/Mixtral-8x7B-Instruct-v0.1", "mistralai/Mistral-7B-Instru
     "google/flan-t5-xxl"
 ]
 list_llm_simple = [os.path.basename(llm) for llm in list_llm]
 # Load PDF document and create doc splits
 def load_doc(list_file_path, chunk_size, chunk_overlap):
     # Processing for one document only
@@ -37,18 +52,6 @@ def load_doc(list_file_path, chunk_size, chunk_overlap):
     doc_splits = text_splitter.split_documents(pages)
     return doc_splits
-def load_doc_for_openai(list_file_path):
-    # Processing for one document only
-    loaders = [PyPDFLoader(x) for x in list_file_path]
-    pages = []
-    for loader in loaders:
-        pages.extend(loader.load())
-    text_splitter = RecursiveCharacterTextSplitter(
-        chunk_size = 600,
-        chunk_overlap = 40)
-    doc_splits = text_splitter.split_documents(pages)
-    return doc_splits
 # Create vector database
 def create_db(splits, collection_name):
     embedding = HuggingFaceEmbeddings()
@@ -117,9 +120,15 @@ def initialize_llmchain(llm_model, temperature, max_tokens, top_k, vector_db, pr
 # Initialize database
-def initialize_database(list_file_obj, chunk_size, chunk_overlap, vector_db, progress = gr.Progress()):
-    # Create list of documents (when valid)
-    list_file_path = [x.name for x in list_file_obj if x is not None]
     # Create collection_name for vector database
     progress(0.1, desc="Creating collection name...")
     collection_name = Path(list_file_path[0]).stem
@@ -142,7 +151,7 @@ def initialize_database(list_file_obj, chunk_size, chunk_overlap, vector_db, pro
     progress(0.7, desc="Generating vector database...")
     # global vector_db
     vector_db = create_db(doc_splits, collection_name)
-    return vector_db, collection_name, "Complete!"
 def re_initialize_LLM(llm_option, llm_temperature, max_tokens, top_k, vector_db):
@@ -195,6 +204,15 @@ def demo():
             with gr.Row():
                 with gr.Column():
                     document = gr.Files(file_count="multiple", file_types=["pdf"], interactive=True, label="Upload your PDF documents (single or multiple)")
                     with gr.Row():
                         db_btn = gr.Radio(["ChromaDB"], label="Vector database type", value = "ChromaDB", type="index", info="Choose your vector database", visible = False)
                     with gr.Accordion("Advanced options - Document text splitter", open=False, visible = False):
@@ -203,7 +221,7 @@ def demo():
                         with gr.Row():
                             slider_chunk_overlap = gr.Slider(minimum = 10, maximum = 200, value=40, step=10, label="Chunk overlap", info="Chunk overlap", interactive=True, visible = False)
                     llm_btn = gr.Radio(list_llm_simple, label = "LLM models", type = "index", info = "Choose your LLM model")
-                    db_progress = gr.Textbox(label="Vector database initialization", value="None")
                     with gr.Row():
                         submit_file = gr.Button("Submit File")
             with gr.Row():
@@ -223,8 +241,8 @@ def demo():
         # Preprocessing events
         #upload_btn.upload(upload_file, inputs=[upload_btn], outputs=[document])
         submit_file.click(initialize_database, \
-            inputs=[document, slider_chunk_size, slider_chunk_overlap, vector_db], \
-            outputs = [vector_db, collection_name, db_progress])
         llm_btn.change(
             re_initialize_LLM, \
             inputs = [llm_btn, slider_temperature, slider_maxtokens, slider_topk, vector_db], \

 from langchain.llms import HuggingFaceHub
 from pathlib import Path
 import chromadb
+# Later Packages
+from getpass import getpass
+import weasyprint
+import matplotlib.pyplot as plt
+from langchain.document_loaders import PyPDFDirectoryLoader
 load_dotenv()
 huggingfacehub_api_token = os.getenv("HUGGINGFACEHUB_API_TOKEN")
+openai_key = os.getenv("OPEN_API_KEY")
 # default_persist_directory = './chroma_HF/'
 list_llm = ["mistralai/Mixtral-8x7B-Instruct-v0.1", "mistralai/Mistral-7B-Instruct-v0.1", \
     "google/gemma-7b-it","google/gemma-2b-it", \
     "google/flan-t5-xxl"
 ]
 list_llm_simple = [os.path.basename(llm) for llm in list_llm]
+# Craete PDf from URL
+def create_pdf_from_url(url):
+    pdf = weasyprint.HTML(url).write_pdf()
+    output_dir = "pdfDir"
+    if not os.path.exists(output_dir):
+        os.makedirs(output_dir)
+    file_path = os.path.join(output_dir,'url_pdf.pdf')
+    with open(file_path,'wb') as f:
+        f.write(pdf)
+    return file_path
 # Load PDF document and create doc splits
 def load_doc(list_file_path, chunk_size, chunk_overlap):
     # Processing for one document only
     doc_splits = text_splitter.split_documents(pages)
     return doc_splits
 # Create vector database
 def create_db(splits, collection_name):
     embedding = HuggingFaceEmbeddings()
 # Initialize database
+def initialize_database(list_file_obj, chunk_size, chunk_overlap, vector_db, url, progress = gr.Progress()):
+    if url != "":
+       file_path = create_pdf_from_url(url)
+       list_file_obj = []
+       list_file_obj.append(file_path)
+       list_file_path = list_file_obj
+    else:
+        # Create list of documents (when valid)
+        list_file_path = [x.name for x in list_file_obj if x is not None]
     # Create collection_name for vector database
     progress(0.1, desc="Creating collection name...")
     collection_name = Path(list_file_path[0]).stem
     progress(0.7, desc="Generating vector database...")
     # global vector_db
     vector_db = create_db(doc_splits, collection_name)
+    return vector_db, collection_name, gr.update(value = ""), "Complete!"
 def re_initialize_LLM(llm_option, llm_temperature, max_tokens, top_k, vector_db):
             with gr.Row():
                 with gr.Column():
                     document = gr.Files(file_count="multiple", file_types=["pdf"], interactive=True, label="Upload your PDF documents (single or multiple)")
+                    with gr.Row():
+                            gr.Markdown(
+                            '''
+                            <div style="text-align:center;">
+                                <span style="font-size:2em; font-weight:bold;">OR</span>
+                            </div>
+                            ''')
+                    with gr.Row():
+                        url = gr.Textbox(placeholder = "Enter your URL Here")
                     with gr.Row():
                         db_btn = gr.Radio(["ChromaDB"], label="Vector database type", value = "ChromaDB", type="index", info="Choose your vector database", visible = False)
                     with gr.Accordion("Advanced options - Document text splitter", open=False, visible = False):
                         with gr.Row():
                             slider_chunk_overlap = gr.Slider(minimum = 10, maximum = 200, value=40, step=10, label="Chunk overlap", info="Chunk overlap", interactive=True, visible = False)
                     llm_btn = gr.Radio(list_llm_simple, label = "LLM models", type = "index", info = "Choose your LLM model")
+                    db_progres = gr.Textbox(label="Vector database initialization", value="None")
                     with gr.Row():
                         submit_file = gr.Button("Submit File")
             with gr.Row():
         # Preprocessing events
         #upload_btn.upload(upload_file, inputs=[upload_btn], outputs=[document])
         submit_file.click(initialize_database, \
+            inputs=[document, slider_chunk_size, slider_chunk_overlap, vector_db, url], \
+            outputs = [vector_db, collection_name, url, db_progres])
         llm_btn.change(
             re_initialize_LLM, \
             inputs = [llm_btn, slider_temperature, slider_maxtokens, slider_topk, vector_db], \