Spaces:

Ronr
/

pdf-search-api

Sleeping

App Files Files Community

Ronr commited on Aug 16, 2023

Commit

3a0e6a8

1 Parent(s): 1cf82b8

Upload 2 files

Browse files

Files changed (2) hide show

main.py +174 -0
requirements.txt +7 -0

main.py ADDED Viewed

	@@ -0,0 +1,174 @@

+from fastapi import FastAPI, HTTPException, Body, File, Form, UploadFile
+from fastapi.middleware.cors import CORSMiddleware
+from fastapi.responses import FileResponse
+import os
+import openai
+from langchain.chains import RetrievalQA
+from langchain.llms import OpenAI
+from langchain.document_loaders import TextLoader
+from langchain.document_loaders import PyPDFLoader
+from langchain.document_loaders import DirectoryLoader
+from langchain.text_splitter import CharacterTextSplitter
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.embeddings import OpenAIEmbeddings
+from langchain.vectorstores import Chroma
+from langchain.callbacks import get_openai_callback
+from langchain.chat_models import AzureChatOpenAI
+from langchain.llms import AzureOpenAI
+# Import Azure OpenAI
+from langchain.llms import AzureOpenAI
+import uvicorn
+import datetime
+import shutil
+app = FastAPI()
+origins = ['*']
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=origins,
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"]
+)
+os.environ["OPENAI_API_TYPE"] = "Azure"
+os.environ["OPENAI_API_VERSION"] ="2023-05-15"
+os.environ["OPENAI_API_BASE"] = "https://rgenopenaitest.openai.azure.com/"
+os.environ["DEPLOYMENT_NAME"]= "rgen_pdf_analyzer"
+@app.get("/")
+async def read_item():
+    return {"message": "App Working"}
+@app.post("/search")
+async def upload_pdf(file: UploadFile = None, api_key: str = Form(...), text: str = Form(...)):
+    timestamp = datetime.datetime.now()
+    print(f'---------------------------------------------------{timestamp}------------------------------------------------------')
+    print(f'query: {text}')
+    try:
+        if file is not None:
+            folder_path = "./pdf_temp_storage"
+            # Create the folder if it doesn't exist
+            if not os.path.exists(folder_path):
+                os.makedirs(folder_path)
+            file_name = os.path.join('./pdf_temp_storage', file.filename)
+            await save_pdf(file_name, file)
+            openAi_api = api_key
+            query = text+"\n" +"Response should not be longer than 300 words"
+            response = qa_result(openAi_api, query, file_name, "map_reduce")
+            print(response)
+            print('-----------------------------------------------------------------------------------------------------------------------------------')
+            return response
+        else:
+            return chat_openai(api_key, text)
+    except Exception as e:
+        print("Error: ", e)
+        return e
+    finally:
+        # Cleanup operations regardless of success or failure
+        # shutil.rmtree(folder_path)
+        if file is not None:
+            rem_documents(file_name)
+        print('-----------------------------------------------------------------------------------------------------------------------------------')
+def chat_openai(api_key,prompt_text):
+    # os.environ["OPENAI_API_KEY"] = api_key
+    print('Inside chat')
+    openai.api_key =api_key
+    openai.api_type = "azure"
+    openai.api_base = "https://rgenopenaitest.openai.azure.com/"
+    openai.api_version = "2023-03-15-preview"
+    # openai.api_key = os.getenv("OPENAI_API_KEY")
+    if prompt_text:
+        response = openai.ChatCompletion.create(
+        engine="rgen_pdf_analyzer",
+        messages = [{"role":"system","content":"You are an AI assistant that helps people find information."},
+                    {"role": "user", "content": prompt_text }],
+        temperature=0.7,
+        max_tokens=800,
+        top_p=0.95,
+        frequency_penalty=0,
+        presence_penalty=0,
+        stop=None)
+    print("Answers to the prommpt :------->", response["choices"][0]["message"]["content"])
+    return {
+                "response": response["choices"][0]["message"]["content"],
+            }
+def qa(file , query, chain_type, k):
+    if os.path.splitext(file)[1].lower() == ".pdf":
+        loader = PyPDFLoader(file)
+        documents = loader.load()
+        text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
+        texts = text_splitter.split_documents(documents)
+    else:
+        # loader = DirectoryLoader('./pdf_temp_storage', glob="*", loader_cls=TextLoader)
+        # documents = loader.load()
+        with open(file) as f:
+            documents = f.read()
+        text_splitter = RecursiveCharacterTextSplitter(
+            # Set a really small chunk size, just to show.
+            chunk_size = 1000,
+            chunk_overlap  = 100,
+            length_function = len,
+        )
+        texts = text_splitter.create_documents([documents])
+    azure_llm = AzureChatOpenAI(
+        openai_api_base=os.environ["OPENAI_API_BASE"],
+        openai_api_version="2023-05-15",
+        deployment_name=os.environ["DEPLOYMENT_NAME"],
+        openai_api_type="azure",
+    )
+    embeddings = OpenAIEmbeddings(model='text-embedding-ada-002',
+                              deployment='text_embeddings',
+                              openai_api_base='https://rgenopenaitest.openai.azure.com/',
+                              openai_api_type='azure',
+                              chunk_size=1)
+    db = Chroma.from_documents(texts, embeddings)
+    retriever = db.as_retriever(search_type="similarity", search_kwargs={"k": k})
+    qa = RetrievalQA.from_chain_type(llm=azure_llm, chain_type=chain_type, retriever=retriever, return_source_documents=True)
+    result = qa({"query": query})
+    print(result['result'])
+    return result
+def qa_result(api_key, prompt_text, file, Chain_type):
+    os.environ["OPENAI_API_KEY"] = api_key
+    if prompt_text:
+        with get_openai_callback() as cb:
+            result = qa(file=file, query=prompt_text, chain_type=Chain_type, k=2)
+            return {
+                "response": result["result"],
+                "reference": result["source_documents"],
+                "Total Tokens": {cb.total_tokens},
+                "Prompt Tokens": {cb.prompt_tokens},
+                "Completion Tokens": {cb.completion_tokens}
+            }
+async def save_pdf(file_name, file):
+    with open(file_name, "wb") as f:
+        f.write(await file.read())
+def rem_documents(file_path):
+    try:
+        os.remove(file_path)
+        print("File deleted successfully:", file_path)
+    except FileNotFoundError:
+        print("File not found:", file_path)
+    except Exception as e:
+        print("An error occurred while deleting the file:", str(e))

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+langchain
+openai
+chromadb
+tiktoken
+pypdf
+fastapi
+python-multipart