Spaces:

santhoshml
/

Meta10K-2

Sleeping

App Files Files Community

santhoshml commited on May 1

Commit

e90e7d7

•

1 Parent(s): 1d36b50

committing v1

Browse files

Files changed (6) hide show

.gitattributes +1 -0
Dockerfile +14 -0
app.py +52 -0
meta-10k.pdf +3 -0
requirements.txt +7 -0
utils.py +63 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+meta-10k.pdf filter=lfs diff=lfs merge=lfs -text

Dockerfile ADDED Viewed

	@@ -0,0 +1,14 @@

+# read the doc: https://huggingface.co/docs/hub/spaces-sdks-docker
+# you will also find guides on how best to write your Dockerfile
+FROM python:3.11.8
+WORKDIR /code
+COPY ./requirements.txt /code/requirements.txt
+RUN pip install --no-cache-dir --upgrade -r /code/requirements.txt
+COPY . .
+CMD ["uvicorn", "app.main:app", "--host", "0.0.0.0", "--port", "7860"]

app.py ADDED Viewed

	@@ -0,0 +1,52 @@

+from langchain_openai import ChatOpenAI
+from langchain_core.prompts import ChatPromptTemplate
+import tiktoken
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.document_loaders import PyMuPDFLoader
+from langchain_community.vectorstores import Qdrant
+from langchain_openai.embeddings import OpenAIEmbeddings
+from operator import itemgetter
+from langchain.schema.output_parser import StrOutputParser
+from langchain.schema.runnable import RunnablePassthrough
+from utils import *
+import os
+import getpass
+from langchain.globals import set_debug
+class RAGMeta10K:
+    def __init__(self) -> None:
+        os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")
+        # set_debug(True)
+        self.UtilsObject = Utils()
+        self.rag_prompt_template = self.UtilsObject.init_prompt()
+        self.UtilsObject.split_into_chunks()
+        self.qdrant_retriever = self.UtilsObject.get_vector_store().as_retriever()
+    def ask_question(self, question: str):
+        retrieval_augmented_qa_chain = (
+            {"context": itemgetter("question") | self.qdrant_retriever, "question": itemgetter("question")}
+            | RunnablePassthrough.assign(context=itemgetter("context"))
+            | {"response": self.rag_prompt_template | self.UtilsObject.get_llm_model(), "context": itemgetter("context")}
+        )
+        response = retrieval_augmented_qa_chain.invoke({"question" : question})
+        print("response :"+ response["response"].content)
+        # print("*******")
+        # for context in response["context"]:
+        #     print("Context:")
+        #     print(context)
+        #     print("----")
+ragObject = RAGMeta10K()
+ragObject.ask_question("Who are Directors?")    #works
+ragObject.ask_question("what is the value of Total cash and cash equivalents ?") #works
+#ragObject.ask_question("What is the value of total cash and cash equivalents?")
+# ragObject.ask_question("Who are the is the Board Chair and Chief Executive Officer ?")
+#ragObject.ask_question("Who is the Board Chair and Chief Executive Officer ?")

meta-10k.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8fadc2448e4f99ad0ec2dc2e41d13b864204955238cf1f7cd9c96839f274a6c
+size 2481466

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+langchain-openai
+langchain_core
+tiktoken
+langchain
+langchain_community
+langchain_openai
+typing

utils.py ADDED Viewed

	@@ -0,0 +1,63 @@

+from langchain_openai import ChatOpenAI
+import tiktoken
+from langchain.document_loaders import PyMuPDFLoader
+from langchain_core.prompts import ChatPromptTemplate
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_openai.embeddings import OpenAIEmbeddings
+from typing import List
+from langchain_core.documents.base import Document
+from langchain_community.vectorstores import Qdrant
+class Utils:
+    def __init__(
+        self,
+        llm_name: str = "gpt-3.5-turbo",
+        pdf_name: str = "meta-10k.pdf",
+        embedding_model: str = "text-embedding-3-small",
+    ) -> None:
+        self.openai_chat_model = ChatOpenAI(model=llm_name)
+        self.enc = tiktoken.encoding_for_model(llm_name)
+        self.docs = PyMuPDFLoader(pdf_name).load()
+        self.embedding_model = OpenAIEmbeddings(model=embedding_model)
+    #semanticTextSplitter
+    #tokenRTextSplitter
+    def split_into_chunks(self):
+        text_splitter = RecursiveCharacterTextSplitter(
+            chunk_size=500, chunk_overlap=50, length_function=self.tiktoken_len
+        )
+        self.split_chunks = text_splitter.split_documents(self.docs)
+        return self.split_chunks
+    def get_llm_model(self):
+        return self.openai_chat_model
+    def init_prompt(self) -> ChatPromptTemplate:
+        RAG_PROMPT = """
+            ###Instruction###:
+            Answer the question based only on the following context. If you cannot answer the question with the context, please respond with "I don't know":
+            CONTEXT:
+            {context}
+            QUERY:
+            {question}
+            """
+        rag_prompt = ChatPromptTemplate.from_template(RAG_PROMPT)
+        return rag_prompt
+    def tiktoken_len(self, text) -> int:
+        self.tokens = tiktoken.encoding_for_model("gpt-3.5-turbo").encode(
+            text,
+        )
+        return len(self.tokens)
+    def get_vector_store(self):
+        self.qdrant_vectorstore = Qdrant.from_documents(
+            self.split_chunks,
+            self.embedding_model,
+            location=":memory:",
+            collection_name="meta-10k",
+        )
+        return self.qdrant_vectorstore