Spaces:

harshil1973
/

legal_document_search

Sleeping

App Files Files

harshil1973 commited on Sep 14, 2024

Commit

33ba695

1 Parent(s): 5b34e25

let's see

Browse files

Files changed (3) hide show

app.py +69 -27
docstore.json +0 -0
requirements.txt +2 -1

app.py CHANGED Viewed

@@ -11,13 +11,18 @@ from llama_index.core import VectorStoreIndex
 from llama_index.vector_stores.qdrant import QdrantVectorStore
 from llama_index.core import Settings
 from llama_index.embeddings.huggingface import HuggingFaceEmbedding
 nest_asyncio.apply()
 os.environ["HF_TOKEN"] = st.secrets["HF_TOKEN"]
 # default llamaindex llm and embendding model selection
 @st.cache_resource(show_spinner=False)
 def llamaindex_default():
-    Settings.llm = Groq(model="llama3-8b-8192", api_key="")
     Settings.embed_model = HuggingFaceEmbedding(
         model_name="law-ai/InLegalBERT", trust_remote_code=True
     )
@@ -34,8 +39,66 @@ def load_index():
     )
     return VectorStoreIndex.from_vector_store(vector_store=vector_store)
 index = load_index()
 # reranker selection in the sidebar
 with st.sidebar:
     selected_reranker = st.selectbox(
@@ -60,31 +123,6 @@ with st.sidebar:
         value=10
     )
-@st.cache_resource(show_spinner=False)
-def load_retriver():
-    dense_retriever = VectorIndexRetriever(
-        index=index,
-        similarity_top_k=num_k
-    )
-    sparse_retriever = BM25Retriever.from_persist_dir("./sparse_retriever")
-    sparse_retriever.similarity_top_k = num_k
-    retriever = QueryFusionRetriever(
-    [
-        dense_retriever,
-        sparse_retriever,
-    ],
-    num_queries=1,
-    use_async=False,
-    retriever_weights=[dense_weightage, sparse_weightage],
-    similarity_top_k=num_k,
-    mode="relative_score",
-    verbose=True,
-    )
-    return retriever
-retriever = load_retriver()
 st.title("Legal Documents Hybrid+Reranker Search")
 query = st.text_input("Search through documents by keyword", value="")
@@ -108,5 +146,9 @@ if search_btn and query:
         st.write("File Name: ", node["meta"].get("file_name"))
         st.write("reranking score: ", node["score"])
         st.write("node id", node["id"])
-        st.write(node["text"])
         st.write("---")

 from llama_index.vector_stores.qdrant import QdrantVectorStore
 from llama_index.core import Settings
 from llama_index.embeddings.huggingface import HuggingFaceEmbedding
+import PyPDF2
 nest_asyncio.apply()
 os.environ["HF_TOKEN"] = st.secrets["HF_TOKEN"]
+groq_token = st.secrets["groq_token"]
+st.set_page_config(
+    layout="wide"
+)
 # default llamaindex llm and embendding model selection
 @st.cache_resource(show_spinner=False)
 def llamaindex_default():
+    Settings.llm = Groq(model="llama-3.1-8b-instant", api_key=groq_token)
     Settings.embed_model = HuggingFaceEmbedding(
         model_name="law-ai/InLegalBERT", trust_remote_code=True
     )
     )
     return VectorStoreIndex.from_vector_store(vector_store=vector_store)
+@st.cache_resource(show_spinner=False)
+def load_retriver():
+    dense_retriever = VectorIndexRetriever(
+        index=index,
+        similarity_top_k=num_k
+    )
+    sparse_retriever = BM25Retriever.from_persist_dir("./sparse_retriever")
+    sparse_retriever.similarity_top_k = num_k
+    retriever = QueryFusionRetriever(
+    [
+        dense_retriever,
+        sparse_retriever,
+    ],
+    num_queries=1,
+    use_async=False,
+    retriever_weights=[dense_weightage, sparse_weightage],
+    similarity_top_k=num_k,
+    mode="relative_score",
+    verbose=True,
+    )
+    return retriever
+retriever = load_retriver()
 index = load_index()
+def extract_pdf_content(pdf_file_path):
+    with open(pdf_file_path, 'rb') as pdf_file:
+        pdf_reader = PyPDF2.PdfReader(pdf_file)
+        text = ""
+        for page_num in range(len(pdf_reader.pages)):
+            page = pdf_reader.pages[page_num]
+            text += page.extract_text()
+        return text
+#prompt template for summarization
+template = """
+Please summarize the following legal document and provide the summary in the specified format. The output should directly follow the format without any introductory text.
+**Document:**
+{document_content}
+**Format:**
+**Case:** [Case Number]
+**Petitioner:** [Petitioner's Name]
+**Respondent:** [Respondent's Name]
+**Judge:** [Judge's Name]
+**Order Date:** [Order Date]
+**Summary:**
+- **Background:** [Brief description of the case background]
+- **Allegations:** [Summary of the allegations made in the case]
+- **Investigation:** [Key findings from the investigation]
+- **Court's Decision:** [Summary of the court's decision and any conditions imposed]
+"""
 # reranker selection in the sidebar
 with st.sidebar:
     selected_reranker = st.selectbox(
         value=10
     )
 st.title("Legal Documents Hybrid+Reranker Search")
 query = st.text_input("Search through documents by keyword", value="")
         st.write("File Name: ", node["meta"].get("file_name"))
         st.write("reranking score: ", node["score"])
         st.write("node id", node["id"])
+        with st.expander("See Summary"):
+            text = extract_pdf_content(node["meta"].get("file_name"))
+            formatted_template = template.format(document_content=text)
+            summary = Settings.llm.complete(formatted_template)
+            st.write(summary)
         st.write("---")

docstore.json DELETED Viewed

The diff for this file is too large to render. See raw diff

requirements.txt CHANGED Viewed

@@ -7,4 +7,5 @@ xformers
 ipython
 matplotlib
 fastembed
-flashrank[listwise]

 ipython
 matplotlib
 fastembed
+flashrank[listwise]
+PyPDF2