Spaces:

naitik31
/

LawBot511

No application file

App Files Files Community

naitik31 commited on Sep 16, 2023

Commit

2df226a

•

1 Parent(s): 649f58b

Upload 6 files

Browse files

Files changed (7) hide show

.gitattributes +2 -0
LawGPT/LawGPT.py +69 -0
LawGPT/Lawbot511.png +3 -0
LawGPT/VectorEmbeddings.py +15 -0
LawGPT/data/ipc_law.pdf +3 -0
LawGPT/ipc_vector_data/chroma.sqlite3 +0 -0
LawGPT/requirements.txt +8 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+LawGPT/data/ipc_law.pdf filter=lfs diff=lfs merge=lfs -text
+LawGPT/Lawbot511.png filter=lfs diff=lfs merge=lfs -text

LawGPT/LawGPT.py ADDED Viewed

	@@ -0,0 +1,69 @@

+from langchain.vectorstores import Chroma
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+from transformers import pipeline
+import torch
+from langchain.llms import HuggingFacePipeline
+from langchain.embeddings import SentenceTransformerEmbeddings
+from langchain.chains import RetrievalQA
+import gradio as gr
+def chat(chat_history, user_input):
+    bot_response = qa_chain({"query": user_input})
+    bot_response = bot_response['result']
+    response = ""
+    for letter in ''.join(bot_response):
+        response += letter + ""
+        yield chat_history + [(user_input, response)]
+checkpoint = "MBZUAI/LaMini-Flan-T5-783M"
+tokenizer = AutoTokenizer.from_pretrained(checkpoint)
+base_model = AutoModelForSeq2SeqLM.from_pretrained(
+    checkpoint,
+    device_map="auto",
+    torch_dtype = torch.float32)
+embeddings = SentenceTransformerEmbeddings(model_name="sentence-transformers/multi-qa-mpnet-base-dot-v1")
+db = Chroma(persist_directory="ipc_vector_data", embedding_function=embeddings)
+pipe = pipeline(
+    'text2text-generation',
+    model = base_model,
+    tokenizer = tokenizer,
+    max_length = 512,
+    do_sample = True,
+    temperature = 0.3,
+    top_p= 0.95
+)
+local_llm = HuggingFacePipeline(pipeline=pipe)
+qa_chain = RetrievalQA.from_chain_type(llm=local_llm,
+        chain_type='stuff',
+        retriever=db.as_retriever(search_type="similarity", search_kwargs={"k":2}),
+        return_source_documents=True,
+        )
+with gr.Blocks() as gradioUI:
+    gr.Image('lawbot511.png')
+    with gr.Row():
+        chatbot = gr.Chatbot()
+    with gr.Row():
+        input_query = gr.TextArea(label='Input',show_copy_button=True)
+    with gr.Row():
+        with gr.Column():
+            submit_btn = gr.Button("Submit", variant="primary")
+        with gr.Column():
+            clear_input_btn = gr.Button("Clear Input")
+        with gr.Column():
+            clear_chat_btn = gr.Button("Clear Chat")
+    submit_btn.click(chat, [chatbot, input_query], chatbot)
+    submit_btn.click(lambda: gr.update(value=""), None, input_query, queue=False)
+    clear_input_btn.click(lambda: None, None, input_query, queue=False)
+    clear_chat_btn.click(lambda: None, None, chatbot, queue=False)
+gradioUI.queue().launch()

LawGPT/Lawbot511.png ADDED Viewed

Git LFS Details

SHA256: bf394ee73e68a0fe9a3d4c8de7158ef519ca3c1af93bb507b232ea1528caaaf8
Pointer size: 132 Bytes
Size of remote file: 1.03 MB

LawGPT/VectorEmbeddings.py ADDED Viewed

	@@ -0,0 +1,15 @@

+from langchain.document_loaders import PyPDFLoader, DirectoryLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.embeddings import SentenceTransformerEmbeddings
+from langchain.vectorstores import Chroma
+loader = DirectoryLoader('data', glob="./*.pdf", loader_cls=PyPDFLoader)
+documents = loader.load()
+text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=200)
+texts = text_splitter.split_documents(documents)
+embeddings = SentenceTransformerEmbeddings(model_name="multi-qa-mpnet-base-dot-v1")
+persist_directory = "ipc_vector_data"
+db = Chroma.from_documents(texts, embeddings, persist_directory=persist_directory)

LawGPT/data/ipc_law.pdf ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e67161633a056f77848221ab30c49b26199c66cc844ee559ac47d2ca5dea9256
+size 20102169

LawGPT/ipc_vector_data/chroma.sqlite3 ADDED Viewed

Binary file (127 kB). View file

LawGPT/requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+langchain
+transformers
+torch
+gradio
+sentence-transformers
+accelerate
+chromadb
+pypdf