Spaces:

vr18
/

legal-rag

Runtime error

App Files Files Community

legal-rag / app.py

vr18

Upload app.py

2ddc577 about 1 year ago

raw

history blame

4.02 kB

	from PyPDF2 import PdfReader
	# import pdfplumber
	from tqdm import tqdm
	import tiktoken
	from langchain.embeddings.sentence_transformer import SentenceTransformerEmbeddings
	from langchain.vectorstores import Chroma
	import openai
	import streamlit as st
	import gradio as gr
	from gradio.components import Textbox, Slider
	import os

	# take as env variable called OPENAI_API_KEY
	openai.api_key = os.getenv("OPENAI")
	print("openai.api_key", openai.api_key)

	# write some python constants for file name, paragraph length, overlapping length:
	file_path = "data/Hair-Relaxer-Master-Complaint-1.pdf"
	paragraph_length = 100
	overlapping_length = 50
	db = None

	from PyPDF2 import PdfReader


	def load_pdf(file_path):
	print("load pdf")
	reader = PdfReader(file_path)
	# concatenate all pages
	text = ''
	for page in tqdm(reader.pages):
	text += page.extract_text()
	return text


	def extract_text_with_format(pdf_path):
	with pdfplumber.open(pdf_path) as pdf:
	text = ''
	for page in tqdm(pdf.pages):
	text += page.extract_text()
	return text


	from collections import deque


	def split_text(text, paragraph_length, overlapping_length):
	enc = tiktoken.get_encoding("cl100k_base")
	enc = tiktoken.encoding_for_model("gpt-4")

	def get_len(tokens):
	return len(tokens)

	def tokens_to_text(tokens):
	return enc.decode(tokens)

	# split text so each item is max paragraph length and overlap is overlapping length
	splitted_text = []
	tokens = enc.encode(text)

	i = 0
	while i < len(tokens):
	start = max(i - overlapping_length, 0)
	end = i + paragraph_length
	splitted_text.append(tokens_to_text(tokens[start:end]))
	i += paragraph_length

	return splitted_text


	def save_in_DB(splitted_text):
	# Create the open-source embedding function
	embedding_function = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")
	db = Chroma.from_texts(splitted_text, embedding_function)
	print("Data saved successfully!")
	print("type db", type(db))
	return db


	def query(query_text, num_docs):
	st.title('RAG system')

	# query_text = st.text_input("Enter your question", "Cynthia W. Harris is a citizen of which state?", key="question")
	docs = db.similarity_search(query_text, k=num_docs)
	print("len(docs)", len(docs))
	# print each docs .page_content with klar abgrenzen
	for doc in docs:
	print("doc", doc.page_content)
	print()
	print()

	# Store the first 10 results as context
	context = '\n\n'.join([doc.page_content for doc in docs[:5]])
	# show context in streamlit with subheader
	"""st.subheader("Context:")
	st.write(context)"""
	instruct = f"The following is a context from various documents:\n{context}\n\nQuestion: {query_text}\nAnswer:"

	# Make an OpenAI request with the given context and query
	completion = openai.ChatCompletion.create(
	model="gpt-3.5-turbo", # or any other model you're targeting
	messages=[
	{"role": "user", "content": instruct}
	],
	max_tokens=150
	)

	# Extract the generated answer
	predicted = completion.choices[0].message["content"]

	# Return the generated answer
	st.subheader("Answer:")
	st.write(predicted)
	return predicted



	def run():
	global db
	print("run app")
	text = load_pdf(file_path)
	# text = extract_text_with_format(file_path)
	splitted_text = split_text(text, paragraph_length, overlapping_length)
	print("num splitted text", len(splitted_text))
	db = save_in_DB(splitted_text)
	print("type db", type(db))

	demo = gr.Interface(
	fn=query,
	inputs=[
	Textbox(lines=1, placeholder="Type your question here...", label="Question"),
	Slider(minimum=1, maximum=20, default=4, step=1, label="Number of Documents in Context")
	],
	outputs="text",
	theme="dark"
	)

	demo.launch()
	# query(db)

	run()