Spaces:

WhiskeyCorridor
/

PDF-Chatbot

Running

App Files Files Community

PDF-Chatbot / fileingestor.py

WhiskeyCorridor

Upload 7 files

5459be4 verified about 2 months ago

raw history blame contribute delete

No virus

4.39 kB

	# Import streamlit, langchanin, PyMuPDFLoader, dan file loadllm
	# PyMuPDFLoader adalah library untuk mengekstraksi, menganalisa, dan mengkonversi data dari dokumen PDF
	import streamlit as st
	from langchain.document_loaders import PyMuPDFLoader
	from loadllm import Loadllm
	from streamlit_chat import message
	import tempfile
	from langchain.embeddings import HuggingFaceEmbeddings
	from langchain.vectorstores import FAISS
	from langchain.chains import ConversationalRetrievalChain

	# Load model directly
	#from transformers import AutoModel

	# Path dimana hasil vectore score dari FAISS akan disimpan
	# FAISS (Facebook AI Similarity Search) adalah sebuah library untuk mencari embedding dalam dokumen yang serupa satu dengan yang lainnya
	# FAISS mempunyai algoritma yang mencari kesamaan di set vector dengan ukuran apapun
	# FAISS bisa mencari melalui banyak informasi dengan cepat dan memilih mereka yang penting
	DB_FAISS_PATH = 'vectorstore/db_faiss'

	class FileIngestor:
	def __init__(self, uploaded_file):
	self.uploaded_file = uploaded_file

	def handlefileandingest(self):
	with tempfile.NamedTemporaryFile(delete=False) as tmp_file:
	tmp_file.write(self.uploaded_file.getvalue())
	tmp_file_path = tmp_file.name

	loader = PyMuPDFLoader(file_path=tmp_file_path)
	data = loader.load()

	# Create embeddings using Sentence Transformers
	# Word embedding dari dokumen akan dibuat menggunakan sentence-transformers yang disediakan HuggingFace
	# Transformer ini berbasis BERT dan bisa memetakan kalimat dan paragraf menjadi vector space dengan
	# densitas 384 dimensi
	embeddings = HuggingFaceEmbeddings(model_name='sentence-transformers/all-MiniLM-L6-v2')

	# Create a FAISS vector store and save embeddings
	db = FAISS.from_documents(data, embeddings)
	db.save_local(DB_FAISS_PATH)

	# Load the language model
	# Load model Llama 2 yang telah disiapkan di file loadllm.py
	llm = Loadllm.load_llm()
	#llm = AutoModel.from_pretrained("TheBloke/Llama-2-7B-Chat-GGUF")

	# Create a conversational chain
	# Membuat chain conversation dari Llama 2
	chain = ConversationalRetrievalChain.from_llm(llm=llm, retriever=db.as_retriever())

	# Function for conversational chat
	# Memasukkan chat baru bagi Streamlit
	# Query adalah pertanyaan yang kita berikan, answer jawaban, dan history agar Llama mengetahui
	# konteks untuk percakapan kita dengan dia
	def conversational_chat(query):
	result = chain({"question": query, "chat_history": st.session_state['history']})
	st.session_state['history'].append((query, result["answer"]))
	return result["answer"]

	# Initialize chat history
	if 'history' not in st.session_state:
	st.session_state['history'] = []

	# Initialize messages
	if 'generated' not in st.session_state:
	st.session_state['generated'] = ["Hello ! Ask me(LLAMA2) about " + self.uploaded_file.name + " 🤗"]

	if 'past' not in st.session_state:
	st.session_state['past'] = ["Hey ! 👋"]

	# Create containers for chat history and user input
	# Buat container untuk display UI
	response_container = st.container()
	container = st.container()

	# User input form
	with container:
	with st.form(key='my_form', clear_on_submit=True):
	user_input = st.text_input("Query:", placeholder="Talk to PDF data 🧮", key='input')
	submit_button = st.form_submit_button(label='Send')

	# Jika kita mengklik tombol submit/enter dan user input telah diisi, maka conversation akan kita mulai
	if submit_button and user_input:
	output = conversational_chat(user_input)
	st.session_state['past'].append(user_input)
	st.session_state['generated'].append(output)

	# Display chat history
	if st.session_state['generated']:
	with response_container:
	for i in range(len(st.session_state['generated'])):
	message(st.session_state["past"][i], is_user=True, key=str(i) + '_user', avatar_style="big-smile")
	message(st.session_state["generated"][i], key=str(i), avatar_style="thumbs")