Spaces:

WhiskeyCorridor
/

PDF-Chatbot

Sleeping

App Files Files Community

WhiskeyCorridor commited on Apr 21

Commit

5459be4

•

1 Parent(s): a5952d8

Upload 7 files

Browse files

Files changed (7) hide show

.gitignore +163 -0
README.md +6 -12
app.py +21 -0
fileingestor.py +94 -0
loadllm.py +44 -0
readme.txt +45 -0
requirements.txt +12 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,163 @@

+# Byte-compiled / optimized / DLL files
+__pycache__/
+*.py[cod]
+*$py.class
+# C extensions
+*.so
+# Distribution / packaging
+.Python
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+share/python-wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+MANIFEST
+*.Q4_K_M.gguf
+*.gguf
+*.Q4_K_M
+# PyInstaller
+#  Usually these files are written by a python script from a template
+#  before PyInstaller builds the exe, so as to inject date/other infos into it.
+*.manifest
+*.spec
+# Installer logs
+pip-log.txt
+pip-delete-this-directory.txt
+# Unit test / coverage reports
+htmlcov/
+.tox/
+.nox/
+.coverage
+.coverage.*
+.cache
+nosetests.xml
+coverage.xml
+*.cover
+*.py,cover
+.hypothesis/
+.pytest_cache/
+cover/
+# Translations
+*.mo
+*.pot
+# Django stuff:
+*.log
+local_settings.py
+db.sqlite3
+db.sqlite3-journal
+# Flask stuff:
+instance/
+.webassets-cache
+# Scrapy stuff:
+.scrapy
+# Sphinx documentation
+docs/_build/
+# PyBuilder
+.pybuilder/
+target/
+# Jupyter Notebook
+.ipynb_checkpoints
+# IPython
+profile_default/
+ipython_config.py
+# pyenv
+#   For a library or package, you might want to ignore these files since the code is
+#   intended to run in multiple environments; otherwise, check them in:
+# .python-version
+# pipenv
+#   According to pypa/pipenv#598, it is recommended to include Pipfile.lock in version control.
+#   However, in case of collaboration, if having platform-specific dependencies or dependencies
+#   having no cross-platform support, pipenv may install dependencies that don't work, or not
+#   install all needed dependencies.
+#Pipfile.lock
+# poetry
+#   Similar to Pipfile.lock, it is generally recommended to include poetry.lock in version control.
+#   This is especially recommended for binary packages to ensure reproducibility, and is more
+#   commonly ignored for libraries.
+#   https://python-poetry.org/docs/basic-usage/#commit-your-poetrylock-file-to-version-control
+#poetry.lock
+# pdm
+#   Similar to Pipfile.lock, it is generally recommended to include pdm.lock in version control.
+#pdm.lock
+#   pdm stores project-wide configurations in .pdm.toml, but it is recommended to not include it
+#   in version control.
+#   https://pdm.fming.dev/#use-with-ide
+.pdm.toml
+# PEP 582; used by e.g. github.com/David-OConnor/pyflow and github.com/pdm-project/pdm
+__pypackages__/
+# Celery stuff
+celerybeat-schedule
+celerybeat.pid
+# SageMath parsed files
+*.sage.py
+# Environments
+.env
+.venv
+env/
+venv/
+ENV/
+env.bak/
+venv.bak/
+# Spyder project settings
+.spyderproject
+.spyproject
+# Rope project settings
+.ropeproject
+# mkdocs documentation
+/site
+# mypy
+.mypy_cache/
+.dmypy.json
+dmypy.json
+# Pyre type checker
+.pyre/
+# pytype static type analyzer
+.pytype/
+# Cython debug symbols
+cython_debug/
+# PyCharm
+#  JetBrains specific template is maintained in a separate JetBrains.gitignore that can
+#  be found at https://github.com/github/gitignore/blob/main/Global/JetBrains.gitignore
+#  and can be added to the global gitignore or merged into this file.  For a more nuclear
+#  option (not recommended) you can uncomment the following to ignore the entire idea folder.
+#.idea/

README.md CHANGED Viewed

@@ -1,12 +1,6 @@
----
-title: PDF Chatbot
-emoji: ⚡
-colorFrom: red
-colorTo: blue
-sdk: streamlit
-sdk_version: 1.33.0
-app_file: app.py
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

+UTS NLP Semester Genap 2023 <br>
+Chatbot PDF dengan menggunakan Framework Streamlit dan LLM Llama 2 <br><br>
+1121018 - Friendly Sejati Bunardi<br>
+1121028 - David Kharis Elio m<br>
+1121030 - Juan Vincent Nugrahaputra<br>
+1121031 - Jonathan Senjaya<br>

app.py ADDED Viewed

	@@ -0,0 +1,21 @@

+# Import streamlit sebagai framework untuk aplikasi ini
+import streamlit as st
+from fileingestor import FileIngestor
+# Set the title for the Streamlit app
+# Mengatur judul dan subjudul untuk tampilan aplikasi nantinya
+st.title("PDF-Chatbot")
+st.write("Chat with your PDF documents!")
+st.write("Powered by Llama2")
+st.write("Made by Team John Snow")
+# Create a file uploader in the sidebar
+# Membuat sidebar dimana file pdf yang akan digunakan oleh chatbot bisa diupload
+uploaded_file = st.sidebar.file_uploader("Upload File", type="pdf")
+# Jika file telah diupload, maka panggil class FileIngestor yang akan mengolah file PDF yang telah disubmit
+if uploaded_file:
+    file_ingestor = FileIngestor(uploaded_file)
+    file_ingestor.handlefileandingest()

fileingestor.py ADDED Viewed

	@@ -0,0 +1,94 @@

+# Import streamlit, langchanin, PyMuPDFLoader, dan file loadllm
+# PyMuPDFLoader adalah library untuk mengekstraksi, menganalisa, dan mengkonversi data dari dokumen PDF
+import streamlit as st
+from langchain.document_loaders import PyMuPDFLoader
+from loadllm import Loadllm
+from streamlit_chat import message
+import tempfile
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain.vectorstores import FAISS
+from langchain.chains import ConversationalRetrievalChain
+# Load model directly
+#from transformers import AutoModel
+# Path dimana hasil vectore score dari FAISS akan disimpan
+# FAISS (Facebook AI Similarity Search) adalah sebuah library untuk mencari embedding dalam dokumen yang serupa satu dengan yang lainnya
+# FAISS mempunyai algoritma yang mencari kesamaan di set vector dengan ukuran apapun
+# FAISS bisa mencari melalui banyak informasi dengan cepat dan memilih mereka yang penting
+DB_FAISS_PATH = 'vectorstore/db_faiss'
+class FileIngestor:
+    def __init__(self, uploaded_file):
+        self.uploaded_file = uploaded_file
+    def handlefileandingest(self):
+        with tempfile.NamedTemporaryFile(delete=False) as tmp_file:
+            tmp_file.write(self.uploaded_file.getvalue())
+            tmp_file_path = tmp_file.name
+        loader = PyMuPDFLoader(file_path=tmp_file_path)
+        data = loader.load()
+        # Create embeddings using Sentence Transformers
+        # Word embedding dari dokumen akan dibuat menggunakan sentence-transformers yang disediakan HuggingFace
+        # Transformer ini berbasis BERT dan bisa memetakan kalimat dan paragraf menjadi vector space dengan
+        # densitas 384 dimensi
+        embeddings = HuggingFaceEmbeddings(model_name='sentence-transformers/all-MiniLM-L6-v2')
+        # Create a FAISS vector store and save embeddings
+        db = FAISS.from_documents(data, embeddings)
+        db.save_local(DB_FAISS_PATH)
+        # Load the language model
+        # Load model Llama 2 yang telah disiapkan di file loadllm.py
+        llm = Loadllm.load_llm()
+        #llm = AutoModel.from_pretrained("TheBloke/Llama-2-7B-Chat-GGUF")
+        # Create a conversational chain
+        # Membuat chain conversation dari Llama 2
+        chain = ConversationalRetrievalChain.from_llm(llm=llm, retriever=db.as_retriever())
+        # Function for conversational chat
+        # Memasukkan chat baru bagi Streamlit
+        # Query adalah pertanyaan yang kita berikan, answer jawaban, dan history agar Llama mengetahui
+        # konteks untuk percakapan kita dengan dia
+        def conversational_chat(query):
+            result = chain({"question": query, "chat_history": st.session_state['history']})
+            st.session_state['history'].append((query, result["answer"]))
+            return result["answer"]
+        # Initialize chat history
+        if 'history' not in st.session_state:
+            st.session_state['history'] = []
+        # Initialize messages
+        if 'generated' not in st.session_state:
+            st.session_state['generated'] = ["Hello ! Ask me(LLAMA2) about " + self.uploaded_file.name + " 🤗"]
+        if 'past' not in st.session_state:
+            st.session_state['past'] = ["Hey ! 👋"]
+        # Create containers for chat history and user input
+        # Buat container untuk display UI
+        response_container = st.container()
+        container = st.container()
+        # User input form
+        with container:
+            with st.form(key='my_form', clear_on_submit=True):
+                user_input = st.text_input("Query:", placeholder="Talk to PDF data 🧮", key='input')
+                submit_button = st.form_submit_button(label='Send')
+            # Jika kita mengklik tombol submit/enter dan user input telah diisi, maka conversation akan kita mulai
+            if submit_button and user_input:
+                output = conversational_chat(user_input)
+                st.session_state['past'].append(user_input)
+                st.session_state['generated'].append(output)
+        # Display chat history
+        if st.session_state['generated']:
+            with response_container:
+                for i in range(len(st.session_state['generated'])):
+                    message(st.session_state["past"][i], is_user=True, key=str(i) + '_user', avatar_style="big-smile")
+                    message(st.session_state["generated"][i], key=str(i), avatar_style="thumbs")

loadllm.py ADDED Viewed

	@@ -0,0 +1,44 @@

+# Import library langchain
+# Langchain adalah framework untuk mempermudah pembuatan aplikasi dengan menggunakan Large Language Models (LLM) seperti
+# GPT, Claude, Llama, dan banyak LLM lainnya
+from langchain.llms import LlamaCpp
+from langchain.callbacks.manager import CallbackManager
+from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
+# Path dimana file model Llama yang digunakan sebagai chatbot disimpan
+# Model yang kami gunakan adalah Llama 2 7B Chat GGUF yang merupakan modifikasi dari Llama 2 7B Chat yang dibuat oleh Meta
+# Model ini dimodifikasi untuk menggunakan format GGUF yang menawarkan beberapa keuntungan dari tipe lama GGML seperti
+# tokenization yang lebih baik, support untuk token special, support untuk metadata, dan didesain extensible
+model_path = 'model/llama-2-7b-chat.Q4_K_M.gguf'
+class Loadllm:
+    @staticmethod
+    # Function untuk meload model Llama 2 dan menyiapkannya untuk digunakan
+    def load_llm():
+        callback_manager = CallbackManager([StreamingStdOutCallbackHandler()])
+        # Prepare the LLM
+        # LlamaCpp adalah sebuah library yang bertujuan unutk memberikan LLM inference dengan setup minimal dan performa
+        # state of the art pada berbagai macam hardware, baik local, maupun di cloud
+        # model_path = Tempat dimana model Llama disimpan di komputer
+        # n_gpu_layers = Jumlah layer yang akan dioffload ke GPU
+        # n_batch = Ukuran batch maximum untuk pemrosesan prompt
+        # n_ctx = Text context
+        # max_tokens = Jumlah maximum token yang akan digenerate sebagai respons oleh model
+        # local_files_only = Apakah hanya menggunakan file model yang ada secara lokal saja atau akan mendownload dari luar
+        # f16_kv
+        # callback_manager
+        # verbose = Print output verbose
+        llm = LlamaCpp(
+            model_path=model_path,
+            n_gpu_layers=20,
+            n_batch=512,
+            n_ctx=4096,
+            max_tokens=4096,
+            local_files_only = True,
+            f16_kv=True,  # MUST set to True, otherwise you will run into problem after a couple of calls
+            callback_manager=callback_manager,
+            verbose=True,
+        )
+        # Return model Llama yang telah siap
+        return llm

readme.txt ADDED Viewed

	@@ -0,0 +1,45 @@

+Cara menggunakan Chatbot
+Chatbot kami memerlukan library Python sebagai berikut:
+langchain==0.1.11
+numpy==1.25.2
+Pillow==10.2.0
+protobuf==4.25.3
+streamlit==1.31.1
+streamlit_chat==0.1.1
+tornado==6.1
+transformers==4.26.1
+pymupdf
+sentence-transformers
+faiss-cpu
+llama-cpp-python
+Library tersebut perlu diinstall terlebih dahulu pada environment python yang akan menjalakan program kami menggunakan pip install.
+Struktur Folder
+PDF-Chatbot
+    .streamlit
+        config.toml
+    model
+        llama-2-7b-chat.Q4_K_M.gguf
+    vectorstore
+        db_faiss
+            index.faiss
+            index.pkl
+    app.py
+    fileingestor.py
+    loadllm.py
+    readme.txt
+    requirements.txt
+Tahap penggunaan
+1. Download model kami pada link Google Drive berikut : https://bit.ly/model-PDF-Chatbot
+2. Clone atau download source code kami dari github pada link github berikut : https://github.com/FriendlySB/PDF-Chatbot
+3. Di dalam folder PDF-Chatbot, buat sebuah folder bernama model
+4. Pindahkan model yang telah didownload ke dalam folder tersebut
+5. Untuk menjalankan aplikasi, buka command prompt
+6. Lakukan perintah cd atau change directory ke path dimana folder PDF-Chatbot disimpan
+7. Jalankan perintah streamlit run app.py pada command prompt
+8. Program akan membuka sebuah tab baru di browser dimana aplikasi chatbot akan dijalankan
+9. Chatbot siap digunakan

requirements.txt ADDED Viewed

	@@ -0,0 +1,12 @@

+langchain==0.1.11
+numpy==1.25.2
+Pillow==10.2.0
+protobuf==4.25.3
+streamlit==1.31.1
+streamlit_chat==0.1.1
+tornado==6.1
+transformers==4.26.1
+pymupdf
+sentence-transformers
+faiss-cpu
+llama-cpp-python