Upload 5 files

Browse files

Files changed (5) hide show

.env +2 -0
.env.example +2 -0
app.py +76 -0
requirements.txt +9 -0
utils.py +103 -0

.env ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ OPENAI_API_KEY="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"
2	+ HUGGINGFACEHUB_API_TOKEN="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"

.env.example ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ OPENAI_API_KEY=""
2	+ HUGGINGFACEHUB_API_TOKEN=""

app.py ADDED Viewed

	@@ -0,0 +1,76 @@

+import streamlit as st
+from dotenv import load_dotenv
+from utils import *
+import uuid
+#Creating session variables
+if 'unique_id' not in st.session_state:
+    st.session_state['unique_id'] =''
+def main():
+    load_dotenv()
+    st.set_page_config(page_title="Resume Screening Assistance")
+    st.markdown('<style>p {font-size: 20px;}</style>', unsafe_allow_html=True)
+    st.title("AI Resume Screening Assistance 💁 ")
+    st.subheader("I can help you in resume screening process")
+    job_description = st.text_area("Please paste the 'JOB DESCRIPTION' here...",key="1")
+    document_count = st.text_input("No.of 'RESUMES' to return",key="2")
+    # Upload the Resumes (pdf files)
+    pdf = st.file_uploader("Upload resumes here, only PDF files allowed", type=["pdf"],accept_multiple_files=True)
+    submit=st.button("Help me with the analysis")
+    if submit:
+        with st.spinner('Wait for it...'):
+            #Creating a unique ID, so that we can use to query and get only the user uploaded documents from PINECONE vector store
+            st.session_state['unique_id']=uuid.uuid4().hex
+            #Create a documents list out of all the user uploaded pdf files
+            final_docs_list=create_docs(pdf,st.session_state['unique_id'])
+            #Displaying the count of resumes that have been uploaded
+            st.write("*Resumes uploaded* :"+str(len(final_docs_list)))
+            #Create embeddings instance
+            embeddings=create_embeddings_load_data()
+            #Push data to PINECONE
+            push_to_pinecone("1a62441c-1d4a-4d80-ab0c-b48d7503fe62","gcp-starter","ai-resume",embeddings,final_docs_list)
+            #Fecth relavant documents from PINECONE
+            relavant_docs=similar_docs(job_description,document_count,"1a62441c-1d4a-4d80-ab0c-b48d7503fe62","gcp-starter","ai-resume",embeddings,st.session_state['unique_id'])
+            #t.write(relavant_docs)
+            #Introducing a line separator
+            st.write(":heavy_minus_sign:" * 30)
+            #For each item in relavant docs - we are displaying some info of it on the UI
+            for item in range(len(relavant_docs)):
+                st.subheader("👉 "+str(item+1))
+                #Displaying Filepath
+                st.write("**File** : "+relavant_docs[item][0].metadata['name'])
+                #Introducing Expander feature
+                with st.expander('Show me 👀'):
+                    st.info("**Match Score** : "+str(relavant_docs[item][1]))
+                    #st.write("***"+relavant_docs[item][0].page_content)
+                    #Gets the summary of the current item using 'get_summary' function that we have created which uses LLM & Langchain chain
+                    summary = get_summary(relavant_docs[item][0])
+                    st.write("**Summary** : "+summary)
+        st.success("Hope I was able to save your time❤️")
+#Invoking main function
+if __name__ == '__main__':
+    main()

requirements.txt ADDED Viewed

	@@ -0,0 +1,9 @@

+langchain
+streamlit
+openai
+tiktoken
+python-dotenv
+unstructured
+pinecone-client
+pypdf
+sentence_transformers

utils.py ADDED Viewed

	@@ -0,0 +1,103 @@

+import openai
+from langchain.embeddings.openai import OpenAIEmbeddings
+from langchain.vectorstores import Pinecone
+from langchain.llms import OpenAI
+from langchain.embeddings.sentence_transformer import SentenceTransformerEmbeddings
+from langchain.schema import Document
+import pinecone
+from PyPDF2 import PdfReader
+from PyPDF2 import PdfFileReader
+from langchain.llms.openai import OpenAI
+from langchain.chains.summarize import load_summarize_chain
+from langchain import HuggingFaceHub
+from langchain.llms import ctransformers
+#Extract Information from PDF file
+def get_pdf_text(pdf_doc):
+    text = ""
+    pdf_reader = PdfReader(pdf_doc)
+    for page in pdf_reader.pages:
+        text += page.extract_text()
+    return text
+# iterate over files in
+# that user uploaded PDF files, one by one
+def create_docs(user_pdf_list, unique_id):
+    docs=[]
+    for filename in user_pdf_list:
+        chunks=get_pdf_text(filename)
+        #Adding items to our list - Adding data & its metadata
+        docs.append(Document(
+            page_content=chunks,
+            metadata={"name": filename.name,"id":filename.id,"type=":filename.type,"size":filename.size,"unique_id":unique_id},
+        ))
+    return docs
+#Create embeddings instance
+def create_embeddings_load_data():
+    #embeddings = OpenAIEmbeddings()
+    embeddings = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")
+    return embeddings
+#Function to push data to Vector Store - Pinecone here
+def push_to_pinecone(pinecone_apikey,pinecone_environment,pinecone_index_name,embeddings,docs):
+    pinecone.init(
+    api_key=pinecone_apikey,
+    environment=pinecone_environment
+    )
+    print("done......2")
+    Pinecone.from_documents(docs, embeddings, index_name=pinecone_index_name)
+#Function to pull infrmation from Vector Store - Pinecone here
+def pull_from_pinecone(pinecone_apikey,pinecone_environment,pinecone_index_name,embeddings):
+    pinecone.init(
+    api_key=pinecone_apikey,
+    environment=pinecone_environment
+    )
+    index_name = pinecone_index_name
+    index = Pinecone.from_existing_index(index_name, embeddings)
+    return index
+#Function to help us get relavant documents from vector store - based on user input
+def similar_docs(query,k,pinecone_apikey,pinecone_environment,pinecone_index_name,embeddings,unique_id):
+    pinecone.init(
+    api_key=pinecone_apikey,
+    environment=pinecone_environment
+    )
+    index_name = pinecone_index_name
+    index = pull_from_pinecone(pinecone_apikey,pinecone_environment,index_name,embeddings)
+    similar_docs = index.similarity_search_with_score(query, int(k),{"unique_id":unique_id})
+    #print(similar_docs)
+    return similar_docs
+# Helps us get the summary of a document
+def get_summary(current_doc):
+    #llm = OpenAI(temperature=0)
+    #llm = HuggingFaceHub(repo_id="bigscience/bloom", model_kwargs={"temperature":1e-10})
+    llm = ctransformers(model='C:/Users/User/Documents/mistral-7b-v0.1.Q5_K_M.gguf',model_type='mistral',config={'temperature': 1e-10})
+    chain = load_summarize_chain(llm, chain_type="map_reduce")
+    summary = chain.run([current_doc])
+    return summary