Spaces:

manasvinid
/

RESUME_RANKER

Sleeping

App Files Files Community

manasvinid commited on Feb 29

Commit

8981128

•

1 Parent(s): 04ff643

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -3

app.py CHANGED Viewed

@@ -27,6 +27,9 @@ st.header('Input')
 jobs_data= job_desc_pdf()
 resume_data= resume_pdf()
 # setup_nltk_resources()
@@ -40,30 +43,69 @@ jobs_data['processed_description'] = jobs_data['description'].apply(preprocess_t
 jobs_data_cleaned = drop_duplicates(jobs_data, column_name='description')
 resume_data['processed_resume'] = resume_data['Resume'].apply(preprocess_text)
 resume_data_cleaned = drop_duplicates(resume_data, column_name='Resume')
 jobs_data_cleaned_with_tokens = add_token_count_column(jobs_data_cleaned, column_name='processed_description')
 resume_data_cleaned_with_tokens = add_token_count_column(resume_data_cleaned, column_name='processed_resume')
 # Dropping unnecessary columns from jobs data
 jobs_data_final = jobs_data_cleaned_with_tokens[['processed_description', 'token_count']]
 # Dropping unnecessary columns from resume data
 resume_data_final = resume_data_cleaned_with_tokens[['processed_resume', 'token_count']]
 summarizer = TextSummarizer("geekradius/bart-large-cnn-fintetuned-samsum-repo")
-# Summarize the top 100 'processed_description' of jobs_data_final
-top_jobs_data = jobs_data_final.head(100)
 # Summariz jobs description
-jobs_data_summarized = batch_summarize(top_jobs_data, 'processed_description', summarizer, batch_size=10, output_col='summarized_description')
 # Summarize all 'processed_resume' in resume_data_final
 resume_data_summarized = batch_summarize(resume_data_final, 'processed_resume', summarizer, batch_size=10, output_col='summarized_resume')

 jobs_data= job_desc_pdf()
 resume_data= resume_pdf()
+st.write('input to df:')
+st.write(jobs_data)
+st.write(resume_data)
 # setup_nltk_resources()
 jobs_data_cleaned = drop_duplicates(jobs_data, column_name='description')
 resume_data['processed_resume'] = resume_data['Resume'].apply(preprocess_text)
 resume_data_cleaned = drop_duplicates(resume_data, column_name='Resume')
+st.write("CLEANED")
+st.write(jobs_data_cleaned)
+st.write(resume_data_cleaned)
 jobs_data_cleaned_with_tokens = add_token_count_column(jobs_data_cleaned, column_name='processed_description')
 resume_data_cleaned_with_tokens = add_token_count_column(resume_data_cleaned, column_name='processed_resume')
 # Dropping unnecessary columns from jobs data
 jobs_data_final = jobs_data_cleaned_with_tokens[['processed_description', 'token_count']]
 # Dropping unnecessary columns from resume data
 resume_data_final = resume_data_cleaned_with_tokens[['processed_resume', 'token_count']]
+st.write("CLEANED WITH TOKENS")
+st.write(jobs_data_final)
+st.write(resume_data_final)
 summarizer = TextSummarizer("geekradius/bart-large-cnn-fintetuned-samsum-repo")
 # Summariz jobs description
+jobs_data_summarized = batch_summarize(jobs_data_final, 'processed_description', summarizer, batch_size=10, output_col='summarized_description')
 # Summarize all 'processed_resume' in resume_data_final
 resume_data_summarized = batch_summarize(resume_data_final, 'processed_resume', summarizer, batch_size=10, output_col='summarized_resume')
+# Example Usage
+encoder = SentenceTransformerEncoder(model_name='all-MiniLM-L6-v2')
+# Encoding the summarized job descriptions
+jobs_data_summarized_and_encoded = encoder.encode_column(jobs_data_summarized, 'summarized_description')
+# Encoding the summarized resumes
+resume_data_summarized_and_encoded = encoder.encode_column(resume_data_summarized, 'summarized_resume')
+# Combine the jobs data
+jobs_combined = pd.merge(
+    jobs_data_final,
+    jobs_data_summarized_and_encoded[['summarized_description', 'summarized_description_encoded']],
+    left_index=True, right_index=True)
+# Combine the resume data
+resume_combined = pd.merge(
+    resume_data_final,
+    resume_data_summarized_and_encoded[['summarized_resume', 'summarized_resume_encoded']],
+    left_index=True, right_index=True)
+# Reset index of DataFrame
+jobs_combined.reset_index(drop=True, inplace=True)
+resume_combined.reset_index(drop=True, inplace=True)