Spaces:

Shiv1143
/

Candidate_Selection

Sleeping

App Files Files Community

Shiv1143 commited on Aug 31, 2024

Commit

8adda05

verified ·

1 Parent(s): 665ac19

Upload 6 files

Browse files

adding required file

Files changed (6) hide show

Readme.md +49 -0
requirements.txt +3 -0
src/data_preparation.py +5 -0
src/evaluation.py +25 -0
src/model.py +81 -0
training_data.jsonl +0 -0

Readme.md ADDED Viewed

	@@ -0,0 +1,49 @@

+# SelectRight
+## Overview
+This project aims to rank candidates for a role by comparing their resumes and interview transcripts using a language model.
+## Folder Structure
+```
+MLE_Trial_Task/
+├── data/
+│   └── candidates.csv (optional, can be uploaded via the app)
+├── core_services/
+│   └── bot9_ai/
+│       └── modules/
+│           └── LLM/
+│               └── OpenAi.py
+├── src/
+│   ├── __init__.py
+│   ├── data_preparation.py
+│   ├── model.py
+│   ├── evaluation.py
+│   ├── bias_analysis.py
+│   └── report_generation.py
+├── app.py
+├── requirements.txt
+└── README.md
+```
+## Setup
+1. Clone the repository.
+2. Install the required dependencies:
+    ```bash
+    pip install -r requirements.txt
+    ```
+3. Run the Streamlit app:
+    ```bash
+    streamlit run app.py
+    ```
+## Files
+- `data/candidates.csv`: The dataset file (optional, can be uploaded via the app).
+- `llmservice/OpenAi.py`: Contains the `OpenAi` class.
+- `src/data_preparation.py`: Script for loading the dataset.
+- `src/model.py`: Script for defining the model.
+- `src/evaluation.py`: Script for evaluating the model.
+- `src/bias_analysis.py`: Script for analyzing biases.
+- `src/report_generation.py`: Script for generating the report.
+- `app.py`: Streamlit app script.
+- `requirements.txt`: List of dependencies.
+- `README.md`: Project overview and setup instructions.

requirements.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+pandas
+openai
+streamlit

src/data_preparation.py ADDED Viewed

	@@ -0,0 +1,5 @@

+import pandas as pd
+def load_data(file):
+    data = pd.read_csv(file)
+    return data

src/evaluation.py ADDED Viewed

	@@ -0,0 +1,25 @@

+from src.model import compare_candidates
+def evaluate_model(openai, data):
+    correct_predictions = 0
+    for index, row in data.iterrows():
+        candidateA = {
+            'resume': row['candidateAResume'],
+            'transcript': row['candidateATranscript']
+        }
+        candidateB = {
+            'resume': row['candidateBResume'],
+            'transcript': row['candidateBTranscript']
+        }
+        role = row['role']
+        prediction = compare_candidates(openai, candidateA, candidateB, role)
+        if prediction:
+            if (prediction == 'Candidate A' and row['winnerId'] == row['candidateAId']) or \
+               (prediction == 'Candidate B' and row['winnerId'] == row['candidateBId']):
+                correct_predictions += 1
+    accuracy = correct_predictions / len(data)
+    return accuracy

src/model.py ADDED Viewed

	@@ -0,0 +1,81 @@

+import openai
+import json
+def initialize_openai(api_key):
+    openai.api_key = api_key
+def prepare_training_data(training_data):
+    training_prompts = []
+    for index, row in training_data.iterrows():
+        job_description = row['role']
+        candidateA_resume = row['candidateAResume']
+        candidateB_resume = row['candidateBResume']
+        candidateA_transcript = row['candidateATranscript']
+        candidateB_transcript = row['candidateBTranscript']
+        winner_id = row['winnerId']
+        prompt = f"Job Description:\n{job_description}\n\nCandidate A Resume:\n{candidateA_resume}\n\nCandidate B Resume:\n{candidateB_resume}\n\nCandidate A Transcript:\n{candidateA_transcript}\n\nCandidate B Transcript:\n{candidateB_transcript}\n\nPreferred Candidate:"
+        completion = f"{winner_id}"
+        training_prompts.append({"prompt": prompt, "completion": completion})
+    with open("training_data.jsonl", "w") as f:
+        for item in training_prompts:
+            f.write(json.dumps(item) + "\n")
+def upload_training_data(file_path):
+    with open(file_path, "rb") as f:
+        response = openai.files.create(
+            file=f,
+            purpose='fine-tune'
+        )
+    print("response-upload--->", response)
+    return response.id
+def create_fine_tuning_job(file_id):
+    response = openai.fine_tuning.jobs.create(
+        training_file=file_id,
+        model="gpt-4o-2024-08-06",
+    )
+    print("response-create--->",response)
+    return response.fine_tuned_model
+def fine_tune_model(training_data):
+    # Prepare training data
+    prepare_training_data(training_data)
+    # Upload training data
+    file_id = upload_training_data("training_data.jsonl")
+    # Create fine-tuning job
+    fine_tuned_model = create_fine_tuning_job(file_id)
+    return fine_tuned_model
+def extract_keywords(resume, job_description, model):
+    prompt = f"Extract key skills and qualifications from the following resume based on the job description:\n\nJob Description:\n{job_description}\n\nResume:\n{resume}\n\nKey Skills and Qualifications:"
+    messages = [
+        {"role": "system", "content": "You are a helpful assistant."},
+        {"role": "user", "content": prompt}
+    ]
+    response = openai.chat.completions.create(model=model, messages=messages, max_tokens=100)
+    return response.choices[0].message.content
+def rate_skills(transcript, job_description, model):
+    prompt = f"Rate the skills of the candidate based on the following interview transcript and job description:\n\nJob Description:\n{job_description}\n\nInterview Transcript:\n{transcript}\n\nSkill Ratings:"
+    messages = [
+        {"role": "system", "content": "You are a helpful assistant."},
+        {"role": "user", "content": prompt}
+    ]
+    response = openai.chat.completions.create(model=model, messages=messages, max_tokens=100)
+    return response.choices[0].message.content
+def compare_candidates(candidateA, candidateB, job_description, model):
+    prompt = f"Based on the following details, return the candidate_id of the candidate which is the best fit for the role:\n\nJob Description:\n{job_description}\n\nCandidate A:\n{candidateA}\n\nCandidate B:\n{candidateB}\n\nPreferred Candidate:, ONLY RETURN THE CANDIDATE ID which would be of format '8ab47434-09a9-44e6-8c77-f9fd20c57765'"
+    messages = [
+        {"role": "system", "content": "You are a helpful assistant."},
+        {"role": "user", "content": prompt},
+        {"role": "system", "content": "<candidate_id>"}
+    ]
+    response = openai.chat.completions.create(model=model, messages=messages, max_tokens=100)
+    return response.choices[0].message.content

training_data.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff