Spaces:

drift-ai
/

recruiter-assistant

Runtime error

App Files Files Community

FilipinosRich commited on Jul 26, 2023

Commit

e481d34

1 Parent(s): c54f404

First test for 1 data scientist role with a random selection of 3 skills

Browse files

Files changed (3) hide show

Pipfile +2 -0
Pipfile.lock +22 -7
test.py +132 -33

Pipfile CHANGED Viewed

@@ -9,6 +9,8 @@ requests = "*"
 openai = "*"
 langchain = "*"
 boto3 = "*"
 [dev-packages]

 openai = "*"
 langchain = "*"
 boto3 = "*"
+utils = "*"
+s3fs = "*"
 [dev-packages]

Pipfile.lock CHANGED Viewed

@@ -1,7 +1,7 @@
 {
     "_meta": {
         "hash": {
-            "sha256": "773a20e359549c3df8e208ef5e12bb82c398272ee42c4ce709f4783f5989b6b6"
         },
         "pipfile-spec": 6,
         "requires": {
@@ -159,19 +159,19 @@
         },
         "boto3": {
             "hashes": [
-                "sha256:01f078047eb4d238c6b9c6cc623f2af33b4ae67980c5326691e35cb5493ff6c7",
-                "sha256:4cc0c6005be910e52077227e670930ab55a41ba86cdb6d1c052571d08cd4d32c"
             ],
             "index": "pypi",
-            "version": "==1.28.9"
         },
         "botocore": {
             "hashes": [
-                "sha256:bd849d3ac95f1781385ed831d753a04a3ec870a59d6598175aaedd71dc2baf5f",
-                "sha256:e56ccd3536a90094ea5b176b5dd33bfe4f049efdf71af468ea1661bd424c787d"
             ],
             "markers": "python_version >= '3.7'",
-            "version": "==1.31.9"
         },
         "certifi": {
             "hashes": [
@@ -1360,6 +1360,14 @@
             "markers": "python_version >= '3.8'",
             "version": "==0.9.2"
         },
         "s3transfer": {
             "hashes": [
                 "sha256:3c0da2d074bf35d6870ef157158641178a4204a6e689e82546083e31e0311346",
@@ -1510,6 +1518,13 @@
             "markers": "python_version >= '2.7' and python_version not in '3.0, 3.1, 3.2, 3.3, 3.4, 3.5'",
             "version": "==1.26.16"
         },
         "uvicorn": {
             "hashes": [
                 "sha256:1d55d46b83ee4ce82b4e82f621f2050adb3eb7b5481c13f9af1744951cae2f1f",

 {
     "_meta": {
         "hash": {
+            "sha256": "baada24f686970aa797e81ab57198eff4adaa42274331ba31f06e107dacc04af"
         },
         "pipfile-spec": 6,
         "requires": {
         },
         "boto3": {
             "hashes": [
+                "sha256:67001b3f512cbe2e00e352c65fb443b504e5e388fee39d73bcc42da1ae87d9e3",
+                "sha256:cb8af03f553f1c7db7137bc897785baeeaa97b8fde483eb1cdb1f1ef3cec9cb7"
             ],
             "index": "pypi",
+            "version": "==1.28.10"
         },
         "botocore": {
             "hashes": [
+                "sha256:736a9412f405d6985570c4a87b533c2396dd8d4042d8c7a0ca14e73d4f1bcf9d",
+                "sha256:a3bfd3627a490faedf37d79373d6957936d7720888ca85466e0471cb921e4557"
             ],
             "markers": "python_version >= '3.7'",
+            "version": "==1.31.10"
         },
         "certifi": {
             "hashes": [
             "markers": "python_version >= '3.8'",
             "version": "==0.9.2"
         },
+        "s3fs": {
+            "hashes": [
+                "sha256:2ca5de8dc18ad7ad350c0bd01aef0406aa5d0fff78a561f0f710f9d9858abdd0",
+                "sha256:91c1dfb45e5217bd441a7a560946fe865ced6225ff7eb0fb459fe6e601a95ed3"
+            ],
+            "index": "pypi",
+            "version": "==0.4.2"
+        },
         "s3transfer": {
             "hashes": [
                 "sha256:3c0da2d074bf35d6870ef157158641178a4204a6e689e82546083e31e0311346",
             "markers": "python_version >= '2.7' and python_version not in '3.0, 3.1, 3.2, 3.3, 3.4, 3.5'",
             "version": "==1.26.16"
         },
+        "utils": {
+            "hashes": [
+                "sha256:ff04549b95deb2fd7a82ddaea077e2f41209079e2482df231c358770b27b72a7"
+            ],
+            "index": "pypi",
+            "version": "==1.0.1"
+        },
         "uvicorn": {
             "hashes": [
                 "sha256:1d55d46b83ee4ce82b4e82f621f2050adb3eb7b5481c13f9af1744951cae2f1f",

test.py CHANGED Viewed

@@ -1,6 +1,9 @@
 import boto3
 import os
 import json
 from langchain.chat_models import ChatOpenAI
 from langchain.prompts import ChatPromptTemplate
@@ -8,53 +11,149 @@ from langchain.chains import LLMChain, SequentialChain
 llm = ChatOpenAI(temperature=0.0, openai_api_key=os.environ["OPENAI"])
-def get_resume_string() -> str:
-    s3 = boto3.client(
-        's3',
-        region_name='eu-west-1'
     )
-    resumes = s3.get_object(Bucket='ausy-datalake-drift-nonprod', Key='resume-matcher/raw/resume-dataset.csv')
-    resumes_list = resumes['Body'].read().decode('utf-8').splitlines()
-    resumes_list = [s.replace('. ', '.\n') for s in resumes_list]
-    resumes_list = [s.replace('â¢', '\n - ') for s in resumes_list]
-    # resume_string =''.join(resumes_list)
-    return resumes_list
-def get_skills(resumes: str) -> list:
-    template_resumes_get_skills = """
-    Given the following string, delimited by <RESUMES> and </RESUMES> which contains resumes which are not properly formatted, categorize the resumes based on domain.
-    For each domain list the skills of the resumes that are part of that domain.
-    Create a JSON object where they keys are the domains and the values are a list containing the skills.
-    Return that JSON object only.
-    <RESUMES>
-    {resumes}
-    </RESUMES>
     """
-    prompt_vacancy_get_skills = ChatPromptTemplate.from_template(template=template_resumes_get_skills)
-    resume_skills = LLMChain(llm=llm, prompt=prompt_vacancy_get_skills, output_key="resume_skills")
-    get_skills_resumes_chain = SequentialChain(
-        chains=[resume_skills],
-        input_variables=["resumes"],
-        output_variables=["resume_skills"],
         verbose=False
     )
-    result = get_skills_resumes_chain({"resumes": resumes})
-    # print(result)
-    resume_skills = json.loads(result['resume_skills'])
-    print(resume_skills)
 if __name__ == "__main__":
-    resumes = get_resume_string()
-    for x in resumes:
-        get_skills(x)

 import boto3
 import os
 import json
+import pandas as pd
+from urllib.parse import urlparse
+import random
 from langchain.chat_models import ChatOpenAI
 from langchain.prompts import ChatPromptTemplate
 llm = ChatOpenAI(temperature=0.0, openai_api_key=os.environ["OPENAI"])
+def generate_skills() -> list:
+    template_generate_skills = """
+    Can you generate me a list of skills you would need to be successfully employed in a Data Scientist role?
+    Return 10 skills as a JSON list.
+    """
+    prompt_generate_skills = ChatPromptTemplate.from_template(template=template_generate_skills)
+    role_skills = LLMChain(llm=llm, prompt=prompt_generate_skills, output_key="role_skills")
+    generate_skills_chain = SequentialChain(
+        chains=[role_skills],
+        input_variables=[],
+        output_variables=["role_skills"],
+        verbose=False
     )
+    result = generate_skills_chain({})
+    result_array = json.loads(result["role_skills"])["skills"]
+    return result_array
+def generate_resume(skills: list) -> str:
+    template_generate_resume = """
+    Given the following list of skills as an array delimited by three backticks, generate a resume of a data scientist with 3 years of experience.
+    Make sure to include a section "skills" in the resume.
+    ```
+    {skills}
+    ```
+    """
+    prompt_generate_resume = ChatPromptTemplate.from_template(template=template_generate_resume)
+    resume = LLMChain(llm=llm, prompt=prompt_generate_resume, output_key="resume")
+    generate_resume_chain = SequentialChain(
+        chains=[resume],
+        input_variables=["skills"],
+        output_variables=["resume"],
+        verbose=False
+    )
+    result = generate_resume_chain({"skills": skills})
+    return result
+def retrieve_skills(resume: str) -> str:
+    template_retrieve_skills = """
+    Given the following resume delimited by three backticks, retrieve the skills this data scientist possesses.
+    Return them as a JSON list.
+    ```
+    {resume}
+    ```
     """
+    prompt_retrieve_skills = ChatPromptTemplate.from_template(template=template_retrieve_skills)
+    skills = LLMChain(llm=llm, prompt=prompt_retrieve_skills, output_key="skills")
+    retrieve_skills_chain = SequentialChain(
+        chains=[skills],
+        input_variables=["resume"],
+        output_variables=["skills"],
         verbose=False
     )
+    result = retrieve_skills_chain({"resume": resume})
+    result_array = json.loads(result["skills"])
+    return result_array
+def get_score(true_values:list, predicted_values:list) -> float:
+    intersection_list = [value for value in predicted_values if value in true_values]
+    print(intersection_list)
+    return len(intersection_list)/len(true_values)
 if __name__ == "__main__":
+    role_skills = generate_skills()
+    random_skills = random.sample(role_skills, 3)
+    resume = generate_resume(random_skills)
+    skills = retrieve_skills(resume)
+    score = get_score(random_skills, skills)
+    print(random_skills)
+    print(skills)
+    print(score)
+# def get_resumes() -> str:
+#     s3 = boto3.client(
+#         's3',
+#         region_name='eu-west-1'
+#     )
+    # resumes = s3.get_object(Bucket='ausy-datalake-drift-nonprod', Key='resume-matcher/raw/resume-dataset.csv')
+    # resumes_list = resumes['Body'].read().decode('utf-8').splitlines()
+    # resumes_list = resumes['Body'].read().decode('utf-8').splitlines()
+    # resumes_list = str(resumes_list).replace('. ', '.\n')
+    # resumes_list = str(resumes_list).replace('â¢', '\n - ')
+    # resumes_list = [s.replace('. ', '.\n') for s in resumes_list]
+    # resumes_list = [s.replace('â¢', '\n - ') for s in resumes_list]
+    # resume_string =''.join(resumes_list)
+#     s3_uri = urlparse("s3://ausy-datalake-drift-nonprod/resume-matcher/raw/resume-dataset.csv", allow_fragments=False).geturl()
+#     resumes_list = pd.read_csv(s3_uri, header=None, encoding='utf-8')[0].tolist()
+#     return resumes_list
+# def get_skills(resumes: str) -> list:
+#     template_resumes_get_skills = """
+#     Given the following string, delimited by <RESUMES> and </RESUMES> which contains resumes which are not properly formatted, categorize the resumes based on domain.
+#     For each domain list the skills of the resumes that are part of that domain.
+#     Create a JSON object where they keys are the domains and the values are a list containing the skills.
+#     Return that JSON object only.
+#     <RESUMES>
+#     {resumes}
+#     </RESUMES>
+#     """
+#     prompt_vacancy_get_skills = ChatPromptTemplate.from_template(template=template_resumes_get_skills)
+#     resume_skills = LLMChain(llm=llm, prompt=prompt_vacancy_get_skills, output_key="resume_skills")
+#     get_skills_resumes_chain = SequentialChain(
+#         chains=[resume_skills],
+#         input_variables=["resumes"],
+#         output_variables=["resume_skills"],
+#         verbose=False
+#     )
+#     result = get_skills_resumes_chain({"resumes": resumes})
+#     # print(result)
+#     resume_skills = json.loads(result['resume_skills'])
+#     print(resume_skills)
+# if __name__ == "__main__":
+#     resumes = get_resumes()
+#     print(resumes)
+    # for x in resumes:
+    #     get_skills(x)