Spaces:

MillMin
/

FSA-PROJECT-CV

Build error

App Files Files Community

TruongTrongTien commited on Mar 12

Commit

915beec

•

1 Parent(s): e5d71c1

Phase2/TienTT: Add query vectordatabase and update delete

Browse files

Files changed (5) hide show

app/modules/crud_question_test/models/crud_question_tests.py +17 -0
app/modules/question_tests_retrieval/__init__.py +6 -3
app/modules/question_tests_retrieval/models/question_tests_logic.py +74 -33
test.py +107 -0
test2.py +96 -0

app/modules/crud_question_test/models/crud_question_tests.py CHANGED Viewed

@@ -68,6 +68,8 @@ def create_question_test(data):
 def update_question_test(id, data):
     # Update a document by id
     firebase_db.collection("question_tests").document(id).update(data)
     return True
 def delete_question_test(id):
@@ -76,4 +78,19 @@ def delete_question_test(id):
     remove_file_question_tests(file_url)
     # Delete a document by id
     firebase_db.collection("question_tests").document(id).delete()
     return True

 def update_question_test(id, data):
     # Update a document by id
     firebase_db.collection("question_tests").document(id).update(data)
+    # Update corrensponding vector in Qdrant
     return True
 def delete_question_test(id):
     remove_file_question_tests(file_url)
     # Delete a document by id
     firebase_db.collection("question_tests").document(id).delete()
+    # Delete corresponding vector from Qdrant
+    qdrant_client.delete(
+        collection_name="question_tests",
+        points_selector=models.FilterSelector(
+            filter=models.Filter(
+                must=[
+                    models.FieldCondition(
+                        key="id",
+                        match=models.MatchValue(value=id),
+                    ),
+                ],
+            )
+        ),
+    )
     return True

app/modules/question_tests_retrieval/__init__.py CHANGED Viewed

@@ -2,8 +2,8 @@ from fastapi import APIRouter, UploadFile, File
 from typing import Annotated
 from app.modules.question_tests_retrieval.models.jd2text import jobdes2text
-# from app.modules.question_tests_retrieval.models.text2tector import text2vector
-from app.modules.question_tests_retrieval.models.question_tests_logic import get_question_test
 qtretrieval_router = APIRouter(prefix="/qtretrieval", tags=["qtretrieval"])
@@ -18,10 +18,13 @@ async def send_jd(txt_file: Annotated[UploadFile, File(..., description="The JD
         # read the txt file with format
         jobdes = txt_file.file.read().decode("utf-8")
         sumaryjd_text = jobdes2text(jobdes)
-        if get_question_test(sumaryjd_text):
             return {"message": "Send JD successfully and get question test successfully",
                     "sumaryjd_text": sumaryjd_text}
         else:
             return {"message": "Please upload only .txt file", "error": str(e)}
     except Exception as e:
         return {"message": "Please upload only .txt file", "error": str(e)}

 from typing import Annotated
 from app.modules.question_tests_retrieval.models.jd2text import jobdes2text
+# from app.modules.question_tests_retrieval.models.text2vector import text2vector
+from app.modules.question_tests_retrieval.models.question_tests_logic import get_question_tests
 qtretrieval_router = APIRouter(prefix="/qtretrieval", tags=["qtretrieval"])
         # read the txt file with format
         jobdes = txt_file.file.read().decode("utf-8")
         sumaryjd_text = jobdes2text(jobdes)
+        if get_question_tests(sumaryjd_text):
             return {"message": "Send JD successfully and get question test successfully",
                     "sumaryjd_text": sumaryjd_text}
         else:
             return {"message": "Please upload only .txt file", "error": str(e)}
     except Exception as e:
         return {"message": "Please upload only .txt file", "error": str(e)}
+# @qtretrieval_router.post("/download_tests")
+# async def download_tests()

app/modules/question_tests_retrieval/models/question_tests_logic.py CHANGED Viewed

@@ -5,8 +5,10 @@ from langchain_google_genai import GoogleGenerativeAIEmbeddings
 from langchain.evaluation import load_evaluator
 from langchain.evaluation import EmbeddingDistance
-from app.modules.crud_question_test.models.crud_question_tests import get_all_question_tests, get_question_test_url_by_description
 from app.configs.database import firebase_bucket
 # Import API key
 load_dotenv()
@@ -19,45 +21,84 @@ GOOGLE_API_KEY = os.environ.get("GOOGLE_API_KEY")
 embedding_model = GoogleGenerativeAIEmbeddings(model="models/embedding-001", google_api_key=GOOGLE_API_KEY)
 gemini_evaluator = load_evaluator("embedding_distance", distance_metric=EmbeddingDistance.COSINE, embeddings=embedding_model)
-def compare_vector(vector_extract, vector_des):
-    maxnimun_value = 2
-    for item in vector_des:
-        two_object = (vector_extract, item)
-        x = gemini_evaluator.evaluate_strings(prediction=two_object[0], reference=two_object[1])
-        if x.get('score') < maxnimun_value:
-            maxnimun_value = x.get('score')
-            des_item_choose = item
-    if maxnimun_value == 2:
-        return False
-    elif maxnimun_value < 0.3:
-        return des_item_choose
-    else:
-        return False
-def download_question_test(question_test_url):
     # check folder exist
     if not os.path.exists('data/question_tests'):
         os.makedirs('data/question_tests')
     # download file from firebase storage using "gs://" link
-    name_bucket = question_test_url.split(f"gs://{firebase_bucket.name}/")[1]
-    blob = firebase_bucket.blob(name_bucket)
-    blob.download_to_filename(f'data/question_tests/{name_bucket}')
     return True
-def get_question_test(text):
-    all_question_tests = get_all_question_tests()
-    value_in_des = []
-    for item in all_question_tests:
-        value_in_des.append(item['question_tests_description'])
-    des_item_choose = compare_vector(text, value_in_des)
-    if des_item_choose == False:
-        return "No question test found"
     else:
-        question_test_url = get_question_test_url_by_description(des_item_choose)
-        if download_question_test(question_test_url):
-            return True
-        else:
-            return False

 from langchain.evaluation import load_evaluator
 from langchain.evaluation import EmbeddingDistance
+from app.modules.crud_question_test.models.crud_question_tests import get_question_test_by_id
+from app.modules.question_tests_retrieval.models.text2vector import text2vector
 from app.configs.database import firebase_bucket
+from app.configs.qdrant_db import qdrant_client
 # Import API key
 load_dotenv()
 embedding_model = GoogleGenerativeAIEmbeddings(model="models/embedding-001", google_api_key=GOOGLE_API_KEY)
 gemini_evaluator = load_evaluator("embedding_distance", distance_metric=EmbeddingDistance.COSINE, embeddings=embedding_model)
+# def compare_vector(vector_extract, vector_des):
+#     maxnimun_value = 2
+#     for item in vector_des:
+#         two_object = (vector_extract, item)
+#         x = gemini_evaluator.evaluate_strings(prediction=two_object[0], reference=two_object[1])
+#         if x.get('score') < maxnimun_value:
+#             maxnimun_value = x.get('score')
+#             des_item_choose = item
+#     if maxnimun_value == 2:
+#         return False
+#     elif maxnimun_value < 0.3:
+#         return des_item_choose
+#     else:
+#         return False
+def compare_vector(description_vector, max_number_of_points=10):
+    similarity_list = qdrant_client.search(
+        collection_name="question_tests",
+        query_vector=description_vector,
+        limit=max_number_of_points,
+        with_vectors=False,
+        with_payload=True,
+    )
+    formatted_similarity_list = []
+    for point in similarity_list:
+        formatted_similarity_list.append({"id": point.payload.get("id"), "score": point.score})
+    return formatted_similarity_list
+# def download_question_test(question_test_url):
+#     # check folder exist
+#     if not os.path.exists('data/question_tests'):
+#         os.makedirs('data/question_tests')
+#     # download file from firebase storage using "gs://" link
+#     name_bucket = question_test_url.split(f"gs://{firebase_bucket.name}/")[1]
+#     blob = firebase_bucket.blob(name_bucket)
+#     blob.download_to_filename(f'data/question_tests/{name_bucket}')
+#     return True
+def download_question_test(question_test_url_list):
     # check folder exist
     if not os.path.exists('data/question_tests'):
         os.makedirs('data/question_tests')
     # download file from firebase storage using "gs://" link
+    for url in question_test_url_list:
+        name_bucket = url.split(f"gs://{firebase_bucket.name}/")[1]
+        blob = firebase_bucket.blob(name_bucket)
+        blob.download_to_filename(f'data/question_tests/{name_bucket}')
     return True
+# def get_question_test(text):
+#     all_question_tests = get_all_question_tests()
+#     value_in_des = []
+#     for item in all_question_tests:
+#         value_in_des.append(item['question_tests_description'])
+#     des_item_choose = compare_vector(text, value_in_des)
+#     if des_item_choose == False:
+#         return "No question test found"
+#     else:
+#         question_test_url = get_question_test_url_by_description(des_item_choose)
+#         if download_question_test(question_test_url):
+#             return True
+#         else:
+#             return False
+def get_question_tests(text):
+    # Get formatted similarity list
+    formatted_similarity_list = compare_vector(text2vector(text))
+    # Get corresponding document url in Firebase and download them
+    question_test_url_list = []
+    for point in formatted_similarity_list:
+        id = point.get("id")
+        question_test_url_list.append(get_question_test_by_id(id).get("question_tests_url"))
+    if download_question_test(question_test_url_list):
+        return True
     else:
+        return False

test.py ADDED Viewed

	@@ -0,0 +1,107 @@

+import os
+from dotenv import load_dotenv
+from langchain_google_genai import GoogleGenerativeAIEmbeddings
+from langchain.evaluation import load_evaluator
+from langchain.evaluation import EmbeddingDistance
+from app.modules.crud_question_test.models.crud_question_tests import get_question_test_by_id
+from app.modules.question_tests_retrieval.models.text2vector import text2vector
+from app.configs.database import firebase_bucket
+from app.configs.qdrant_db import qdrant_client
+# Import API key
+load_dotenv()
+# Define the google api key
+os.environ['GOOGLE_API_KEY'] = os.getenv('GOOGLE_API_KEY')
+GOOGLE_API_KEY = os.environ.get("GOOGLE_API_KEY")
+# Setting model embedding
+embedding_model = GoogleGenerativeAIEmbeddings(model="models/embedding-001", google_api_key=GOOGLE_API_KEY)
+gemini_evaluator = load_evaluator("embedding_distance", distance_metric=EmbeddingDistance.COSINE, embeddings=embedding_model)
+# def compare_vector(vector_extract, vector_des):
+#     maxnimun_value = 2
+#     for item in vector_des:
+#         two_object = (vector_extract, item)
+#         x = gemini_evaluator.evaluate_strings(prediction=two_object[0], reference=two_object[1])
+#         if x.get('score') < maxnimun_value:
+#             maxnimun_value = x.get('score')
+#             des_item_choose = item
+#     if maxnimun_value == 2:
+#         return False
+#     elif maxnimun_value < 0.3:
+#         return des_item_choose
+#     else:
+#         return False
+def compare_vector(description_vector, max_number_of_points=3):
+    similarity_list = qdrant_client.search(
+        collection_name="question_tests",
+        query_vector=description_vector,
+        limit=max_number_of_points,
+        with_vectors=False,
+        with_payload=True,
+    )
+    formatted_similarity_list = []
+    for point in similarity_list:
+        formatted_similarity_list.append({"id": point.payload.get("id"), "score": point.score})
+    return formatted_similarity_list
+# def download_question_test(question_test_url):
+#     # check folder exist
+#     if not os.path.exists('data/question_tests'):
+#         os.makedirs('data/question_tests')
+#     # download file from firebase storage using "gs://" link
+#     name_bucket = question_test_url.split(f"gs://{firebase_bucket.name}/")[1]
+#     blob = firebase_bucket.blob(name_bucket)
+#     blob.download_to_filename(f'data/question_tests/{name_bucket}')
+#     return True
+def download_question_test(question_test_url_list):
+    # check folder exist
+    if not os.path.exists('data/question_tests'):
+        os.makedirs('data/question_tests')
+    # download file from firebase storage using "gs://" link
+    for url in question_test_url_list:
+        name_bucket = url.split(f"gs://{firebase_bucket.name}/")[1]
+        blob = firebase_bucket.blob(name_bucket)
+        blob.download_to_filename(f'data/question_tests/{name_bucket}')
+    return True
+# def get_question_test(text):
+#     all_question_tests = get_all_question_tests()
+#     value_in_des = []
+#     for item in all_question_tests:
+#         value_in_des.append(item['question_tests_description'])
+#     des_item_choose = compare_vector(text, value_in_des)
+#     if des_item_choose == False:
+#         return "No question test found"
+#     else:
+#         question_test_url = get_question_test_url_by_description(des_item_choose)
+#         if download_question_test(question_test_url):
+#             return True
+#         else:
+#             return False
+def get_question_tests(text):
+    # Get formatted similarity list
+    formatted_similarity_list = compare_vector(text2vector(text))
+    # Get corresponding document url in Firebase and download them
+    question_test_url_list = []
+    for point in formatted_similarity_list:
+        id = point.get("id")
+        question_test_url_list.append(get_question_test_by_id(id).get("question_tests_url"))
+    # question_test_url_list = [get_question_test_by_id(id).get("question_tests_url") for point in formatted_similarity_list]
+    if download_question_test(question_test_url_list):
+        return True
+    else:
+        return False
+get_question_tests("I am a Junior AI Engineer")

test2.py ADDED Viewed

	@@ -0,0 +1,96 @@

+import uuid
+from app.configs.database import firebase_bucket, firebase_db
+from app.configs.qdrant_db import qdrant_client
+from app.configs.qdrant_db import models
+from app.modules.question_tests_retrieval.models.text2vector import text2vector
+# CRUD operation
+def upload_file_question_tests(file):
+    re_name_file = str(uuid.uuid4()).replace("-","_") + "_" + file.filename
+    # upload file to firebase storage
+    blob = firebase_bucket.blob(re_name_file)
+    blob.upload_from_file(file.file)
+    # return gs link
+    return f"gs://{firebase_bucket.name}/{re_name_file}"
+def remove_file_question_tests(file_url):
+    # remove file from firebase storage using "gs://" link
+    blob = firebase_bucket.blob(file_url.split(f"gs://{firebase_bucket.name}/")[1])
+    blob.delete()
+    return True
+def get_all_question_tests():
+    # Get all documents from the collection
+    docs = firebase_db.collection("question_tests").stream()
+    data = []
+    for doc in docs:
+        doc_data = doc.to_dict()
+        doc_data["id"] = doc.id
+        data.append(doc_data)
+    return data
+def get_question_test_by_id(id):
+    # Get a document by id
+    doc = firebase_db.collection("question_tests").document(id).get()
+    return doc.to_dict()
+def get_question_test_url_by_description(description):
+    # Get a question_tests_url where question_tests_description is equal to description
+    docs = firebase_db.collection("question_tests").where("question_tests_description", "==", description).stream()
+    for doc in docs:
+        return doc.to_dict()["question_tests_url"]
+    return False
+def create_question_test(data):
+    # get file_question_tests
+    file_question_tests = data["question_tests_url"]
+    # upload file to firebase storage
+    file_url = upload_file_question_tests(file_question_tests)
+    # add file url to data
+    data["question_tests_url"] = file_url
+    question_tests_des = data["question_tests_description"]
+    # Create a new document
+    document_ref = firebase_db.collection("question_tests").add(data)
+    document_id = document_ref[1].id
+    # Upload vector to Qdrant
+    collection_info = qdrant_client.get_collection('question_tests')
+    points_count = collection_info.points_count
+    description_vector = text2vector(question_tests_des)
+    payload = {"id": document_id}
+    point = models.PointStruct(id=points_count+1, payload=payload, vector=description_vector)
+    qdrant_client.upsert(collection_name="question_tests", points=[point])
+    return True
+def update_question_test(id, data):
+    # Update a document by id
+    firebase_db.collection("question_tests").document(id).update(data)
+    # Update corrensponding vector in Qdrant
+    return True
+def delete_question_test(id):
+    # Delete a file from firebase storage
+    file_url = get_question_test_by_id(id)["question_tests_url"]
+    remove_file_question_tests(file_url)
+    # Delete a document by id
+    firebase_db.collection("question_tests").document(id).delete()
+    # Delete corresponding vector from Qdrant
+    qdrant_client.delete(
+        collection_name="question_tests",
+        points_selector=models.FilterSelector(
+            filter=models.Filter(
+                must=[
+                    models.FieldCondition(
+                        key="id",
+                        match=models.MatchValue(value=id),
+                    ),
+                ],
+            )
+        ),
+    )
+    return True