--- tags: - sentence-transformers - sentence-similarity - feature-extraction - generated_from_trainer - dataset_size:22654 - loss:ContrastiveLoss - loss:TripletLoss - loss:CoSENTLoss - loss:MultipleNegativesRankingLoss base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 widget: - source_sentence: Network Operations Specialist yêu cầu tối ưu hóa mạng. sentences: - Actor cần có kỹ năng biểu diễn sân khấu và hóa thân vào nhiều loại nhân vật. - Network Operations Specialist cần tối ưu hóa mạng. - Nhà tư vấn PR hỗ trợ doanh nghiệp trong việc phát triển hình ảnh công chúng và xử lý khủng hoảng. - source_sentence: Cybersecurity Specialist với kinh nghiệm bảo mật hệ thống 5 năm. sentences: - Kỹ sư cơ khí cần phát triển hệ thống sản xuất tự động hóa. - Cybersecurity Engineer, yêu cầu tối thiểu 5 năm trong bảo mật. - Data Scientist cần kỹ năng Machine Learning và Python. - source_sentence: Tư vấn môi trường hỗ trợ kiểm soát ô nhiễm môi trường đô thị. sentences: - Quản lý chất thải có kinh nghiệm xử lý và tái chế nước. - Tư vấn môi trường quản lý chất lượng môi trường đô thị. - Illustrator cần có khả năng minh họa cho sách giáo dục và tài liệu học tập. - source_sentence: Mobile Developer với kinh nghiệm phát triển ứng dụng iOS và Swift. sentences: - Tuyển iOS Developer có kỹ năng làm việc với Swift. - Tuyển chuyên viên QA kiểm tra chất lượng phần mềm. - Mobile Developer cần biết phát triển ứng dụng đa nền tảng. - source_sentence: Mobile Developer, kinh nghiệm lập trình ứng dụng iOS với Swift. sentences: - Tuyển kỹ sư cơ khí giám sát dây chuyền sản xuất. - Công ty XYZ tuyển Data Scientist với tối thiểu 2 năm kinh nghiệm học máy. - Tuyển iOS Developer thành thạo Swift. datasets: - HZeroxium/job-cv-binary - HZeroxium/cv-job-triplet - HZeroxium/cv-job-similarity - HZeroxium/job-paraphrase - HZeroxium/cv-paraphrase pipeline_tag: sentence-similarity library_name: sentence-transformers metrics: - cosine_accuracy - cosine_accuracy_threshold - cosine_f1 - cosine_f1_threshold - cosine_precision - cosine_recall - cosine_ap - pearson_cosine - spearman_cosine model-index: - name: SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 results: - task: type: binary-classification name: Binary Classification dataset: name: Unknown type: unknown metrics: - type: cosine_accuracy value: 0.9755351681957186 name: Cosine Accuracy - type: cosine_accuracy_threshold value: 0.5808850526809692 name: Cosine Accuracy Threshold - type: cosine_f1 value: 0.9779005524861878 name: Cosine F1 - type: cosine_f1_threshold value: 0.5644330978393555 name: Cosine F1 Threshold - type: cosine_precision value: 0.9833333333333333 name: Cosine Precision - type: cosine_recall value: 0.9725274725274725 name: Cosine Recall - type: cosine_ap value: 0.9956042554162885 name: Cosine Ap - type: cosine_accuracy value: 0.9968051118210862 name: Cosine Accuracy - type: cosine_accuracy_threshold value: 0.7650139331817627 name: Cosine Accuracy Threshold - type: cosine_f1 value: 0.9984 name: Cosine F1 - type: cosine_f1_threshold value: 0.7650139331817627 name: Cosine F1 Threshold - type: cosine_precision value: 1.0 name: Cosine Precision - type: cosine_recall value: 0.9968051118210862 name: Cosine Recall - type: cosine_ap value: 0.9999999999999999 name: Cosine Ap - type: cosine_accuracy value: 0.9936305732484076 name: Cosine Accuracy - type: cosine_accuracy_threshold value: 0.8211346864700317 name: Cosine Accuracy Threshold - type: cosine_f1 value: 0.9968051118210862 name: Cosine F1 - type: cosine_f1_threshold value: 0.8211346864700317 name: Cosine F1 Threshold - type: cosine_precision value: 1.0 name: Cosine Precision - type: cosine_recall value: 0.9936305732484076 name: Cosine Recall - type: cosine_ap value: 1.0 name: Cosine Ap - task: type: triplet name: Triplet dataset: name: Unknown type: unknown metrics: - type: cosine_accuracy value: 1.0 name: Cosine Accuracy - task: type: semantic-similarity name: Semantic Similarity dataset: name: Unknown type: unknown metrics: - type: pearson_cosine value: 0.970012297655986 name: Pearson Cosine - type: spearman_cosine value: 0.9430534588122865 name: Spearman Cosine --- # SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2) on the [binary](https://huggingface.co/datasets/HZeroxium/job-cv-binary), [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet), [similarity](https://huggingface.co/datasets/HZeroxium/cv-job-similarity), [job_paraphrase](https://huggingface.co/datasets/HZeroxium/job-paraphrase) and [cv_paraphrase](https://huggingface.co/datasets/HZeroxium/cv-paraphrase) datasets. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more. ## Model Details ### Model Description - **Model Type:** Sentence Transformer - **Base model:** [sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2) - **Maximum Sequence Length:** 128 tokens - **Output Dimensionality:** 384 dimensions - **Similarity Function:** Cosine Similarity - **Training Datasets:** - [binary](https://huggingface.co/datasets/HZeroxium/job-cv-binary) - [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet) - [similarity](https://huggingface.co/datasets/HZeroxium/cv-job-similarity) - [job_paraphrase](https://huggingface.co/datasets/HZeroxium/job-paraphrase) - [cv_paraphrase](https://huggingface.co/datasets/HZeroxium/cv-paraphrase) ### Model Sources - **Documentation:** [Sentence Transformers Documentation](https://sbert.net) - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers) - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers) ### Full Model Architecture ``` SentenceTransformer( (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True}) ) ``` ## Usage ### Direct Usage (Sentence Transformers) First install the Sentence Transformers library: ```bash pip install -U sentence-transformers ``` Then you can load this model and run inference. ```python from sentence_transformers import SentenceTransformer # Download from the 🤗 Hub model = SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2-job-cv-multi-dataset") # Run inference sentences = [ 'Mobile Developer, kinh nghiệm lập trình ứng dụng iOS với Swift.', 'Tuyển iOS Developer thành thạo Swift.', 'Tuyển kỹ sư cơ khí giám sát dây chuyền sản xuất.', ] embeddings = model.encode(sentences) print(embeddings.shape) # [3, 384] # Get the similarity scores for the embeddings similarities = model.similarity(embeddings, embeddings) print(similarities.shape) # [3, 3] ``` ## Evaluation ### Metrics #### Binary Classification * Evaluated with [BinaryClassificationEvaluator](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.BinaryClassificationEvaluator) | Metric | Value | |:--------------------------|:-----------| | cosine_accuracy | 0.9755 | | cosine_accuracy_threshold | 0.5809 | | cosine_f1 | 0.9779 | | cosine_f1_threshold | 0.5644 | | cosine_precision | 0.9833 | | cosine_recall | 0.9725 | | **cosine_ap** | **0.9956** | #### Triplet * Evaluated with [TripletEvaluator](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator) | Metric | Value | |:--------------------|:--------| | **cosine_accuracy** | **1.0** | #### Semantic Similarity * Evaluated with [EmbeddingSimilarityEvaluator](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator) | Metric | Value | |:--------------------|:-----------| | pearson_cosine | 0.97 | | **spearman_cosine** | **0.9431** | #### Binary Classification * Evaluated with [BinaryClassificationEvaluator](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.BinaryClassificationEvaluator) | Metric | Value | |:--------------------------|:--------| | cosine_accuracy | 0.9968 | | cosine_accuracy_threshold | 0.765 | | cosine_f1 | 0.9984 | | cosine_f1_threshold | 0.765 | | cosine_precision | 1.0 | | cosine_recall | 0.9968 | | **cosine_ap** | **1.0** | #### Binary Classification * Evaluated with [BinaryClassificationEvaluator](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.BinaryClassificationEvaluator) | Metric | Value | |:--------------------------|:--------| | cosine_accuracy | 0.9936 | | cosine_accuracy_threshold | 0.8211 | | cosine_f1 | 0.9968 | | cosine_f1_threshold | 0.8211 | | cosine_precision | 1.0 | | cosine_recall | 0.9936 | | **cosine_ap** | **1.0** | ## Training Details ### Training Datasets #### binary * Dataset: [binary](https://huggingface.co/datasets/HZeroxium/job-cv-binary) at [8c79343](https://huggingface.co/datasets/HZeroxium/job-cv-binary/tree/8c79343a3f789fc136bd857209d4b45c498f2ead) * Size: 6,197 training samples * Columns: text1, text2, and label * Approximate statistics based on the first 1000 samples: | | text1 | text2 | label | |:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:------------------------------------------------| | type | string | string | int | | details | | | | * Samples: | text1 | text2 | label | |:---------------------------------------------------------------------------------------------|:------------------------------------------------------------------------|:---------------| | Lập trình viên backend, 3 năm kinh nghiệm với Node.js và xây dựng API. | Tuyển Backend Developer có kinh nghiệm với Node.js. | 1 | | Kỹ sư mạng với 6 năm kinh nghiệm quản lý hệ thống mạng lớn. | Cần System Administrator với kinh nghiệm quản lý hệ thống. | 0 | | Lập trình viên JavaScript với 4 năm kinh nghiệm, thành thạo Node.js và Express. | Cần tuyển Backend Developer biết sử dụng PHP và Laravel. | 0 | * Loss: [ContrastiveLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#contrastiveloss) with these parameters: ```json { "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE", "margin": 0.5, "size_average": true } ``` #### triplet * Dataset: [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet) at [3100410](https://huggingface.co/datasets/HZeroxium/cv-job-triplet/tree/31004104be298c5f2f1648d8234391e7a5f7d9c0) * Size: 2,981 training samples * Columns: anchor, positive, and negative * Approximate statistics based on the first 1000 samples: | | anchor | positive | negative | |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------| | type | string | string | string | | details | | | | * Samples: | anchor | positive | negative | |:---------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------| | Account Manager, chuyên quản lý khách hàng B2B và xây dựng mối quan hệ lâu dài. | Tuyển Account Manager có kinh nghiệm quản lý khách hàng doanh nghiệp. | Tuyển chuyên viên pháp lý tư vấn doanh nghiệp. | | Chuyên viên tư vấn giáo dục với 10 năm kinh nghiệm định hướng nghề nghiệp. | Cần chuyên viên tư vấn giáo dục có kinh nghiệm định hướng nghề nghiệp. | Nhân viên tổ chức sự kiện giáo dục hỗ trợ triển khai hội thảo. | | Actor với nhiều năm kinh nghiệm diễn xuất trên sân khấu và phim truyền hình. | Diễn viên cần có khả năng hóa thân vào các vai diễn phức tạp. | Nhà sản xuất phim cần quản lý và tổ chức các dự án phim tài liệu. | * Loss: [TripletLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters: ```json { "distance_metric": "TripletDistanceMetric.EUCLIDEAN", "triplet_margin": 5 } ``` #### similarity * Dataset: [similarity](https://huggingface.co/datasets/HZeroxium/cv-job-similarity) at [c810681](https://huggingface.co/datasets/HZeroxium/cv-job-similarity/tree/c8106811dc1709bb834a1b59e3cb46f5ab75dfd9) * Size: 4,568 training samples * Columns: text1, text2, and score * Approximate statistics based on the first 1000 samples: | | text1 | text2 | score | |:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------| | type | string | string | float | | details | | | | * Samples: | text1 | text2 | score | |:-----------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|:------------------| | Hardware Engineer có khả năng thiết kế hệ thống nhúng. | Embedded Engineer cần có kỹ năng phát triển phần mềm nhúng. | 0.74 | | Kỹ sư phần mềm, chuyên môn trong phát triển hệ thống thời gian thực, 4 năm kinh nghiệm. | Yêu cầu Embedded Software Engineer với kinh nghiệm tối thiểu 3 năm. | 0.88 | | Cần Software Engineer với kinh nghiệm phát triển web. | Frontend Developer cần thành thạo React và JavaScript. | 0.34 | * Loss: [CoSENTLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters: ```json { "scale": 20.0, "similarity_fct": "pairwise_cos_sim" } ``` #### job_paraphrase * Dataset: [job_paraphrase](https://huggingface.co/datasets/HZeroxium/job-paraphrase) at [6872029](https://huggingface.co/datasets/HZeroxium/job-paraphrase/tree/68720291bb9f628792d2f28d4653f03f6de5ef42) * Size: 5,939 training samples * Columns: text1 and text2 * Approximate statistics based on the first 1000 samples: | | text1 | text2 | |:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------| | type | string | string | | details | | | * Samples: | text1 | text2 | |:------------------------------------------------------------------------------|:----------------------------------------------------------------------------------| | Nhân viên hỗ trợ kho thuốc cần kỹ năng quản lý. | Nhân viên kho thuốc cần kỹ năng kiểm kê. | | Nhân viên bán hàng cần có kỹ năng giao tiếp và xử lý tình huống. | Salesperson chuyên xử lý đơn hàng và giữ mối quan hệ với khách hàng. | | Tuyển kỹ sư cơ khí chuyên thiết kế máy móc công nghiệp. | Kỹ sư cơ khí cần thiết kế hệ thống sản xuất tiên tiến. | * Loss: [MultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters: ```json { "scale": 20.0, "similarity_fct": "cos_sim" } ``` #### cv_paraphrase * Dataset: [cv_paraphrase](https://huggingface.co/datasets/HZeroxium/cv-paraphrase) at [22ce02f](https://huggingface.co/datasets/HZeroxium/cv-paraphrase/tree/22ce02ff309bc91193b3fa9c14a51fb3481a5fc2) * Size: 2,969 training samples * Columns: text1 and text2 * Approximate statistics based on the first 1000 samples: | | text1 | text2 | |:--------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------| | type | string | string | | details | | | * Samples: | text1 | text2 | |:------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------| | Chuyên viên quản lý danh mục đầu tư với 8 năm kinh nghiệm tối ưu hóa tài sản và phân tích lợi nhuận. | 8 năm kinh nghiệm quản lý danh mục đầu tư và phân tích tài chính. | | Hotel Manager with strong leadership skills and 5 years of experience. | Hotel manager skilled in optimizing hotel operations and guest services. | | 7 năm kinh nghiệm phát triển backend và cơ sở dữ liệu. | Backend Developer chuyên về API và cơ sở dữ liệu. | * Loss: [MultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters: ```json { "scale": 20.0, "similarity_fct": "cos_sim" } ``` ### Evaluation Datasets #### binary * Dataset: [binary](https://huggingface.co/datasets/HZeroxium/job-cv-binary) at [8c79343](https://huggingface.co/datasets/HZeroxium/job-cv-binary/tree/8c79343a3f789fc136bd857209d4b45c498f2ead) * Size: 327 evaluation samples * Columns: text1, text2, and label * Approximate statistics based on the first 327 samples: | | text1 | text2 | label | |:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:------------------------------------------------| | type | string | string | int | | details | | | | * Samples: | text1 | text2 | label | |:---------------------------------------------------------------------------|:----------------------------------------------------------------------|:---------------| | Tuyển kỹ sư phần mềm nhúng có kinh nghiệm 3 năm trở lên. | Software Developer, yêu cầu hiểu biết về hệ thống nhúng. | 0 | | Tư vấn môi trường hỗ trợ kiểm soát ô nhiễm môi trường đô thị. | Quản lý chất thải có kinh nghiệm xử lý và tái chế nước. | 1 | | DevOps Engineer với khả năng triển khai trên AWS, Azure. | Cloud Engineer cần quản lý hạ tầng. | 1 | * Loss: [ContrastiveLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#contrastiveloss) with these parameters: ```json { "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE", "margin": 0.5, "size_average": true } ``` #### triplet * Dataset: [triplet](https://huggingface.co/datasets/HZeroxium/cv-job-triplet) at [3100410](https://huggingface.co/datasets/HZeroxium/cv-job-triplet/tree/31004104be298c5f2f1648d8234391e7a5f7d9c0) * Size: 157 evaluation samples * Columns: anchor, positive, and negative * Approximate statistics based on the first 157 samples: | | anchor | positive | negative | |:--------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------| | type | string | string | string | | details | | | | * Samples: | anchor | positive | negative | |:---------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------|:----------------------------------------------------------------| | Quản lý danh mục đầu tư tài chính trong hơn 6 năm, chuyên gia phân tích đầu tư. | Investment Analyst cần kinh nghiệm quản lý danh mục đầu tư. | Kế toán chi phí phụ trách kiểm soát chi phí. | | Chuyên viên quản lý chuỗi cung ứng, thành thạo SAP và tối ưu hóa quy trình. | Supply Chain Manager có kinh nghiệm tối ưu chuỗi cung ứng. | Tuyển lập trình viên Unity phát triển trò chơi 3D. | | Nhà phân tích dữ liệu, kinh nghiệm trong lĩnh vực y tế và sinh học. | Data Analyst cần kỹ năng phân tích dữ liệu y tế. | Tuyển nhân viên kinh doanh bất động sản. | * Loss: [TripletLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#tripletloss) with these parameters: ```json { "distance_metric": "TripletDistanceMetric.EUCLIDEAN", "triplet_margin": 5 } ``` #### similarity * Dataset: [similarity](https://huggingface.co/datasets/HZeroxium/cv-job-similarity) at [c810681](https://huggingface.co/datasets/HZeroxium/cv-job-similarity/tree/c8106811dc1709bb834a1b59e3cb46f5ab75dfd9) * Size: 241 evaluation samples * Columns: text1, text2, and score * Approximate statistics based on the first 241 samples: | | text1 | text2 | score | |:--------|:-----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------| | type | string | string | float | | details | | | | * Samples: | text1 | text2 | score | |:-----------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|:------------------| | Cần Quản lý đội xe có khả năng giám sát hiệu suất và lập kế hoạch vận hành. | Điều phối viên vận tải yêu cầu giám sát và tối ưu hóa hoạt động vận tải. | 0.83 | | Lập trình viên Python với kỹ năng xây dựng và tối ưu hóa hệ thống backend. | Hỗ trợ kỹ thuật viên IT xử lý lỗi mạng. | 0.29 | | Nhà khoa học nghiên cứu các hệ thống nano tiên tiến cho y học hiện đại. | Kỹ thuật viên thí nghiệm tập trung vào phân tích vật liệu nano. | 0.74 | * Loss: [CoSENTLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters: ```json { "scale": 20.0, "similarity_fct": "pairwise_cos_sim" } ``` #### job_paraphrase * Dataset: [job_paraphrase](https://huggingface.co/datasets/HZeroxium/job-paraphrase) at [6872029](https://huggingface.co/datasets/HZeroxium/job-paraphrase/tree/68720291bb9f628792d2f28d4653f03f6de5ef42) * Size: 313 evaluation samples * Columns: text1 and text2 * Approximate statistics based on the first 313 samples: | | text1 | text2 | |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------| | type | string | string | | details | | | * Samples: | text1 | text2 | |:---------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------| | Restaurant Manager chịu trách nhiệm giám sát và tối ưu hóa dịch vụ. | Restaurant Manager có khả năng điều hành và phát triển dịch vụ ăn uống. | | Quản lý thương mại điện tử tối ưu hóa quy trình bán hàng. | Quản lý sàn thương mại điện tử cần tối ưu hóa vận hành. | | Kỹ thuật viên kiểm tra cần kiểm tra chất lượng hệ thống sản xuất. | Kỹ thuật viên kiểm tra yêu cầu giám sát quy trình sản xuất. | * Loss: [MultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters: ```json { "scale": 20.0, "similarity_fct": "cos_sim" } ``` #### cv_paraphrase * Dataset: [cv_paraphrase](https://huggingface.co/datasets/HZeroxium/cv-paraphrase) at [22ce02f](https://huggingface.co/datasets/HZeroxium/cv-paraphrase/tree/22ce02ff309bc91193b3fa9c14a51fb3481a5fc2) * Size: 157 evaluation samples * Columns: text1 and text2 * Approximate statistics based on the first 157 samples: | | text1 | text2 | |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------| | type | string | string | | details | | | * Samples: | text1 | text2 | |:-----------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------| | Producer với kinh nghiệm quản lý các dự án phim truyền hình và phim tài liệu. | Chuyên gia sản xuất phim với kỹ năng quản lý các dự án phim lớn. | | Chuyên viên xử lý môi trường có kinh nghiệm trong xử lý nước thải và kiểm soát ô nhiễm. | Chuyên gia tư vấn môi trường với kinh nghiệm phát triển các dự án tái chế và xử lý nước thải. | | Cybersecurity Expert, chuyên gia bảo mật với 3 năm kinh nghiệm. | Chuyên gia An ninh mạng, 3 năm kinh nghiệm bảo mật hệ thống. | * Loss: [MultipleNegativesRankingLoss](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters: ```json { "scale": 20.0, "similarity_fct": "cos_sim" } ``` ### Training Hyperparameters #### Non-Default Hyperparameters - `eval_strategy`: steps - `per_device_train_batch_size`: 32 - `per_device_eval_batch_size`: 32 - `learning_rate`: 2e-05 - `num_train_epochs`: 5 - `warmup_ratio`: 0.1 - `fp16`: True - `batch_sampler`: no_duplicates #### All Hyperparameters
Click to expand - `overwrite_output_dir`: False - `do_predict`: False - `eval_strategy`: steps - `prediction_loss_only`: True - `per_device_train_batch_size`: 32 - `per_device_eval_batch_size`: 32 - `per_gpu_train_batch_size`: None - `per_gpu_eval_batch_size`: None - `gradient_accumulation_steps`: 1 - `eval_accumulation_steps`: None - `torch_empty_cache_steps`: None - `learning_rate`: 2e-05 - `weight_decay`: 0.0 - `adam_beta1`: 0.9 - `adam_beta2`: 0.999 - `adam_epsilon`: 1e-08 - `max_grad_norm`: 1.0 - `num_train_epochs`: 5 - `max_steps`: -1 - `lr_scheduler_type`: linear - `lr_scheduler_kwargs`: {} - `warmup_ratio`: 0.1 - `warmup_steps`: 0 - `log_level`: passive - `log_level_replica`: warning - `log_on_each_node`: True - `logging_nan_inf_filter`: True - `save_safetensors`: True - `save_on_each_node`: False - `save_only_model`: False - `restore_callback_states_from_checkpoint`: False - `no_cuda`: False - `use_cpu`: False - `use_mps_device`: False - `seed`: 42 - `data_seed`: None - `jit_mode_eval`: False - `use_ipex`: False - `bf16`: False - `fp16`: True - `fp16_opt_level`: O1 - `half_precision_backend`: auto - `bf16_full_eval`: False - `fp16_full_eval`: False - `tf32`: None - `local_rank`: 0 - `ddp_backend`: None - `tpu_num_cores`: None - `tpu_metrics_debug`: False - `debug`: [] - `dataloader_drop_last`: False - `dataloader_num_workers`: 0 - `dataloader_prefetch_factor`: None - `past_index`: -1 - `disable_tqdm`: False - `remove_unused_columns`: True - `label_names`: None - `load_best_model_at_end`: False - `ignore_data_skip`: False - `fsdp`: [] - `fsdp_min_num_params`: 0 - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False} - `fsdp_transformer_layer_cls_to_wrap`: None - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None} - `deepspeed`: None - `label_smoothing_factor`: 0.0 - `optim`: adamw_torch - `optim_args`: None - `adafactor`: False - `group_by_length`: False - `length_column_name`: length - `ddp_find_unused_parameters`: None - `ddp_bucket_cap_mb`: None - `ddp_broadcast_buffers`: False - `dataloader_pin_memory`: True - `dataloader_persistent_workers`: False - `skip_memory_metrics`: True - `use_legacy_prediction_loop`: False - `push_to_hub`: False - `resume_from_checkpoint`: None - `hub_model_id`: None - `hub_strategy`: every_save - `hub_private_repo`: False - `hub_always_push`: False - `gradient_checkpointing`: False - `gradient_checkpointing_kwargs`: None - `include_inputs_for_metrics`: False - `include_for_metrics`: [] - `eval_do_concat_batches`: True - `fp16_backend`: auto - `push_to_hub_model_id`: None - `push_to_hub_organization`: None - `mp_parameters`: - `auto_find_batch_size`: False - `full_determinism`: False - `torchdynamo`: None - `ray_scope`: last - `ddp_timeout`: 1800 - `torch_compile`: False - `torch_compile_backend`: None - `torch_compile_mode`: None - `dispatch_batches`: None - `split_batches`: None - `include_tokens_per_second`: False - `include_num_input_tokens_seen`: False - `neftune_noise_alpha`: None - `optim_target_modules`: None - `batch_eval_metrics`: False - `eval_on_start`: False - `use_liger_kernel`: False - `eval_use_gather_object`: False - `average_tokens_across_devices`: False - `prompts`: None - `batch_sampler`: no_duplicates - `multi_dataset_batch_sampler`: proportional
### Training Logs | Epoch | Step | Training Loss | binary loss | triplet loss | similarity loss | job paraphrase loss | cv paraphrase loss | cosine_ap | cosine_accuracy | spearman_cosine | |:------:|:----:|:-------------:|:-----------:|:------------:|:---------------:|:-------------------:|:------------------:|:---------:|:---------------:|:---------------:| | 0 | 0 | - | - | - | - | - | - | 1.0 | 0.9682 | 0.5468 | | 0.2817 | 200 | 2.401 | - | - | - | - | - | - | - | - | | 0.5634 | 400 | 1.5659 | - | - | - | - | - | - | - | - | | 0.7042 | 500 | - | 0.0088 | 0.2391 | 6.9067 | 0.1746 | 0.2689 | 1.0 | 0.9936 | 0.9123 | | 0.8451 | 600 | 1.8501 | - | - | - | - | - | - | - | - | | 1.1268 | 800 | 1.7318 | - | - | - | - | - | - | - | - | | 1.4085 | 1000 | 1.3758 | 0.0079 | 0.0367 | 6.2019 | 0.1665 | 0.2657 | 1.0 | 1.0 | 0.9238 | | 1.6901 | 1200 | 1.3554 | - | - | - | - | - | - | - | - | | 1.9718 | 1400 | 1.5119 | - | - | - | - | - | - | - | - | | 2.1127 | 1500 | - | 0.0081 | 0.0144 | 5.7135 | 0.1633 | 0.2295 | 1.0 | 1.0 | 0.9341 | | 2.2535 | 1600 | 1.2886 | - | - | - | - | - | - | - | - | | 2.5352 | 1800 | 1.1131 | - | - | - | - | - | - | - | - | | 2.8169 | 2000 | 1.3962 | 0.0108 | 0.0191 | 6.0231 | 0.1540 | 0.2342 | 1.0 | 1.0 | 0.9396 | | 3.0986 | 2200 | 1.2394 | - | - | - | - | - | - | - | - | | 3.3803 | 2400 | 1.1392 | - | - | - | - | - | - | - | - | | 3.5211 | 2500 | - | 0.0097 | 0.0025 | 5.6361 | 0.1580 | 0.2212 | 1.0 | 1.0 | 0.9410 | | 3.6620 | 2600 | 1.1614 | - | - | - | - | - | - | - | - | | 3.9437 | 2800 | 1.2351 | - | - | - | - | - | - | - | - | | 4.2254 | 3000 | 1.1862 | 0.0100 | 0.0107 | 5.5943 | 0.1517 | 0.2158 | 1.0 | 1.0 | 0.9420 | | 4.5070 | 3200 | 0.9371 | - | - | - | - | - | - | - | - | | 4.7887 | 3400 | 1.3572 | - | - | - | - | - | - | - | - | | 4.9296 | 3500 | - | 0.0104 | 0.0057 | 5.6213 | 0.1539 | 0.2141 | 1.0 | 1.0 | 0.9429 | | 5.0 | 3550 | - | - | - | - | - | - | 1.0 | 1.0 | 0.9431 | ### Framework Versions - Python: 3.12.4 - Sentence Transformers: 3.3.0 - Transformers: 4.46.2 - PyTorch: 2.5.1+cu124 - Accelerate: 1.1.1 - Datasets: 3.1.0 - Tokenizers: 0.20.3 ## Citation ### BibTeX #### Sentence Transformers ```bibtex @inproceedings{reimers-2019-sentence-bert, title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks", author = "Reimers, Nils and Gurevych, Iryna", booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing", month = "11", year = "2019", publisher = "Association for Computational Linguistics", url = "https://arxiv.org/abs/1908.10084", } ``` #### ContrastiveLoss ```bibtex @inproceedings{hadsell2006dimensionality, author={Hadsell, R. and Chopra, S. and LeCun, Y.}, booktitle={2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06)}, title={Dimensionality Reduction by Learning an Invariant Mapping}, year={2006}, volume={2}, number={}, pages={1735-1742}, doi={10.1109/CVPR.2006.100} } ``` #### TripletLoss ```bibtex @misc{hermans2017defense, title={In Defense of the Triplet Loss for Person Re-Identification}, author={Alexander Hermans and Lucas Beyer and Bastian Leibe}, year={2017}, eprint={1703.07737}, archivePrefix={arXiv}, primaryClass={cs.CV} } ``` #### CoSENTLoss ```bibtex @online{kexuefm-8847, title={CoSENT: A more efficient sentence vector scheme than Sentence-BERT}, author={Su Jianlin}, year={2022}, month={Jan}, url={https://kexue.fm/archives/8847}, } ``` #### MultipleNegativesRankingLoss ```bibtex @misc{henderson2017efficient, title={Efficient Natural Language Response Suggestion for Smart Reply}, author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil}, year={2017}, eprint={1705.00652}, archivePrefix={arXiv}, primaryClass={cs.CL} } ```