Edit model card

SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2

This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 on the binary, triplet, similarity, job_paraphrase and cv_paraphrase datasets. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2-job-cv-multi-dataset")
# Run inference
sentences = [
    'Mobile Developer, kinh nghiệm lập trình ứng dụng iOS với Swift.',
    'Tuyển iOS Developer thành thạo Swift.',
    'Tuyển kỹ sư cơ khí giám sát dây chuyền sản xuất.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Binary Classification

Metric Value
cosine_accuracy 0.9755
cosine_accuracy_threshold 0.5809
cosine_f1 0.9779
cosine_f1_threshold 0.5644
cosine_precision 0.9833
cosine_recall 0.9725
cosine_ap 0.9956

Triplet

Metric Value
cosine_accuracy 1.0

Semantic Similarity

Metric Value
pearson_cosine 0.97
spearman_cosine 0.9431

Binary Classification

Metric Value
cosine_accuracy 0.9968
cosine_accuracy_threshold 0.765
cosine_f1 0.9984
cosine_f1_threshold 0.765
cosine_precision 1.0
cosine_recall 0.9968
cosine_ap 1.0

Binary Classification

Metric Value
cosine_accuracy 0.9936
cosine_accuracy_threshold 0.8211
cosine_f1 0.9968
cosine_f1_threshold 0.8211
cosine_precision 1.0
cosine_recall 0.9936
cosine_ap 1.0

Training Details

Training Datasets

binary

  • Dataset: binary at 8c79343
  • Size: 6,197 training samples
  • Columns: text1, text2, and label
  • Approximate statistics based on the first 1000 samples:
    text1 text2 label
    type string string int
    details
    • min: 10 tokens
    • mean: 19.5 tokens
    • max: 38 tokens
    • min: 6 tokens
    • mean: 15.91 tokens
    • max: 27 tokens
    • 0: ~43.70%
    • 1: ~56.30%
  • Samples:
    text1 text2 label
    Lập trình viên backend, 3 năm kinh nghiệm với Node.js và xây dựng API. Tuyển Backend Developer có kinh nghiệm với Node.js. 1
    Kỹ sư mạng với 6 năm kinh nghiệm quản lý hệ thống mạng lớn. Cần System Administrator với kinh nghiệm quản lý hệ thống. 0
    Lập trình viên JavaScript với 4 năm kinh nghiệm, thành thạo Node.js và Express. Cần tuyển Backend Developer biết sử dụng PHP và Laravel. 0
  • Loss: ContrastiveLoss with these parameters:
    {
        "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE",
        "margin": 0.5,
        "size_average": true
    }
    

triplet

  • Dataset: triplet at 3100410
  • Size: 2,981 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 10 tokens
    • mean: 19.51 tokens
    • max: 36 tokens
    • min: 10 tokens
    • mean: 15.88 tokens
    • max: 25 tokens
    • min: 6 tokens
    • mean: 14.47 tokens
    • max: 22 tokens
  • Samples:
    anchor positive negative
    Account Manager, chuyên quản lý khách hàng B2B và xây dựng mối quan hệ lâu dài. Tuyển Account Manager có kinh nghiệm quản lý khách hàng doanh nghiệp. Tuyển chuyên viên pháp lý tư vấn doanh nghiệp.
    Chuyên viên tư vấn giáo dục với 10 năm kinh nghiệm định hướng nghề nghiệp. Cần chuyên viên tư vấn giáo dục có kinh nghiệm định hướng nghề nghiệp. Nhân viên tổ chức sự kiện giáo dục hỗ trợ triển khai hội thảo.
    Actor với nhiều năm kinh nghiệm diễn xuất trên sân khấu và phim truyền hình. Diễn viên cần có khả năng hóa thân vào các vai diễn phức tạp. Nhà sản xuất phim cần quản lý và tổ chức các dự án phim tài liệu.
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
        "triplet_margin": 5
    }
    

similarity

  • Dataset: similarity at c810681
  • Size: 4,568 training samples
  • Columns: text1, text2, and score
  • Approximate statistics based on the first 1000 samples:
    text1 text2 score
    type string string float
    details
    • min: 10 tokens
    • mean: 18.86 tokens
    • max: 38 tokens
    • min: 7 tokens
    • mean: 16.12 tokens
    • max: 27 tokens
    • min: 0.19
    • mean: 0.68
    • max: 0.96
  • Samples:
    text1 text2 score
    Hardware Engineer có khả năng thiết kế hệ thống nhúng. Embedded Engineer cần có kỹ năng phát triển phần mềm nhúng. 0.74
    Kỹ sư phần mềm, chuyên môn trong phát triển hệ thống thời gian thực, 4 năm kinh nghiệm. Yêu cầu Embedded Software Engineer với kinh nghiệm tối thiểu 3 năm. 0.88
    Cần Software Engineer với kinh nghiệm phát triển web. Frontend Developer cần thành thạo React và JavaScript. 0.34
  • Loss: CoSENTLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "pairwise_cos_sim"
    }
    

job_paraphrase

  • Dataset: job_paraphrase at 6872029
  • Size: 5,939 training samples
  • Columns: text1 and text2
  • Approximate statistics based on the first 1000 samples:
    text1 text2
    type string string
    details
    • min: 6 tokens
    • mean: 16.25 tokens
    • max: 25 tokens
    • min: 6 tokens
    • mean: 15.78 tokens
    • max: 25 tokens
  • Samples:
    text1 text2
    Nhân viên hỗ trợ kho thuốc cần kỹ năng quản lý. Nhân viên kho thuốc cần kỹ năng kiểm kê.
    Nhân viên bán hàng cần có kỹ năng giao tiếp và xử lý tình huống. Salesperson chuyên xử lý đơn hàng và giữ mối quan hệ với khách hàng.
    Tuyển kỹ sư cơ khí chuyên thiết kế máy móc công nghiệp. Kỹ sư cơ khí cần thiết kế hệ thống sản xuất tiên tiến.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

cv_paraphrase

  • Dataset: cv_paraphrase at 22ce02f
  • Size: 2,969 training samples
  • Columns: text1 and text2
  • Approximate statistics based on the first 1000 samples:
    text1 text2
    type string string
    details
    • min: 10 tokens
    • mean: 20.6 tokens
    • max: 38 tokens
    • min: 10 tokens
    • mean: 19.52 tokens
    • max: 32 tokens
  • Samples:
    text1 text2
    Chuyên viên quản lý danh mục đầu tư với 8 năm kinh nghiệm tối ưu hóa tài sản và phân tích lợi nhuận. 8 năm kinh nghiệm quản lý danh mục đầu tư và phân tích tài chính.
    Hotel Manager with strong leadership skills and 5 years of experience. Hotel manager skilled in optimizing hotel operations and guest services.
    7 năm kinh nghiệm phát triển backend và cơ sở dữ liệu. Backend Developer chuyên về API và cơ sở dữ liệu.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Datasets

binary

  • Dataset: binary at 8c79343
  • Size: 327 evaluation samples
  • Columns: text1, text2, and label
  • Approximate statistics based on the first 327 samples:
    text1 text2 label
    type string string int
    details
    • min: 11 tokens
    • mean: 19.36 tokens
    • max: 31 tokens
    • min: 7 tokens
    • mean: 16.01 tokens
    • max: 26 tokens
    • 0: ~44.34%
    • 1: ~55.66%
  • Samples:
    text1 text2 label
    Tuyển kỹ sư phần mềm nhúng có kinh nghiệm 3 năm trở lên. Software Developer, yêu cầu hiểu biết về hệ thống nhúng. 0
    Tư vấn môi trường hỗ trợ kiểm soát ô nhiễm môi trường đô thị. Quản lý chất thải có kinh nghiệm xử lý và tái chế nước. 1
    DevOps Engineer với khả năng triển khai trên AWS, Azure. Cloud Engineer cần quản lý hạ tầng. 1
  • Loss: ContrastiveLoss with these parameters:
    {
        "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE",
        "margin": 0.5,
        "size_average": true
    }
    

triplet

  • Dataset: triplet at 3100410
  • Size: 157 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 157 samples:
    anchor positive negative
    type string string string
    details
    • min: 13 tokens
    • mean: 19.6 tokens
    • max: 32 tokens
    • min: 10 tokens
    • mean: 15.66 tokens
    • max: 23 tokens
    • min: 7 tokens
    • mean: 14.06 tokens
    • max: 20 tokens
  • Samples:
    anchor positive negative
    Quản lý danh mục đầu tư tài chính trong hơn 6 năm, chuyên gia phân tích đầu tư. Investment Analyst cần kinh nghiệm quản lý danh mục đầu tư. Kế toán chi phí phụ trách kiểm soát chi phí.
    Chuyên viên quản lý chuỗi cung ứng, thành thạo SAP và tối ưu hóa quy trình. Supply Chain Manager có kinh nghiệm tối ưu chuỗi cung ứng. Tuyển lập trình viên Unity phát triển trò chơi 3D.
    Nhà phân tích dữ liệu, kinh nghiệm trong lĩnh vực y tế và sinh học. Data Analyst cần kỹ năng phân tích dữ liệu y tế. Tuyển nhân viên kinh doanh bất động sản.
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
        "triplet_margin": 5
    }
    

similarity

  • Dataset: similarity at c810681
  • Size: 241 evaluation samples
  • Columns: text1, text2, and score
  • Approximate statistics based on the first 241 samples:
    text1 text2 score
    type string string float
    details
    • min: 11 tokens
    • mean: 18.69 tokens
    • max: 28 tokens
    • min: 8 tokens
    • mean: 15.93 tokens
    • max: 23 tokens
    • min: 0.2
    • mean: 0.67
    • max: 0.95
  • Samples:
    text1 text2 score
    Cần Quản lý đội xe có khả năng giám sát hiệu suất và lập kế hoạch vận hành. Điều phối viên vận tải yêu cầu giám sát và tối ưu hóa hoạt động vận tải. 0.83
    Lập trình viên Python với kỹ năng xây dựng và tối ưu hóa hệ thống backend. Hỗ trợ kỹ thuật viên IT xử lý lỗi mạng. 0.29
    Nhà khoa học nghiên cứu các hệ thống nano tiên tiến cho y học hiện đại. Kỹ thuật viên thí nghiệm tập trung vào phân tích vật liệu nano. 0.74
  • Loss: CoSENTLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "pairwise_cos_sim"
    }
    

job_paraphrase

  • Dataset: job_paraphrase at 6872029
  • Size: 313 evaluation samples
  • Columns: text1 and text2
  • Approximate statistics based on the first 313 samples:
    text1 text2
    type string string
    details
    • min: 10 tokens
    • mean: 16.32 tokens
    • max: 23 tokens
    • min: 10 tokens
    • mean: 15.74 tokens
    • max: 25 tokens
  • Samples:
    text1 text2
    Restaurant Manager chịu trách nhiệm giám sát và tối ưu hóa dịch vụ. Restaurant Manager có khả năng điều hành và phát triển dịch vụ ăn uống.
    Quản lý thương mại điện tử tối ưu hóa quy trình bán hàng. Quản lý sàn thương mại điện tử cần tối ưu hóa vận hành.
    Kỹ thuật viên kiểm tra cần kiểm tra chất lượng hệ thống sản xuất. Kỹ thuật viên kiểm tra yêu cầu giám sát quy trình sản xuất.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

cv_paraphrase

  • Dataset: cv_paraphrase at 22ce02f
  • Size: 157 evaluation samples
  • Columns: text1 and text2
  • Approximate statistics based on the first 157 samples:
    text1 text2
    type string string
    details
    • min: 12 tokens
    • mean: 20.28 tokens
    • max: 32 tokens
    • min: 13 tokens
    • mean: 19.34 tokens
    • max: 28 tokens
  • Samples:
    text1 text2
    Producer với kinh nghiệm quản lý các dự án phim truyền hình và phim tài liệu. Chuyên gia sản xuất phim với kỹ năng quản lý các dự án phim lớn.
    Chuyên viên xử lý môi trường có kinh nghiệm trong xử lý nước thải và kiểm soát ô nhiễm. Chuyên gia tư vấn môi trường với kinh nghiệm phát triển các dự án tái chế và xử lý nước thải.
    Cybersecurity Expert, chuyên gia bảo mật với 3 năm kinh nghiệm. Chuyên gia An ninh mạng, 3 năm kinh nghiệm bảo mật hệ thống.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • learning_rate: 2e-05
  • num_train_epochs: 5
  • warmup_ratio: 0.1
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss binary loss triplet loss similarity loss job paraphrase loss cv paraphrase loss cosine_ap cosine_accuracy spearman_cosine
0 0 - - - - - - 1.0 0.9682 0.5468
0.2817 200 2.401 - - - - - - - -
0.5634 400 1.5659 - - - - - - - -
0.7042 500 - 0.0088 0.2391 6.9067 0.1746 0.2689 1.0 0.9936 0.9123
0.8451 600 1.8501 - - - - - - - -
1.1268 800 1.7318 - - - - - - - -
1.4085 1000 1.3758 0.0079 0.0367 6.2019 0.1665 0.2657 1.0 1.0 0.9238
1.6901 1200 1.3554 - - - - - - - -
1.9718 1400 1.5119 - - - - - - - -
2.1127 1500 - 0.0081 0.0144 5.7135 0.1633 0.2295 1.0 1.0 0.9341
2.2535 1600 1.2886 - - - - - - - -
2.5352 1800 1.1131 - - - - - - - -
2.8169 2000 1.3962 0.0108 0.0191 6.0231 0.1540 0.2342 1.0 1.0 0.9396
3.0986 2200 1.2394 - - - - - - - -
3.3803 2400 1.1392 - - - - - - - -
3.5211 2500 - 0.0097 0.0025 5.6361 0.1580 0.2212 1.0 1.0 0.9410
3.6620 2600 1.1614 - - - - - - - -
3.9437 2800 1.2351 - - - - - - - -
4.2254 3000 1.1862 0.0100 0.0107 5.5943 0.1517 0.2158 1.0 1.0 0.9420
4.5070 3200 0.9371 - - - - - - - -
4.7887 3400 1.3572 - - - - - - - -
4.9296 3500 - 0.0104 0.0057 5.6213 0.1539 0.2141 1.0 1.0 0.9429
5.0 3550 - - - - - - 1.0 1.0 0.9431

Framework Versions

  • Python: 3.12.4
  • Sentence Transformers: 3.3.0
  • Transformers: 4.46.2
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.1.1
  • Datasets: 3.1.0
  • Tokenizers: 0.20.3

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

ContrastiveLoss

@inproceedings{hadsell2006dimensionality,
    author={Hadsell, R. and Chopra, S. and LeCun, Y.},
    booktitle={2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06)},
    title={Dimensionality Reduction by Learning an Invariant Mapping},
    year={2006},
    volume={2},
    number={},
    pages={1735-1742},
    doi={10.1109/CVPR.2006.100}
}

TripletLoss

@misc{hermans2017defense,
    title={In Defense of the Triplet Loss for Person Re-Identification},
    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
    year={2017},
    eprint={1703.07737},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}

CoSENTLoss

@online{kexuefm-8847,
    title={CoSENT: A more efficient sentence vector scheme than Sentence-BERT},
    author={Su Jianlin},
    year={2022},
    month={Jan},
    url={https://kexue.fm/archives/8847},
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
8
Safetensors
Model size
118M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for HZeroxium/paraphrase-multilingual-MiniLM-L12-v2-job-cv-multi-dataset

Datasets used to train HZeroxium/paraphrase-multilingual-MiniLM-L12-v2-job-cv-multi-dataset

Evaluation results