HZeroxium's picture
End of training
ea93cb8 verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:22654
  - loss:ContrastiveLoss
  - loss:TripletLoss
  - loss:CoSENTLoss
  - loss:MultipleNegativesRankingLoss
base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
widget:
  - source_sentence: Network Operations Specialist yêu cầu tối ưu hóa mạng.
    sentences:
      - >-
        Actor cần có kỹ năng biểu diễn sân khấu và hóa thân vào nhiều loại nhân
        vật.
      - Network Operations Specialist cần tối ưu hóa mạng.
      - >-
        Nhà tư vấn PR hỗ trợ doanh nghiệp trong việc phát triển hình ảnh công
        chúng và xử lý khủng hoảng.
  - source_sentence: Cybersecurity Specialist với kinh nghiệm bảo mật hệ thống 5 năm.
    sentences:
      - Kỹ   khí cần phát triển hệ thống sản xuất tự động hóa.
      - Cybersecurity Engineer, yêu cầu tối thiểu 5 năm trong bảo mật.
      - Data Scientist cần kỹ năng Machine Learning  Python.
  - source_sentence:  vấn môi trường hỗ trợ kiểm soát ô nhiễm môi trường đô thị.
    sentences:
      - Quản  chất thải  kinh nghiệm xử   tái chế nước.
      -  vấn môi trường quản  chất lượng môi trường đô thị.
      - >-
        Illustrator cần có khả năng minh họa cho sách giáo dục và tài liệu học
        tập.
  - source_sentence: Mobile Developer với kinh nghiệm phát triển ứng dụng iOS  Swift.
    sentences:
      - Tuyển iOS Developer  kỹ năng làm việc với Swift.
      - Tuyển chuyên viên QA kiểm tra chất lượng phần mềm.
      - Mobile Developer cần biết phát triển ứng dụng đa nền tảng.
  - source_sentence: Mobile Developer, kinh nghiệm lập trình ứng dụng iOS với Swift.
    sentences:
      - Tuyển kỹ   khí giám sát dây chuyền sản xuất.
      - >-
        Công ty XYZ tuyển Data Scientist với tối thiểu 2 năm kinh nghiệm học
        máy.
      - Tuyển iOS Developer thành thạo Swift.
datasets:
  - HZeroxium/job-cv-binary
  - HZeroxium/cv-job-triplet
  - HZeroxium/cv-job-similarity
  - HZeroxium/job-paraphrase
  - HZeroxium/cv-paraphrase
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
  - cosine_accuracy
  - cosine_accuracy_threshold
  - cosine_f1
  - cosine_f1_threshold
  - cosine_precision
  - cosine_recall
  - cosine_ap
  - pearson_cosine
  - spearman_cosine
model-index:
  - name: >-
      SentenceTransformer based on
      sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
    results:
      - task:
          type: binary-classification
          name: Binary Classification
        dataset:
          name: Unknown
          type: unknown
        metrics:
          - type: cosine_accuracy
            value: 0.9755351681957186
            name: Cosine Accuracy
          - type: cosine_accuracy_threshold
            value: 0.5808850526809692
            name: Cosine Accuracy Threshold
          - type: cosine_f1
            value: 0.9779005524861878
            name: Cosine F1
          - type: cosine_f1_threshold
            value: 0.5644330978393555
            name: Cosine F1 Threshold
          - type: cosine_precision
            value: 0.9833333333333333
            name: Cosine Precision
          - type: cosine_recall
            value: 0.9725274725274725
            name: Cosine Recall
          - type: cosine_ap
            value: 0.9956042554162885
            name: Cosine Ap
          - type: cosine_accuracy
            value: 0.9968051118210862
            name: Cosine Accuracy
          - type: cosine_accuracy_threshold
            value: 0.7650139331817627
            name: Cosine Accuracy Threshold
          - type: cosine_f1
            value: 0.9984
            name: Cosine F1
          - type: cosine_f1_threshold
            value: 0.7650139331817627
            name: Cosine F1 Threshold
          - type: cosine_precision
            value: 1
            name: Cosine Precision
          - type: cosine_recall
            value: 0.9968051118210862
            name: Cosine Recall
          - type: cosine_ap
            value: 0.9999999999999999
            name: Cosine Ap
          - type: cosine_accuracy
            value: 0.9936305732484076
            name: Cosine Accuracy
          - type: cosine_accuracy_threshold
            value: 0.8211346864700317
            name: Cosine Accuracy Threshold
          - type: cosine_f1
            value: 0.9968051118210862
            name: Cosine F1
          - type: cosine_f1_threshold
            value: 0.8211346864700317
            name: Cosine F1 Threshold
          - type: cosine_precision
            value: 1
            name: Cosine Precision
          - type: cosine_recall
            value: 0.9936305732484076
            name: Cosine Recall
          - type: cosine_ap
            value: 1
            name: Cosine Ap
      - task:
          type: triplet
          name: Triplet
        dataset:
          name: Unknown
          type: unknown
        metrics:
          - type: cosine_accuracy
            value: 1
            name: Cosine Accuracy
      - task:
          type: semantic-similarity
          name: Semantic Similarity
        dataset:
          name: Unknown
          type: unknown
        metrics:
          - type: pearson_cosine
            value: 0.970012297655986
            name: Pearson Cosine
          - type: spearman_cosine
            value: 0.9430534588122865
            name: Spearman Cosine

SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2

This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 on the binary, triplet, similarity, job_paraphrase and cv_paraphrase datasets. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2-job-cv-multi-dataset")
# Run inference
sentences = [
    'Mobile Developer, kinh nghiệm lập trình ứng dụng iOS với Swift.',
    'Tuyển iOS Developer thành thạo Swift.',
    'Tuyển kỹ sư cơ khí giám sát dây chuyền sản xuất.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Binary Classification

Metric Value
cosine_accuracy 0.9755
cosine_accuracy_threshold 0.5809
cosine_f1 0.9779
cosine_f1_threshold 0.5644
cosine_precision 0.9833
cosine_recall 0.9725
cosine_ap 0.9956

Triplet

Metric Value
cosine_accuracy 1.0

Semantic Similarity

Metric Value
pearson_cosine 0.97
spearman_cosine 0.9431

Binary Classification

Metric Value
cosine_accuracy 0.9968
cosine_accuracy_threshold 0.765
cosine_f1 0.9984
cosine_f1_threshold 0.765
cosine_precision 1.0
cosine_recall 0.9968
cosine_ap 1.0

Binary Classification

Metric Value
cosine_accuracy 0.9936
cosine_accuracy_threshold 0.8211
cosine_f1 0.9968
cosine_f1_threshold 0.8211
cosine_precision 1.0
cosine_recall 0.9936
cosine_ap 1.0

Training Details

Training Datasets

binary

  • Dataset: binary at 8c79343
  • Size: 6,197 training samples
  • Columns: text1, text2, and label
  • Approximate statistics based on the first 1000 samples:
    text1 text2 label
    type string string int
    details
    • min: 10 tokens
    • mean: 19.5 tokens
    • max: 38 tokens
    • min: 6 tokens
    • mean: 15.91 tokens
    • max: 27 tokens
    • 0: ~43.70%
    • 1: ~56.30%
  • Samples:
    text1 text2 label
    Lập trình viên backend, 3 năm kinh nghiệm với Node.js và xây dựng API. Tuyển Backend Developer có kinh nghiệm với Node.js. 1
    Kỹ sư mạng với 6 năm kinh nghiệm quản lý hệ thống mạng lớn. Cần System Administrator với kinh nghiệm quản lý hệ thống. 0
    Lập trình viên JavaScript với 4 năm kinh nghiệm, thành thạo Node.js và Express. Cần tuyển Backend Developer biết sử dụng PHP và Laravel. 0
  • Loss: ContrastiveLoss with these parameters:
    {
        "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE",
        "margin": 0.5,
        "size_average": true
    }
    

triplet

  • Dataset: triplet at 3100410
  • Size: 2,981 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 10 tokens
    • mean: 19.51 tokens
    • max: 36 tokens
    • min: 10 tokens
    • mean: 15.88 tokens
    • max: 25 tokens
    • min: 6 tokens
    • mean: 14.47 tokens
    • max: 22 tokens
  • Samples:
    anchor positive negative
    Account Manager, chuyên quản lý khách hàng B2B và xây dựng mối quan hệ lâu dài. Tuyển Account Manager có kinh nghiệm quản lý khách hàng doanh nghiệp. Tuyển chuyên viên pháp lý tư vấn doanh nghiệp.
    Chuyên viên tư vấn giáo dục với 10 năm kinh nghiệm định hướng nghề nghiệp. Cần chuyên viên tư vấn giáo dục có kinh nghiệm định hướng nghề nghiệp. Nhân viên tổ chức sự kiện giáo dục hỗ trợ triển khai hội thảo.
    Actor với nhiều năm kinh nghiệm diễn xuất trên sân khấu và phim truyền hình. Diễn viên cần có khả năng hóa thân vào các vai diễn phức tạp. Nhà sản xuất phim cần quản lý và tổ chức các dự án phim tài liệu.
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
        "triplet_margin": 5
    }
    

similarity

  • Dataset: similarity at c810681
  • Size: 4,568 training samples
  • Columns: text1, text2, and score
  • Approximate statistics based on the first 1000 samples:
    text1 text2 score
    type string string float
    details
    • min: 10 tokens
    • mean: 18.86 tokens
    • max: 38 tokens
    • min: 7 tokens
    • mean: 16.12 tokens
    • max: 27 tokens
    • min: 0.19
    • mean: 0.68
    • max: 0.96
  • Samples:
    text1 text2 score
    Hardware Engineer có khả năng thiết kế hệ thống nhúng. Embedded Engineer cần có kỹ năng phát triển phần mềm nhúng. 0.74
    Kỹ sư phần mềm, chuyên môn trong phát triển hệ thống thời gian thực, 4 năm kinh nghiệm. Yêu cầu Embedded Software Engineer với kinh nghiệm tối thiểu 3 năm. 0.88
    Cần Software Engineer với kinh nghiệm phát triển web. Frontend Developer cần thành thạo React và JavaScript. 0.34
  • Loss: CoSENTLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "pairwise_cos_sim"
    }
    

job_paraphrase

  • Dataset: job_paraphrase at 6872029
  • Size: 5,939 training samples
  • Columns: text1 and text2
  • Approximate statistics based on the first 1000 samples:
    text1 text2
    type string string
    details
    • min: 6 tokens
    • mean: 16.25 tokens
    • max: 25 tokens
    • min: 6 tokens
    • mean: 15.78 tokens
    • max: 25 tokens
  • Samples:
    text1 text2
    Nhân viên hỗ trợ kho thuốc cần kỹ năng quản lý. Nhân viên kho thuốc cần kỹ năng kiểm kê.
    Nhân viên bán hàng cần có kỹ năng giao tiếp và xử lý tình huống. Salesperson chuyên xử lý đơn hàng và giữ mối quan hệ với khách hàng.
    Tuyển kỹ sư cơ khí chuyên thiết kế máy móc công nghiệp. Kỹ sư cơ khí cần thiết kế hệ thống sản xuất tiên tiến.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

cv_paraphrase

  • Dataset: cv_paraphrase at 22ce02f
  • Size: 2,969 training samples
  • Columns: text1 and text2
  • Approximate statistics based on the first 1000 samples:
    text1 text2
    type string string
    details
    • min: 10 tokens
    • mean: 20.6 tokens
    • max: 38 tokens
    • min: 10 tokens
    • mean: 19.52 tokens
    • max: 32 tokens
  • Samples:
    text1 text2
    Chuyên viên quản lý danh mục đầu tư với 8 năm kinh nghiệm tối ưu hóa tài sản và phân tích lợi nhuận. 8 năm kinh nghiệm quản lý danh mục đầu tư và phân tích tài chính.
    Hotel Manager with strong leadership skills and 5 years of experience. Hotel manager skilled in optimizing hotel operations and guest services.
    7 năm kinh nghiệm phát triển backend và cơ sở dữ liệu. Backend Developer chuyên về API và cơ sở dữ liệu.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Datasets

binary

  • Dataset: binary at 8c79343
  • Size: 327 evaluation samples
  • Columns: text1, text2, and label
  • Approximate statistics based on the first 327 samples:
    text1 text2 label
    type string string int
    details
    • min: 11 tokens
    • mean: 19.36 tokens
    • max: 31 tokens
    • min: 7 tokens
    • mean: 16.01 tokens
    • max: 26 tokens
    • 0: ~44.34%
    • 1: ~55.66%
  • Samples:
    text1 text2 label
    Tuyển kỹ sư phần mềm nhúng có kinh nghiệm 3 năm trở lên. Software Developer, yêu cầu hiểu biết về hệ thống nhúng. 0
    Tư vấn môi trường hỗ trợ kiểm soát ô nhiễm môi trường đô thị. Quản lý chất thải có kinh nghiệm xử lý và tái chế nước. 1
    DevOps Engineer với khả năng triển khai trên AWS, Azure. Cloud Engineer cần quản lý hạ tầng. 1
  • Loss: ContrastiveLoss with these parameters:
    {
        "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE",
        "margin": 0.5,
        "size_average": true
    }
    

triplet

  • Dataset: triplet at 3100410
  • Size: 157 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 157 samples:
    anchor positive negative
    type string string string
    details
    • min: 13 tokens
    • mean: 19.6 tokens
    • max: 32 tokens
    • min: 10 tokens
    • mean: 15.66 tokens
    • max: 23 tokens
    • min: 7 tokens
    • mean: 14.06 tokens
    • max: 20 tokens
  • Samples:
    anchor positive negative
    Quản lý danh mục đầu tư tài chính trong hơn 6 năm, chuyên gia phân tích đầu tư. Investment Analyst cần kinh nghiệm quản lý danh mục đầu tư. Kế toán chi phí phụ trách kiểm soát chi phí.
    Chuyên viên quản lý chuỗi cung ứng, thành thạo SAP và tối ưu hóa quy trình. Supply Chain Manager có kinh nghiệm tối ưu chuỗi cung ứng. Tuyển lập trình viên Unity phát triển trò chơi 3D.
    Nhà phân tích dữ liệu, kinh nghiệm trong lĩnh vực y tế và sinh học. Data Analyst cần kỹ năng phân tích dữ liệu y tế. Tuyển nhân viên kinh doanh bất động sản.
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
        "triplet_margin": 5
    }
    

similarity

  • Dataset: similarity at c810681
  • Size: 241 evaluation samples
  • Columns: text1, text2, and score
  • Approximate statistics based on the first 241 samples:
    text1 text2 score
    type string string float
    details
    • min: 11 tokens
    • mean: 18.69 tokens
    • max: 28 tokens
    • min: 8 tokens
    • mean: 15.93 tokens
    • max: 23 tokens
    • min: 0.2
    • mean: 0.67
    • max: 0.95
  • Samples:
    text1 text2 score
    Cần Quản lý đội xe có khả năng giám sát hiệu suất và lập kế hoạch vận hành. Điều phối viên vận tải yêu cầu giám sát và tối ưu hóa hoạt động vận tải. 0.83
    Lập trình viên Python với kỹ năng xây dựng và tối ưu hóa hệ thống backend. Hỗ trợ kỹ thuật viên IT xử lý lỗi mạng. 0.29
    Nhà khoa học nghiên cứu các hệ thống nano tiên tiến cho y học hiện đại. Kỹ thuật viên thí nghiệm tập trung vào phân tích vật liệu nano. 0.74
  • Loss: CoSENTLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "pairwise_cos_sim"
    }
    

job_paraphrase

  • Dataset: job_paraphrase at 6872029
  • Size: 313 evaluation samples
  • Columns: text1 and text2
  • Approximate statistics based on the first 313 samples:
    text1 text2
    type string string
    details
    • min: 10 tokens
    • mean: 16.32 tokens
    • max: 23 tokens
    • min: 10 tokens
    • mean: 15.74 tokens
    • max: 25 tokens
  • Samples:
    text1 text2
    Restaurant Manager chịu trách nhiệm giám sát và tối ưu hóa dịch vụ. Restaurant Manager có khả năng điều hành và phát triển dịch vụ ăn uống.
    Quản lý thương mại điện tử tối ưu hóa quy trình bán hàng. Quản lý sàn thương mại điện tử cần tối ưu hóa vận hành.
    Kỹ thuật viên kiểm tra cần kiểm tra chất lượng hệ thống sản xuất. Kỹ thuật viên kiểm tra yêu cầu giám sát quy trình sản xuất.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

cv_paraphrase

  • Dataset: cv_paraphrase at 22ce02f
  • Size: 157 evaluation samples
  • Columns: text1 and text2
  • Approximate statistics based on the first 157 samples:
    text1 text2
    type string string
    details
    • min: 12 tokens
    • mean: 20.28 tokens
    • max: 32 tokens
    • min: 13 tokens
    • mean: 19.34 tokens
    • max: 28 tokens
  • Samples:
    text1 text2
    Producer với kinh nghiệm quản lý các dự án phim truyền hình và phim tài liệu. Chuyên gia sản xuất phim với kỹ năng quản lý các dự án phim lớn.
    Chuyên viên xử lý môi trường có kinh nghiệm trong xử lý nước thải và kiểm soát ô nhiễm. Chuyên gia tư vấn môi trường với kinh nghiệm phát triển các dự án tái chế và xử lý nước thải.
    Cybersecurity Expert, chuyên gia bảo mật với 3 năm kinh nghiệm. Chuyên gia An ninh mạng, 3 năm kinh nghiệm bảo mật hệ thống.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • learning_rate: 2e-05
  • num_train_epochs: 5
  • warmup_ratio: 0.1
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss binary loss triplet loss similarity loss job paraphrase loss cv paraphrase loss cosine_ap cosine_accuracy spearman_cosine
0 0 - - - - - - 1.0 0.9682 0.5468
0.2817 200 2.401 - - - - - - - -
0.5634 400 1.5659 - - - - - - - -
0.7042 500 - 0.0088 0.2391 6.9067 0.1746 0.2689 1.0 0.9936 0.9123
0.8451 600 1.8501 - - - - - - - -
1.1268 800 1.7318 - - - - - - - -
1.4085 1000 1.3758 0.0079 0.0367 6.2019 0.1665 0.2657 1.0 1.0 0.9238
1.6901 1200 1.3554 - - - - - - - -
1.9718 1400 1.5119 - - - - - - - -
2.1127 1500 - 0.0081 0.0144 5.7135 0.1633 0.2295 1.0 1.0 0.9341
2.2535 1600 1.2886 - - - - - - - -
2.5352 1800 1.1131 - - - - - - - -
2.8169 2000 1.3962 0.0108 0.0191 6.0231 0.1540 0.2342 1.0 1.0 0.9396
3.0986 2200 1.2394 - - - - - - - -
3.3803 2400 1.1392 - - - - - - - -
3.5211 2500 - 0.0097 0.0025 5.6361 0.1580 0.2212 1.0 1.0 0.9410
3.6620 2600 1.1614 - - - - - - - -
3.9437 2800 1.2351 - - - - - - - -
4.2254 3000 1.1862 0.0100 0.0107 5.5943 0.1517 0.2158 1.0 1.0 0.9420
4.5070 3200 0.9371 - - - - - - - -
4.7887 3400 1.3572 - - - - - - - -
4.9296 3500 - 0.0104 0.0057 5.6213 0.1539 0.2141 1.0 1.0 0.9429
5.0 3550 - - - - - - 1.0 1.0 0.9431

Framework Versions

  • Python: 3.12.4
  • Sentence Transformers: 3.3.0
  • Transformers: 4.46.2
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.1.1
  • Datasets: 3.1.0
  • Tokenizers: 0.20.3

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

ContrastiveLoss

@inproceedings{hadsell2006dimensionality,
    author={Hadsell, R. and Chopra, S. and LeCun, Y.},
    booktitle={2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06)},
    title={Dimensionality Reduction by Learning an Invariant Mapping},
    year={2006},
    volume={2},
    number={},
    pages={1735-1742},
    doi={10.1109/CVPR.2006.100}
}

TripletLoss

@misc{hermans2017defense,
    title={In Defense of the Triplet Loss for Person Re-Identification},
    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
    year={2017},
    eprint={1703.07737},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}

CoSENTLoss

@online{kexuefm-8847,
    title={CoSENT: A more efficient sentence vector scheme than Sentence-BERT},
    author={Su Jianlin},
    year={2022},
    month={Jan},
    url={https://kexue.fm/archives/8847},
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}