huudan123's picture
Add new SentenceTransformer model.
9226e24 verified
metadata
base_model: huudan123/model_stage3_latest
datasets: []
language: []
library_name: sentence-transformers
metrics:
  - pearson_cosine
  - spearman_cosine
  - pearson_manhattan
  - spearman_manhattan
  - pearson_euclidean
  - spearman_euclidean
  - pearson_dot
  - spearman_dot
  - pearson_max
  - spearman_max
pipeline_tag: sentence-similarity
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:11498
  - loss:CosineSimilarityLoss
widget:
  - source_sentence: 'Đó là chính thức: Thỏa thuận đạt được trên \"vách đá tài chính\"'
    sentences:
      - >-
        Chỉ số trung bình công nghiệp Dow Jones . DJI kết thúc phiên tăng 56,79
        điểm, tương đương 0,67%, lên 8.588,36 điểm - mức cao nhất kể từ ngày
        17/1.
      - >-
        Thượng viện Hoa Kỳ bỏ phiếu về thỏa thuận vách đá tài chính khi thời hạn
        gần kề
      - Nhà hoạt động Trung Quốc Chen hạ cánh  Mỹ
  - source_sentence: Một người đàn ông mặc vest đang đạp xe trên con đường trải nhựa.
    sentences:
      - >-
        Bất cứ khi nào tôi bắt đầu đọc đi đọc lại cùng một dòng, tôi bắt đầu đọc
        lướt.
      - Một người đàn ông, phụ nữ  đi bộ trên một con đường trải nhựa.
      - >-
        Một trắng với những vệt màu nâu nhạt có một cây gậy trong miệng và bàn
        chân của nó trong tuyết.
  - source_sentence: >-
      Một người đàn ông đang giơ lên và nói về một chiếc áo phông You Tube màu
      xám.
    sentences:
      - Một người đàn ông mặc bộ đồ màu xám đang khóa một chiếc xe đạp
      - Số người chết  động đất  Philippines tăng lên 185 người
      -  thực tế đơn giản ngày hôm nay?
  - source_sentence: >-
      Ông Kerry: Chưa có thỏa thuận nào trong các cuộc đàm phán hạt nhân với
      Iran
    sentences:
      - Không  nhiều thứ  bạn  thể làm với một món khai vị bột chua.
      - Nhà đàm phán Iran lạc quan về các cuộc đàm phán hạt nhân mới nhất
      - >-
        \"Tôi nghĩ bây giờ chúng ta có thể coi những gì đang xảy ra là một dịch
        bệnh thực sự\", Bộ trưởng Y tế Jean-Francois Mattei nói trên đài phát
        thanh France Inter.
  - source_sentence: >-
      Tổng thống Ukraine Leonid Kuchma hôm nay đã cắt ngắn chuyến thăm Mỹ Latinh
      khi cuộc tranh cãi biên giới gay gắt giữa Ukraine và Nga ngày càng xấu đi.
    sentences:
      - Mỹ, NATO dấy lên nghi ngại Nga rút khỏi biên giới Ukraine
      - Một chiếc xe buýt màu xanh  cây lái xuống một con đường.
      - >-
        Một người đàn ông mặc áo khoác màu cam nói chuyện với một người khác khi
        họ đi bộ trong tuyết.
model-index:
  - name: SentenceTransformer based on huudan123/model_stage3_latest
    results:
      - task:
          type: semantic-similarity
          name: Semantic Similarity
        dataset:
          name: sts evaluator
          type: sts-evaluator
        metrics:
          - type: pearson_cosine
            value: 0.8329487883855833
            name: Pearson Cosine
          - type: spearman_cosine
            value: 0.8384498035910675
            name: Spearman Cosine
          - type: pearson_manhattan
            value: 0.8238846871882353
            name: Pearson Manhattan
          - type: spearman_manhattan
            value: 0.8339605768593095
            name: Spearman Manhattan
          - type: pearson_euclidean
            value: 0.8250026897904206
            name: Pearson Euclidean
          - type: spearman_euclidean
            value: 0.8350094405752624
            name: Spearman Euclidean
          - type: pearson_dot
            value: 0.8130063857339718
            name: Pearson Dot
          - type: spearman_dot
            value: 0.8176439505486985
            name: Spearman Dot
          - type: pearson_max
            value: 0.8329487883855833
            name: Pearson Max
          - type: spearman_max
            value: 0.8384498035910675
            name: Spearman Max

SentenceTransformer based on huudan123/model_stage3_latest

This is a sentence-transformers model finetuned from huudan123/model_stage3_latest. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: huudan123/model_stage3_latest
  • Maximum Sequence Length: 256 tokens
  • Output Dimensionality: 768 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("huudan123/model_stage4_v1_latest")
# Run inference
sentences = [
    'Tổng thống Ukraine Leonid Kuchma hôm nay đã cắt ngắn chuyến thăm Mỹ Latinh khi cuộc tranh cãi biên giới gay gắt giữa Ukraine và Nga ngày càng xấu đi.',
    'Mỹ, NATO dấy lên nghi ngại Nga rút khỏi biên giới Ukraine',
    'Một người đàn ông mặc áo khoác màu cam nói chuyện với một người khác khi họ đi bộ trong tuyết.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Semantic Similarity

Metric Value
pearson_cosine 0.8329
spearman_cosine 0.8384
pearson_manhattan 0.8239
spearman_manhattan 0.834
pearson_euclidean 0.825
spearman_euclidean 0.835
pearson_dot 0.813
spearman_dot 0.8176
pearson_max 0.8329
spearman_max 0.8384

Training Details

Training Hyperparameters

Non-Default Hyperparameters

  • overwrite_output_dir: True
  • eval_strategy: epoch
  • per_device_train_batch_size: 256
  • per_device_eval_batch_size: 256
  • learning_rate: 2e-06
  • weight_decay: 0.01
  • num_train_epochs: 20
  • warmup_ratio: 0.1
  • fp16: True
  • load_best_model_at_end: True
  • gradient_checkpointing: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: True
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 256
  • per_device_eval_batch_size: 256
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-06
  • weight_decay: 0.01
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 20
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: True
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • eval_use_gather_object: False
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step loss sts-evaluator_spearman_max
0 0 - 0.8480
1.0 45 0.0382 0.8491
2.0 90 0.0307 0.8465
3.0 135 0.0285 0.8436
4.0 180 0.0267 0.8415
5.0 225 0.0265 0.8404
6.0 270 0.0253 0.8384
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.0.1
  • Transformers: 4.44.0
  • PyTorch: 2.4.0+cu121
  • Accelerate: 0.33.0
  • Datasets: 2.21.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}