final-model-v2 / README.md
huudan123's picture
Add new SentenceTransformer model.
96d1fe0 verified
metadata
base_model: huudan123/model_stage3
datasets: []
language: []
library_name: sentence-transformers
metrics:
  - pearson_cosine
  - spearman_cosine
  - pearson_manhattan
  - spearman_manhattan
  - pearson_euclidean
  - spearman_euclidean
  - pearson_dot
  - spearman_dot
  - pearson_max
  - spearman_max
pipeline_tag: sentence-similarity
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:96896
  - loss:CosineSimilarityLoss
widget:
  - source_sentence: 'Đó là chính thức: Thỏa thuận đạt được trên \"vách đá tài chính\"'
    sentences:
      - >-
        Chỉ số trung bình công nghiệp Dow Jones . DJI kết thúc phiên tăng 56,79
        điểm, tương đương 0,67%, lên 8.588,36 điểm - mức cao nhất kể từ ngày
        17/1.
      - >-
        Thượng viện Hoa Kỳ bỏ phiếu về thỏa thuận vách đá tài chính khi thời hạn
        gần kề
      - Nhà hoạt động Trung Quốc Chen hạ cánh  Mỹ
  - source_sentence: Một người đàn ông mặc vest đang đạp xe trên con đường trải nhựa.
    sentences:
      - >-
        Bất cứ khi nào tôi bắt đầu đọc đi đọc lại cùng một dòng, tôi bắt đầu đọc
        lướt.
      - Một người đàn ông, phụ nữ  đi bộ trên một con đường trải nhựa.
      - >-
        Một trắng với những vệt màu nâu nhạt có một cây gậy trong miệng và bàn
        chân của nó trong tuyết.
  - source_sentence: >-
      Một người đàn ông đang giơ lên và nói về một chiếc áo phông You Tube màu
      xám.
    sentences:
      - Một người đàn ông mặc bộ đồ màu xám đang khóa một chiếc xe đạp
      - Số người chết  động đất  Philippines tăng lên 185 người
      -  thực tế đơn giản ngày hôm nay?
  - source_sentence: >-
      Ông Kerry: Chưa có thỏa thuận nào trong các cuộc đàm phán hạt nhân với
      Iran
    sentences:
      - Không  nhiều thứ  bạn  thể làm với một món khai vị bột chua.
      - Nhà đàm phán Iran lạc quan về các cuộc đàm phán hạt nhân mới nhất
      - >-
        \"Tôi nghĩ bây giờ chúng ta có thể coi những gì đang xảy ra là một dịch
        bệnh thực sự\", Bộ trưởng Y tế Jean-Francois Mattei nói trên đài phát
        thanh France Inter.
  - source_sentence: >-
      Tổng thống Ukraine Leonid Kuchma hôm nay đã cắt ngắn chuyến thăm Mỹ Latinh
      khi cuộc tranh cãi biên giới gay gắt giữa Ukraine và Nga ngày càng xấu đi.
    sentences:
      - Mỹ, NATO dấy lên nghi ngại Nga rút khỏi biên giới Ukraine
      - Một chiếc xe buýt màu xanh  cây lái xuống một con đường.
      - >-
        Một người đàn ông mặc áo khoác màu cam nói chuyện với một người khác khi
        họ đi bộ trong tuyết.
model-index:
  - name: SentenceTransformer based on huudan123/model_stage3
    results:
      - task:
          type: semantic-similarity
          name: Semantic Similarity
        dataset:
          name: sts evaluator
          type: sts-evaluator
        metrics:
          - type: pearson_cosine
            value: 0.3754740953446945
            name: Pearson Cosine
          - type: spearman_cosine
            value: 0.3703412999539646
            name: Spearman Cosine
          - type: pearson_manhattan
            value: 0.41622539402823844
            name: Pearson Manhattan
          - type: spearman_manhattan
            value: 0.4060073965027723
            name: Spearman Manhattan
          - type: pearson_euclidean
            value: 0.41568843930044774
            name: Pearson Euclidean
          - type: spearman_euclidean
            value: 0.4057107663984981
            name: Spearman Euclidean
          - type: pearson_dot
            value: 0.2323006226625286
            name: Pearson Dot
          - type: spearman_dot
            value: 0.2341693999798883
            name: Spearman Dot
          - type: pearson_max
            value: 0.41622539402823844
            name: Pearson Max
          - type: spearman_max
            value: 0.4060073965027723
            name: Spearman Max

SentenceTransformer based on huudan123/model_stage3

This is a sentence-transformers model finetuned from huudan123/model_stage3. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: huudan123/model_stage3
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("huudan123/final-model-v2")
# Run inference
sentences = [
    'Tổng thống Ukraine Leonid Kuchma hôm nay đã cắt ngắn chuyến thăm Mỹ Latinh khi cuộc tranh cãi biên giới gay gắt giữa Ukraine và Nga ngày càng xấu đi.',
    'Mỹ, NATO dấy lên nghi ngại Nga rút khỏi biên giới Ukraine',
    'Một người đàn ông mặc áo khoác màu cam nói chuyện với một người khác khi họ đi bộ trong tuyết.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Semantic Similarity

Metric Value
pearson_cosine 0.3755
spearman_cosine 0.3703
pearson_manhattan 0.4162
spearman_manhattan 0.406
pearson_euclidean 0.4157
spearman_euclidean 0.4057
pearson_dot 0.2323
spearman_dot 0.2342
pearson_max 0.4162
spearman_max 0.406

Training Details

Training Hyperparameters

Non-Default Hyperparameters

  • overwrite_output_dir: True
  • eval_strategy: epoch
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • learning_rate: 1e-05
  • num_train_epochs: 30
  • warmup_ratio: 0.1
  • fp16: True
  • load_best_model_at_end: True
  • gradient_checkpointing: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: True
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • learning_rate: 1e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 30
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: True
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss loss sts-evaluator_spearman_max
0 0 - - 0.8439
0.6605 500 0.0227 - -
1.0 757 - 0.013 0.7088
1.3210 1000 0.006 - -
1.9815 1500 0.0028 - -
2.0 1514 - 0.0193 0.5952
2.6420 2000 0.0018 - -
3.0 2271 - 0.0524 0.5241
3.3025 2500 0.0014 - -
3.9630 3000 0.0012 - -
4.0 3028 - 0.0684 0.4667
4.6235 3500 0.0012 - -
5.0 3785 - 0.0889 0.4060
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.0.1
  • Transformers: 4.42.4
  • PyTorch: 2.3.1+cu121
  • Accelerate: 0.33.0
  • Datasets: 2.20.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}