final_model_main / README.md
huudan123's picture
Add new SentenceTransformer model.
7ac9b41 verified
metadata
base_model: huudan123/model_stage2
datasets: []
language: []
library_name: sentence-transformers
metrics:
  - pearson_cosine
  - spearman_cosine
  - pearson_manhattan
  - spearman_manhattan
  - pearson_euclidean
  - spearman_euclidean
  - pearson_dot
  - spearman_dot
  - pearson_max
  - spearman_max
pipeline_tag: sentence-similarity
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:102645
  - loss:CosineSimilarityLoss
widget:
  - source_sentence: Tổng thống Bulgaria cố gắng phá vỡ bế tắc bầu cử
    sentences:
      - Maldives tổ chức bầu cử tổng thống mới
      - Cháy rừng Oklahoma phá hủy nhà cửa - trong ảnh
      - Một đang đi dọc theo một hồ bơi.
  - source_sentence: >-
      Mel Smith qua đời ở tuổi 60 và Vương quốc Anh thương tiếc một bộ phim hài
      yêu thích
    sentences:
      - >-
        GL, Terral Hi Corn: Vậy, bạn thực sự tin vào từng lời của Terral đã
        viết?
      - Margaret Thatcher, cựu Thủ tướng Anh, qua đời  tuổi 87
      - Mỹ giúp cung cấp  khí cho phiến quân Syria
  - source_sentence: Một chui ra phía sau xe tải.
    sentences:
      - >-
        Nhân kỷ niệm 50 năm ngày mất của JFK, Dallas tổ chức lễ tưởng niệm đầu
        tiên
      - >-
        Cổ phiếu Allegiant tăng 4 USD, tương đương 17,2%, lên 27,43 USD trong
        phiên giao dịch sáng thứ Năm trên thị trường chứng khoán Nasdaq.
      - Một  gái trẻ đội  bảo hiểm xe đạp với một chiếc xe đạp  phía sau.
  - source_sentence: AL gia hạn lên án bạo lực  Syria
    sentences:
      - Tòa án Ai Cập ra lệnh thả Mubarak
      - Obama lên án bạo lực Ai Cập, hủy bỏ các cuộc tập trận quân sự
      - >-
        Trái phiếu kỳ hạn 30 năm US30YT = RR giảm 14/32 với lợi suất 4,26% từ
        4,23%.
  - source_sentence: >-
      Thật nực cười khi tôi thấy các hãng hàng không đôi khi yêu cầu tắt những
      thứ này.
    sentences:
      - Tôi rất tiếc khi nghe điều này Kelly.
      - Hàng loạt các cuộc tấn công Iraq giết chết ít nhất sáu người
      - >-
        Các cuộc tấn công mạng được coi là mối đe dọa ngày càng tăng đối với
        mạng máy tính quân sự và dân sự. 
model-index:
  - name: SentenceTransformer based on huudan123/model_stage2
    results:
      - task:
          type: semantic-similarity
          name: Semantic Similarity
        dataset:
          name: sts evaluator
          type: sts-evaluator
        metrics:
          - type: pearson_cosine
            value: 0.05287418847635471
            name: Pearson Cosine
          - type: spearman_cosine
            value: 0.33628129091743275
            name: Spearman Cosine
          - type: pearson_manhattan
            value: 0.15493487298707004
            name: Pearson Manhattan
          - type: spearman_manhattan
            value: 0.3373742409125596
            name: Spearman Manhattan
          - type: pearson_euclidean
            value: 0.15533169047001907
            name: Pearson Euclidean
          - type: spearman_euclidean
            value: 0.33611237346676887
            name: Spearman Euclidean
          - type: pearson_dot
            value: 0.05498172874565448
            name: Pearson Dot
          - type: spearman_dot
            value: 0.05788159269305955
            name: Spearman Dot
          - type: pearson_max
            value: 0.15533169047001907
            name: Pearson Max
          - type: spearman_max
            value: 0.3373742409125596
            name: Spearman Max

SentenceTransformer based on huudan123/model_stage2

This is a sentence-transformers model finetuned from huudan123/model_stage2. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: huudan123/model_stage2
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("huudan123/final_model_main")
# Run inference
sentences = [
    'Thật nực cười khi tôi thấy các hãng hàng không đôi khi yêu cầu tắt những thứ này.',
    'Tôi rất tiếc khi nghe điều này Kelly.',
    'Hàng loạt các cuộc tấn công Iraq giết chết ít nhất sáu người',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Semantic Similarity

Metric Value
pearson_cosine 0.0529
spearman_cosine 0.3363
pearson_manhattan 0.1549
spearman_manhattan 0.3374
pearson_euclidean 0.1553
spearman_euclidean 0.3361
pearson_dot 0.055
spearman_dot 0.0579
pearson_max 0.1553
spearman_max 0.3374

Training Details

Training Hyperparameters

Non-Default Hyperparameters

  • overwrite_output_dir: True
  • eval_strategy: epoch
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • learning_rate: 2e-05
  • num_train_epochs: 30
  • warmup_ratio: 0.1
  • fp16: True
  • load_best_model_at_end: True
  • gradient_checkpointing: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: True
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 30
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: True
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss loss sts-evaluator_spearman_max
0 0 - - 0.6240
0.6234 500 0.0186 - -
1.0 802 - 0.0215 0.7037
1.2469 1000 0.0071 - -
1.8703 1500 0.0063 - -
2.0 1604 - 0.0216 0.7184
2.4938 2000 0.0057 - -
3.0 2406 - 0.0200 0.7298
3.1172 2500 0.0055 - -
3.7406 3000 0.0052 - -
4.0 3208 - 0.0175 0.7733
4.3641 3500 0.005 - -
4.9875 4000 0.005 - -
5.0 4010 - 0.0144 0.7820
5.6110 4500 0.0046 - -
6.0 4812 - 0.0135 0.7839
6.2344 5000 0.0045 - -
6.8579 5500 0.0043 - -
7.0 5614 - 0.0132 0.7867
7.4813 6000 0.0041 - -
8.0 6416 - 0.0113 0.7894
8.1047 6500 0.004 - -
8.7282 7000 0.0037 - -
9.0 7218 - 0.0105 0.7845
9.3516 7500 0.0036 - -
9.9751 8000 0.0037 - -
10.0 8020 - 0.0096 0.7963
10.5985 8500 0.0074 - -
11.0 8822 - 0.2441 0.3470
11.2219 9000 0.0065 - -
11.8454 9500 0.0063 - -
12.0 9624 - 0.2443 0.2869
12.4688 10000 0.0062 - -
13.0 10426 - 0.2446 0.2917
13.0923 10500 0.0061 - -
13.7157 11000 0.006 - -
14.0 11228 - 0.2446 0.3374
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.0.1
  • Transformers: 4.42.4
  • PyTorch: 2.3.1+cu121
  • Accelerate: 0.33.0
  • Datasets: 2.20.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}