metadata
base_model: huudan123/model_stage3_latest
datasets: []
language: []
library_name: sentence-transformers
metrics:
- pearson_cosine
- spearman_cosine
- pearson_manhattan
- spearman_manhattan
- pearson_euclidean
- spearman_euclidean
- pearson_dot
- spearman_dot
- pearson_max
- spearman_max
pipeline_tag: sentence-similarity
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:11498
- loss:CosineSimilarityLoss
widget:
- source_sentence: 'Đó là chính thức: Thỏa thuận đạt được trên \"vách đá tài chính\"'
sentences:
- >-
Chỉ số trung bình công nghiệp Dow Jones . DJI kết thúc phiên tăng 56,79
điểm, tương đương 0,67%, lên 8.588,36 điểm - mức cao nhất kể từ ngày
17/1.
- >-
Thượng viện Hoa Kỳ bỏ phiếu về thỏa thuận vách đá tài chính khi thời hạn
gần kề
- Nhà hoạt động Trung Quốc Chen hạ cánh ở Mỹ
- source_sentence: Một người đàn ông mặc vest đang đạp xe trên con đường trải nhựa.
sentences:
- >-
Bất cứ khi nào tôi bắt đầu đọc đi đọc lại cùng một dòng, tôi bắt đầu đọc
lướt.
- Một người đàn ông, phụ nữ và đi bộ trên một con đường trải nhựa.
- >-
Một trắng với những vệt màu nâu nhạt có một cây gậy trong miệng và bàn
chân của nó trong tuyết.
- source_sentence: >-
Một người đàn ông đang giơ lên và nói về một chiếc áo phông You Tube màu
xám.
sentences:
- Một người đàn ông mặc bộ đồ màu xám đang khóa một chiếc xe đạp
- Số người chết vì động đất ở Philippines tăng lên 185 người
- Và thực tế đơn giản ngày hôm nay?
- source_sentence: >-
Ông Kerry: Chưa có thỏa thuận nào trong các cuộc đàm phán hạt nhân với
Iran
sentences:
- Không có nhiều thứ mà bạn có thể làm với một món khai vị bột chua.
- Nhà đàm phán Iran lạc quan về các cuộc đàm phán hạt nhân mới nhất
- >-
\"Tôi nghĩ bây giờ chúng ta có thể coi những gì đang xảy ra là một dịch
bệnh thực sự\", Bộ trưởng Y tế Jean-Francois Mattei nói trên đài phát
thanh France Inter.
- source_sentence: >-
Tổng thống Ukraine Leonid Kuchma hôm nay đã cắt ngắn chuyến thăm Mỹ Latinh
khi cuộc tranh cãi biên giới gay gắt giữa Ukraine và Nga ngày càng xấu đi.
sentences:
- Mỹ, NATO dấy lên nghi ngại Nga rút khỏi biên giới Ukraine
- Một chiếc xe buýt màu xanh lá cây lái xuống một con đường.
- >-
Một người đàn ông mặc áo khoác màu cam nói chuyện với một người khác khi
họ đi bộ trong tuyết.
model-index:
- name: SentenceTransformer based on huudan123/model_stage3_latest
results:
- task:
type: semantic-similarity
name: Semantic Similarity
dataset:
name: sts evaluator
type: sts-evaluator
metrics:
- type: pearson_cosine
value: 0.8329487883855833
name: Pearson Cosine
- type: spearman_cosine
value: 0.8384498035910675
name: Spearman Cosine
- type: pearson_manhattan
value: 0.8238846871882353
name: Pearson Manhattan
- type: spearman_manhattan
value: 0.8339605768593095
name: Spearman Manhattan
- type: pearson_euclidean
value: 0.8250026897904206
name: Pearson Euclidean
- type: spearman_euclidean
value: 0.8350094405752624
name: Spearman Euclidean
- type: pearson_dot
value: 0.8130063857339718
name: Pearson Dot
- type: spearman_dot
value: 0.8176439505486985
name: Spearman Dot
- type: pearson_max
value: 0.8329487883855833
name: Pearson Max
- type: spearman_max
value: 0.8384498035910675
name: Spearman Max
SentenceTransformer based on huudan123/model_stage3_latest
This is a sentence-transformers model finetuned from huudan123/model_stage3_latest. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: huudan123/model_stage3_latest
- Maximum Sequence Length: 256 tokens
- Output Dimensionality: 768 tokens
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("huudan123/model_stage4_v1_latest")
# Run inference
sentences = [
'Tổng thống Ukraine Leonid Kuchma hôm nay đã cắt ngắn chuyến thăm Mỹ Latinh khi cuộc tranh cãi biên giới gay gắt giữa Ukraine và Nga ngày càng xấu đi.',
'Mỹ, NATO dấy lên nghi ngại Nga rút khỏi biên giới Ukraine',
'Một người đàn ông mặc áo khoác màu cam nói chuyện với một người khác khi họ đi bộ trong tuyết.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Semantic Similarity
- Dataset:
sts-evaluator
- Evaluated with
EmbeddingSimilarityEvaluator
Metric | Value |
---|---|
pearson_cosine | 0.8329 |
spearman_cosine | 0.8384 |
pearson_manhattan | 0.8239 |
spearman_manhattan | 0.834 |
pearson_euclidean | 0.825 |
spearman_euclidean | 0.835 |
pearson_dot | 0.813 |
spearman_dot | 0.8176 |
pearson_max | 0.8329 |
spearman_max | 0.8384 |
Training Details
Training Hyperparameters
Non-Default Hyperparameters
overwrite_output_dir
: Trueeval_strategy
: epochper_device_train_batch_size
: 256per_device_eval_batch_size
: 256learning_rate
: 2e-06weight_decay
: 0.01num_train_epochs
: 20warmup_ratio
: 0.1fp16
: Trueload_best_model_at_end
: Truegradient_checkpointing
: True
All Hyperparameters
Click to expand
overwrite_output_dir
: Truedo_predict
: Falseeval_strategy
: epochprediction_loss_only
: Trueper_device_train_batch_size
: 256per_device_eval_batch_size
: 256per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 2e-06weight_decay
: 0.01adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 20max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Truefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Trueignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Falsehub_always_push
: Falsegradient_checkpointing
: Truegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseeval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseeval_use_gather_object
: Falsebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | loss | sts-evaluator_spearman_max |
---|---|---|---|
0 | 0 | - | 0.8480 |
1.0 | 45 | 0.0382 | 0.8491 |
2.0 | 90 | 0.0307 | 0.8465 |
3.0 | 135 | 0.0285 | 0.8436 |
4.0 | 180 | 0.0267 | 0.8415 |
5.0 | 225 | 0.0265 | 0.8404 |
6.0 | 270 | 0.0253 | 0.8384 |
- The bold row denotes the saved checkpoint.
Framework Versions
- Python: 3.10.12
- Sentence Transformers: 3.0.1
- Transformers: 4.44.0
- PyTorch: 2.4.0+cu121
- Accelerate: 0.33.0
- Datasets: 2.21.0
- Tokenizers: 0.19.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}