SentenceTransformer based on anhtuansh/gte-multilingual-base-Matryoshka-2e-9k

This is a sentence-transformers model finetuned from anhtuansh/gte-multilingual-base-Matryoshka-2e-9k on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("anhtuansh/gte-multilingual-base-Matryoshka-3e-9k")
# Run inference
sentences = [
    'quản_lý nhập_khẩu hàng_hóa bị điều_tra , phục_vụ công_tác điều_tra , áp_dụng biện_pháp phòng_vệ thương_mại .',
    'mục_đích của thủ_tục khai_báo là gì ?',
    'đơn_vị chúng_tôi đã được cấp chứng_chỉ năng_lực hoạt_động xây_dựng nhưng hiện_nay chúng_tôi thay_đổi người đại_diện pháp_luật của đơn_vị . vậy chúng_tôi có phải làm thủ_tục nào để thay_đổi người đại_diện theo pháp_luật của chúng_tôi trên chứng_chỉ ?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric dim_768 dim_512
cosine_accuracy@1 0.5752 0.5632
cosine_accuracy@3 0.7418 0.7375
cosine_accuracy@5 0.7974 0.7941
cosine_accuracy@10 0.8486 0.8442
cosine_precision@1 0.5752 0.5632
cosine_precision@3 0.2473 0.2458
cosine_precision@5 0.1595 0.1588
cosine_precision@10 0.0849 0.0844
cosine_recall@1 0.5752 0.5632
cosine_recall@3 0.7418 0.7375
cosine_recall@5 0.7974 0.7941
cosine_recall@10 0.8486 0.8442
cosine_ndcg@10 0.714 0.7076
cosine_mrr@10 0.6707 0.6633
cosine_map@100 0.675 0.6678

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 8,259 training samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 1000 samples:
    positive anchor
    type string string
    details
    • min: 5 tokens
    • mean: 303.9 tokens
    • max: 3209 tokens
    • min: 7 tokens
    • mean: 56.17 tokens
    • max: 578 tokens
  • Samples:
    positive anchor
    điểm a , mục 2 phần ii thông_tư số 04 / 1999 / tt - bca ( c13 ) ngày 29 / 4 / 1999 của bộ công_an hướng_dẫn một_số quy_định của nghị_định số 05 / 1999 / nđ - cp ngày 03 / 01 / 1999 của chính_phủ về chứng_minh nhân_dân quy_định các trường_hợp phải đổi cmnd như sau : - quá thời_hạn sử_dụng 15 năm kể từ ngày cấp ; - cmnd rách , nát , không rõ ảnh hoặc một trong các thông_tin đã ghi trên cmnd ; - thay_đổi họ , tên , chữ đệm , ngày , tháng , năm sinh . những thay_đổi này phải có quyết_định của cơ_quan có thẩm_quyền ; - những người đã được cấp giấy cmnd nhưng chuyển nơi đăng_ký hộ_khẩu thường_trú ngoài phạm_vi tỉnh , thành_phố trực_thuộc trung_ương . trường_hợp chuyển nơi thường_trú trong phạm_vi tỉnh , thành_phố mà công_dân có yêu_cầu thì được đổi lại cmnd ; - thay_đổi đặc_điểm nhận_dạng là những trường_hợp đã qua phẫu_thuật thẩm_mỹ , chỉnh_hình hoặc vì lý_do khác đã làm thay_đổi hình_ảnh hoặc đặc_điểm nhận_dạng của họ . công_dân phải làm thủ_tục đổi chứng_minh nhân_dân khi nào ?
    việc thực_hiện thủ_tục tặng cờ thi_đua cấp bộ , ban , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương theo đợt hoặc chuyên_đề được tiến_hành như sau :
    bước 1 . vụ , phòng , ban thi_đua – khen_thưởng các bộ , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương tiếp_nhận đề_nghị khen_thưởng của các đơn_vị thực thuộc .
    bước 2 . thẩm_định hồ_sơ , xin ý_kiến các cơ_quan liên_quan , báo_cáo hội_đồng thi_đua khen_thưởng cùng cấp , tổng_hợp trình bộ_trưởng , thủ_trưởng đơn_vị , chủ_tịch ubnd tỉnh , thành_phố quyết_định khen_thưởng .
    bước 3 . khi có quyết_định của bộ_trưởng , thủ_trưởng đơn_vị , chủ_tịch ubnd tỉnh , thành_phố trực_thuộc trung_ương ; vụ , phòng , ban thi_đua – khen_thưởng các bộ , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương thông_báo quyết_định , viết bằng , đóng_dấu và cấp_phát cho đơn_vị trình khen .
    bước 4 . các trường_hợp không được khen_thưởng ( không đúng đối_tượng , không đủ tiêu_chuẩn , không đủ hồ_sơ...
    đề_nghị cho biết trình_tự thực_hiện thủ_tục tặng cờ thi_đua cấp bộ , ban , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương theo đợt hoặc chuyên_đề
    thời_gian phục_vụ tại_ngũ của hạ_sĩ_quan binh_sĩ được quy_định tại điều 21 luật nvqs năm 2015 , cụ_thể như sau : “ điều 21 . thời_hạn phục_vụ tại_ngũ của hạ_sĩ_quan , binh sĩ1 . thời_hạn phục_vụ tại_ngũ trong thời_bình của hạ_sĩ_quan , binh_sĩ là 24 tháng . 2 . bộ_trưởng bộ quốc_phòng được quyết_định kéo_dài thời_hạn phục_vụ tại_ngũ của hạ_sĩ_quan , binh_sĩ nhưng không quá 06 tháng trong trường_hợp sau đây : a ) để bảo_đảm_nhiệm_vụ sẵn_sàng chiến_đấu ; b ) đang thực_hiện nhiệm_vụ phòng , chống thiên_tai , dịch_bệnh , cứu_hộ , cứu nạn . 3 . thời_hạn phục_vụ của hạ_sĩ_quan , binh_sĩ trong tình_trạng chiến_tranh hoặc tình_trạng khẩn_cấp về quốc_phòng được thực_hiện theo lệnh tổng_động_viên hoặc động_viên cục_bộ . ” quy_định thời_gian phục_vụ tại_ngũ của hạ_sĩ_quan binh_sĩ như thế_nào ?
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512
        ],
        "matryoshka_weights": [
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Evaluation Dataset

json

  • Dataset: json
  • Size: 918 evaluation samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 918 samples:
    positive anchor
    type string string
    details
    • min: 5 tokens
    • mean: 307.44 tokens
    • max: 3463 tokens
    • min: 11 tokens
    • mean: 55.94 tokens
    • max: 383 tokens
  • Samples:
    positive anchor
    theo quy_định tại khoản 9 điều 1 nghị_định số 161 / 2018 / nđ - cpngày 29 / 11 / 2018 của chính_phủ sửa_đổi , bổ_sung một_số quy_định về tuyển_dụng công_chức , viên_chức , nâng ngạch công_chức , thăng_hạng viên_chức và thực_hiện chế_độ hợp_đồng một_số loại công_việc trong cơ_quan hành_chính nhà_nước , đơn_vị sự_nghiệp công_lập thì đối_tượng và điểm ưu_tiên trong thi_tuyển hoặc xét tuyển công_chức :
    + anh_hùng lực_lượng vũ_trang , anh_hùng lao_động , thương_binh , người hưởng chính_sách như thương_binh , thương_binh loại b : được cộng 7,5 điểm vào kết_quả điểm thi tại vòng 2 ;
    + người dân_tộc_thiểu_số , sĩ_quan quân_đội , sĩ_quan công_an , quân_nhân chuyên_nghiệp , người làm công_tác cơ_yếu chuyển ngành , con liệt_sĩ , con thương_binh , con bệnh_binh , con của người hưởng chính_sách như thương_binh , con của thương_binh loại b , con của người hoạt_động cách_mạng trước tổng_khởi_nghĩa ( từ ngày 19 / 8 / 1945 trở về trước ) , con_đẻ của người hoạt_động kháng_chiến bị nhiễm chất_độc_hó...
    đề_nghị cho tôi được biết đối_tượng được hưởng ưu_tiên trong tuyển_dụng công_chức ?
    1 . khi phát_hiện tổ_chức , cá_nhân kê_khai hồ_sơ , thông_báo không_trung_thực hoặc vi_phạm_quy_định tại điều 8 nghị_định số 23 / 2019 / nđ - cp , cơ_quan tiếp_nhận thông_báo yêu_cầu tạm dừng hoạt_động triển_lãm bằng văn_bản ( mẫu_số 03 tại phụ_lục ban_hành kèm theo nghị_định số 23 / 2019 / nđ - cp ) . 2 . tổ_chức , cá_nhân phải dừng hoạt_động triển_lãm ngay khi nhận được văn_bản của cơ_quan có thẩm_quyền ; kịp_thời_khắc_phục hậu_quả , đề_xuất phương_án tiếp_tục tổ_chức triển_lãm gửi cơ_quan có thẩm_quyền xem_xét , quyết_định . 3 . kết_quả xem_xét , quyết_định của cơ_quan có thẩm_quyền phải được thể_hiện bằng văn_bản và gửi cho tổ_chức , cá_nhân biết để thực_hiện . thời_hạn gửi văn_bản cho tổ_chức , cá_nhân là 03 ngày , kể từ ngày cơ_quan có thẩm_quyền nhận được văn_bản đề_xuất phương_án tiếp_tục tổ_chức triển_lãm của tổ_chức , cá_nhân . những lý_do nào khiến hoạt_động triển_lãm bị tạm dừng ?
    theo quy_định tại khoản 1 điều 33 luật quản_lý , sử_dụng vũ_khí , vật_liệu nổ và công_cụ hỗ_trợ và điểm a khoản 4 điều 3 thông_tư số 16 / 2018 / tt - bca ngày 15 / 5 / 2018 của bộ công_an quy_định chi_tiết thi_hành một_số điều của luật quản_lý , sử_dụng vũ_khí , vật_liệu nổ và công_cụ hỗ_trợ thì thủ_tục đề_nghị cấp giấy_phép vận_chuyển vũ_khí quân_dụng đối_với cơ_quan , tổ_chức ở trung_ương không thuộc phạm_vi quản_lý của bộ quốc_phòng được thực_hiện như sau : a ) hồ_sơ đề_nghị bao_gồm : văn_bản đề_nghị nêu rõ số_lượng , chủng_loại , nguồn_gốc xuất_xứ của vũ_khí cần vận_chuyển ; nơi đi , nơi đến , thời_gian và tuyến đường vận_chuyển ; họ và tên , địa_chỉ của người chịu trách_nhiệm vận_chuyển , người điều_khiển phương_tiện ; biển kiểm_soát của phương_tiện ; giấy giới_thiệu kèm theo bản_sao thẻ căn_cước công_dân , chứng_minh nhân_dân , hộ_chiếu hoặc chứng_minh công_an nhân_dân của người đến liên_hệ ; b ) hồ_sơ lập thành 01 bộ và nộp tại cục cảnh_sát qlhc về ttxh ; c ) trong thời_hạn 05 n... thủ_tục cấp giấy_phép vận_chuyển vũ_khí quân_dụng đối_với cơ_quan , tổ_chức ở trung_ương không thuộc phạm_vi quản_lý của bộ quốc_phòng thực_hiện như thế_nào ?
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512
        ],
        "matryoshka_weights": [
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 2
  • per_device_eval_batch_size: 2
  • gradient_accumulation_steps: 2
  • learning_rate: 2e-05
  • num_train_epochs: 1
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • fp16: True
  • tf32: False
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 2
  • per_device_eval_batch_size: 2
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 2
  • eval_accumulation_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: False
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss Validation Loss dim_768_cosine_ndcg@10 dim_512_cosine_ndcg@10
0 0 - - 0.7244 0.7211
0.0048 10 0.0012 - - -
0.0097 20 0.0016 - - -
0.0145 30 0.0005 - - -
0.0194 40 0.0002 - - -
0.0242 50 0.001 - - -
0.0291 60 0.0003 - - -
0.0339 70 0.0973 - - -
0.0387 80 0.0003 - - -
0.0436 90 0.0002 - - -
0.0484 100 0.0001 - - -
0.0533 110 0.0001 - - -
0.0581 120 0.0008 - - -
0.0630 130 0.2459 - - -
0.0678 140 0.0003 - - -
0.0726 150 0.0002 - - -
0.0775 160 0.0022 - - -
0.0823 170 0.0002 - - -
0.0872 180 0.0003 - - -
0.0920 190 0.0022 - - -
0.0969 200 0.0003 - - -
0.1017 210 0.0111 - - -
0.1065 220 0.0008 - - -
0.1114 230 0.0002 - - -
0.1162 240 0.0014 - - -
0.1211 250 0.0007 - - -
0.1259 260 0.0004 - - -
0.1308 270 0.0007 - - -
0.1356 280 0.0005 - - -
0.1404 290 0.0006 - - -
0.1453 300 0.0003 - - -
0.1501 310 0.0001 - - -
0.1550 320 0.0004 - - -
0.1598 330 0.0008 - - -
0.1646 340 0.0088 - - -
0.1695 350 0.0002 - - -
0.1743 360 0.0032 - - -
0.1792 370 0.0004 - - -
0.1840 380 0.0002 - - -
0.1889 390 0.0007 - - -
0.1937 400 0.0123 - - -
0.1985 410 0.0007 - - -
0.2034 420 0.0003 - - -
0.2082 430 0.0003 - - -
0.2131 440 0.0004 - - -
0.2179 450 0.0004 - - -
0.2228 460 0.0018 - - -
0.2276 470 0.0004 - - -
0.2324 480 0.0001 - - -
0.2373 490 0.0 - - -
0.2421 500 0.0002 - - -
0.2470 510 0.0004 - - -
0.2518 520 0.0005 - - -
0.2567 530 0.0009 - - -
0.2615 540 0.0002 - - -
0.2663 550 0.0001 - - -
0.2712 560 0.0004 - - -
0.2760 570 0.0005 - - -
0.2809 580 0.001 - - -
0.2857 590 0.0001 - - -
0.2906 600 0.0001 - - -
0.2954 610 0.0001 - - -
0.3002 620 0.0062 - - -
0.3051 630 0.0003 - - -
0.3099 640 0.0014 - - -
0.3148 650 0.0003 - - -
0.3196 660 0.0009 - - -
0.3245 670 0.0002 - - -
0.3293 680 0.0009 - - -
0.3341 690 0.0003 - - -
0.3390 700 0.0002 - - -
0.3438 710 0.0003 - - -
0.3487 720 0.0011 - - -
0.3535 730 0.0006 - - -
0.3584 740 0.0006 - - -
0.3632 750 0.0004 - - -
0.3680 760 0.0002 - - -
0.3729 770 0.0001 - - -
0.3777 780 0.0002 - - -
0.3826 790 0.0043 - - -
0.3874 800 0.001 - - -
0.3923 810 0.0005 - - -
0.3971 820 0.0002 - - -
0.4019 830 0.0017 - - -
0.4068 840 0.0004 - - -
0.4116 850 0.0002 - - -
0.4165 860 0.0004 - - -
0.4213 870 0.0004 - - -
0.4262 880 0.0005 - - -
0.4310 890 0.001 - - -
0.4358 900 0.0002 - - -
0.4407 910 0.0001 - - -
0.4455 920 0.0001 - - -
0.4504 930 0.0001 - - -
0.4552 940 0.0001 - - -
0.4600 950 0.0004 - - -
0.4649 960 0.0001 - - -
0.4697 970 0.0001 - - -
0.4746 980 0.0002 - - -
0.4794 990 0.0032 - - -
0.4843 1000 0.0001 - - -
0.4891 1010 0.0008 - - -
0.4939 1020 0.0004 - - -
0.4988 1030 0.0014 - - -
0.5036 1040 0.0006 - - -
0.5085 1050 0.0003 - - -
0.5133 1060 0.0009 - - -
0.5182 1070 0.0001 - - -
0.5230 1080 0.0001 - - -
0.5278 1090 0.0003 - - -
0.5327 1100 0.0005 - - -
0.5375 1110 0.0004 - - -
0.5424 1120 0.0002 - - -
0.5472 1130 0.001 - - -
0.5521 1140 0.0009 - - -
0.5569 1150 0.0002 - - -
0.5617 1160 0.0003 - - -
0.5666 1170 0.0001 - - -
0.5714 1180 0.0016 - - -
0.5763 1190 0.0009 - - -
0.5811 1200 0.0009 - - -
0.5860 1210 0.0004 - - -
0.5908 1220 0.0047 - - -
0.5956 1230 0.0003 - - -
0.6005 1240 0.0003 - - -
0.6053 1250 0.0004 - - -
0.6102 1260 0.0001 - - -
0.6150 1270 0.0001 - - -
0.6199 1280 0.0009 - - -
0.6247 1290 0.0007 - - -
0.6295 1300 0.0001 - - -
0.6344 1310 0.0008 - - -
0.6392 1320 0.0001 - - -
0.6441 1330 0.0002 - - -
0.6489 1340 0.0006 - - -
0.6538 1350 0.0003 - - -
0.6586 1360 0.0002 - - -
0.6634 1370 0.0001 - - -
0.6683 1380 0.0001 - - -
0.6731 1390 0.0001 - - -
0.6780 1400 0.0001 - - -
0.6828 1410 0.0091 - - -
0.6877 1420 0.0216 - - -
0.6925 1430 0.0002 - - -
0.6973 1440 0.0001 - - -
0.7022 1450 0.0002 - - -
0.7070 1460 0.0002 - - -
0.7119 1470 0.0007 - - -
0.7167 1480 0.0001 - - -
0.7215 1490 0.0001 - - -
0.7264 1500 0.0001 - - -
0.7312 1510 0.0001 - - -
0.7361 1520 0.0001 - - -
0.7409 1530 0.0002 - - -
0.7458 1540 0.0001 - - -
0.7506 1550 0.0006 - - -
0.7554 1560 0.0003 - - -
0.7603 1570 0.0003 - - -
0.7651 1580 0.0002 - - -
0.7700 1590 0.0004 - - -
0.7748 1600 0.0005 - - -
0.7797 1610 0.0022 - - -
0.7845 1620 0.0002 - - -
0.7893 1630 0.0005 - - -
0.7942 1640 0.0001 - - -
0.7990 1650 0.0006 - - -
0.8039 1660 0.0005 - - -
0.8087 1670 0.0007 - - -
0.8136 1680 0.0003 - - -
0.8184 1690 0.0002 - - -
0.8232 1700 0.0011 - - -
0.8281 1710 0.0 - - -
0.8329 1720 0.0003 - - -
0.8378 1730 0.0003 - - -
0.8426 1740 0.0001 - - -
0.8475 1750 0.0048 - - -
0.8523 1760 0.0001 - - -
0.8571 1770 0.0004 - - -
0.8620 1780 0.0001 - - -
0.8668 1790 0.0 - - -
0.8717 1800 0.0021 - - -
0.8765 1810 0.0001 - - -
0.8814 1820 0.0003 - - -
0.8862 1830 0.0001 - - -
0.8910 1840 0.0016 - - -
0.8959 1850 0.0046 - - -
0.9007 1860 0.0002 - - -
0.9056 1870 0.0001 - - -
0.9104 1880 0.0006 - - -
0.9153 1890 0.0001 - - -
0.9201 1900 0.0002 - - -
0.9249 1910 0.0006 - - -
0.9298 1920 0.0001 - - -
0.9346 1930 0.0069 - - -
0.9395 1940 0.0004 - - -
0.9443 1950 0.0002 - - -
0.9492 1960 0.0252 - - -
0.9540 1970 0.0003 - - -
0.9588 1980 0.0002 - - -
0.9637 1990 0.0018 - - -
0.9685 2000 0.0006 - - -
0.9734 2010 0.0001 - - -
0.9782 2020 0.0018 - - -
0.9831 2030 0.0001 - - -
0.9879 2040 0.0002 - - -
0.9927 2050 0.0008 - - -
0.9976 2060 0.0018 - - -
1.0 2065 - 0.0213 0.714 0.7076
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.14
  • Sentence Transformers: 3.3.1
  • Transformers: 4.41.2
  • PyTorch: 2.4.0
  • Accelerate: 0.29.3
  • Datasets: 2.19.1
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
25
Safetensors
Model size
305M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for anhtuansh/gte-multilingual-base-Matryoshka-3e-9k

Evaluation results