SentenceTransformer based on BAAI/bge-m3

This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: BAAI/bge-m3
  • Maximum Sequence Length: 1024 tokens
  • Output Dimensionality: 1024 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 1024, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("seongil-dn/bge-m3-kor-retrieval-451949-bs64-book")
# Run inference
sentences = [
    '실제적 발달 수준과 잠재적 발단 수준 사이를 역동적인 공간으로 이야기하는 영역은 뭐야?',
    '하브루타에 임하는 학생들의 태도는 다양하다. 기본적인 학습에 대한 참여율에 따라 상당한 차이를 보인다. 앞에서 언급한 인재시교에 다다를 때까지 기다려주고 관심가져주며, 칭찬과 극려의 말로 지지 할 수 있어야 한다. 비고츠키(Vygotsky)는 근접 발달영역(the zone of proximal development: ZPD)을“독자적으로 문제를 해결함으로써 결정되는 실제적 발달 수준과 성인의 안내나 보다 능력 있는 또래들과 협동하여 문제를 해결함으로써 결정되는 잠재적 발달 수준 간의 거리”로 규정한다. 근접발달 영역(the zone of proximal development)은 실제적 발달 수준(actualdevelopmental level)과 잠재적 발달수준(potential developmental level)사이를 역동적인 공간으로 이야기 한다. 즉 하브루타는 소속한 학습자(친구) 상호작용을 통하여 잠재적 발달수준(potential developmental level)까지 도달하는 것이다. 이러한 작용에 꼭 필요한 것 중 하나는 학습자가 수업에 임하는 태도이다. 즉 학습자의 동기부여를 어떻게 불러일으킬 수 있느냐가 관권이다.',
    '세 번째는 비공식적 및 공식적 지원 관점으로 아동기를 역동적인 관계의 복합체로 인식하며, 역동적인 상호관계는 만족스럽고 성공적인 아동기에 필수요소이다. 이러한 상호관계의 범위는 아동 양육과 보호의 주 제공자인 부모에서부터 아동 권리를 최종적으로 보장하는 역할을 하는 국가에까지 이른다. 아동에게 필수적인 지원과 서비스는 가족의 사회 관계망 및 가족과 지역사회를 통한 비공식적 지원이나 제 3섹터 및 영리 부문 및 국가와 기관들을 통한 공식적 지원으로 전달된다. 비공식적 및 공식적 지원은 아동이 필요로 하고 혜택을 받을 수 있는 지원과 서비스를 가능하게 하는 전달자 역할을 한다. 이러한 ‘사회적 자본’을 지원하는 것이 국가 아동 전략의 핵심 주제이다. 이렇게 다양하고 서로 상호작용하는 지원의 원천으로부터 아동은 앞서 말한 9개의 발달 영역에서 성장하기 위한 도움을 받는다. 모든 아동은 좋은 교육과 양질의 의료 서비스에 대한 접근권 등 기본적인 지원과 서비스를 필요로 한다. 일부 아동은 빈곤이나 장애, 소수 인종 및 문화 집단, 양육과 보호의 필요성, 비행 및 자해 행동 등을 이유로 추가적인 지원과 서비스를 필요로 한다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 64
  • learning_rate: 3e-05
  • num_train_epochs: 1
  • warmup_ratio: 0.05
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 3e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.05
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: True
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • eval_use_gather_object: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss
0.0037 1 0.9187
0.0075 2 0.9261
0.0112 3 0.9408
0.0150 4 0.8735
0.0187 5 0.832
0.0225 6 0.8029
0.0262 7 0.7184
0.0300 8 0.7389
0.0337 9 0.6603
0.0375 10 0.5703
0.0412 11 0.5521
0.0449 12 0.5774
0.0487 13 0.563
0.0524 14 0.521
0.0562 15 0.5215
0.0599 16 0.4805
0.0637 17 0.4593
0.0674 18 0.4377
0.0712 19 0.4333
0.0749 20 0.4386
0.0787 21 0.3508
0.0824 22 0.3388
0.0861 23 0.3798
0.0899 24 0.3716
0.0936 25 0.3507
0.0974 26 0.3955
0.1011 27 0.3358
0.1049 28 0.3422
0.1086 29 0.3171
0.1124 30 0.3371
0.1161 31 0.3049
0.1199 32 0.3287
0.1236 33 0.3073
0.1273 34 0.2999
0.1311 35 0.2696
0.1348 36 0.3207
0.1386 37 0.2792
0.1423 38 0.2771
0.1461 39 0.2502
0.1498 40 0.2641
0.1536 41 0.283
0.1573 42 0.2891
0.1610 43 0.2744
0.1648 44 0.278
0.1685 45 0.2841
0.1723 46 0.3048
0.1760 47 0.2709
0.1798 48 0.3047
0.1835 49 0.2823
0.1873 50 0.2291
0.1910 51 0.2614
0.1948 52 0.2598
0.1985 53 0.2767
0.2022 54 0.2461
0.2060 55 0.2723
0.2097 56 0.2184
0.2135 57 0.2644
0.2172 58 0.2436
0.2210 59 0.247
0.2247 60 0.2651
0.2285 61 0.26
0.2322 62 0.2497
0.2360 63 0.2497
0.2397 64 0.2779
0.2434 65 0.2583
0.2472 66 0.2435
0.2509 67 0.2591
0.2547 68 0.2419
0.2584 69 0.2596
0.2622 70 0.237
0.2659 71 0.2358
0.2697 72 0.2765
0.2734 73 0.2581
0.2772 74 0.2582
0.2809 75 0.257
0.2846 76 0.2311
0.2884 77 0.2195
0.2921 78 0.2225
0.2959 79 0.2325
0.2996 80 0.2443
0.3034 81 0.2319
0.3071 82 0.2521
0.3109 83 0.2061
0.3146 84 0.2231
0.3184 85 0.2277
0.3221 86 0.2278
0.3258 87 0.2057
0.3296 88 0.2445
0.3333 89 0.2578
0.3371 90 0.2141
0.3408 91 0.254
0.3446 92 0.2506
0.3483 93 0.235
0.3521 94 0.2506
0.3558 95 0.2204
0.3596 96 0.266
0.3633 97 0.2321
0.3670 98 0.2221
0.3708 99 0.2152
0.3745 100 0.2363
0.3783 101 0.2177
0.3820 102 0.2031
0.3858 103 0.2321
0.3895 104 0.2462
0.3933 105 0.2092
0.3970 106 0.2276
0.4007 107 0.2356
0.4045 108 0.268
0.4082 109 0.232
0.4120 110 0.2415
0.4157 111 0.2204
0.4195 112 0.2348
0.4232 113 0.1954
0.4270 114 0.215
0.4307 115 0.2326
0.4345 116 0.2248
0.4382 117 0.2578
0.4419 118 0.2489
0.4457 119 0.2185
0.4494 120 0.2171
0.4532 121 0.2185
0.4569 122 0.2352
0.4607 123 0.2362
0.4644 124 0.2217
0.4682 125 0.2246
0.4719 126 0.2041
0.4757 127 0.2403
0.4794 128 0.1917
0.4831 129 0.2111
0.4869 130 0.2265
0.4906 131 0.2518
0.4944 132 0.2177
0.4981 133 0.1918
0.5019 134 0.2142
0.5056 135 0.2272
0.5094 136 0.206
0.5131 137 0.2198
0.5169 138 0.1734
0.5206 139 0.2132
0.5243 140 0.1878
0.5281 141 0.1933
0.5318 142 0.1977
0.5356 143 0.2087
0.5393 144 0.2341
0.5431 145 0.1843
0.5468 146 0.1948
0.5506 147 0.236
0.5543 148 0.202
0.5581 149 0.1962
0.5618 150 0.2579
0.5655 151 0.22
0.5693 152 0.2222
0.5730 153 0.2028
0.5768 154 0.1771
0.5805 155 0.1502
0.5843 156 0.2034
0.5880 157 0.1861
0.5918 158 0.2011
0.5955 159 0.2047
0.5993 160 0.2196
0.6030 161 0.2021
0.6067 162 0.1823
0.6105 163 0.2201
0.6142 164 0.2349
0.6180 165 0.2045
0.6217 166 0.2296
0.6255 167 0.1744
0.6292 168 0.239
0.6330 169 0.1877
0.6367 170 0.1968
0.6404 171 0.1929
0.6442 172 0.2134
0.6479 173 0.2108
0.6517 174 0.2004
0.6554 175 0.1894
0.6592 176 0.2023
0.6629 177 0.2255
0.6667 178 0.2372
0.6704 179 0.197
0.6742 180 0.1976
0.6779 181 0.2123
0.6816 182 0.2171
0.6854 183 0.1954
0.6891 184 0.2147
0.6929 185 0.2347
0.6966 186 0.2029
0.7004 187 0.2042
0.7041 188 0.1826
0.7079 189 0.1843
0.7116 190 0.1777
0.7154 191 0.2209
0.7191 192 0.1928
0.7228 193 0.2057
0.7266 194 0.1933
0.7303 195 0.204
0.7341 196 0.1713
0.7378 197 0.2077
0.7416 198 0.195
0.7453 199 0.1888
0.7491 200 0.1744
0.7528 201 0.2021
0.7566 202 0.1918
0.7603 203 0.1931
0.7640 204 0.2117
0.7678 205 0.2006
0.7715 206 0.1999
0.7753 207 0.2098
0.7790 208 0.1954
0.7828 209 0.1775
0.7865 210 0.21
0.7903 211 0.1963
0.7940 212 0.1735
0.7978 213 0.1672
0.8015 214 0.1768
0.8052 215 0.1974
0.8090 216 0.1791
0.8127 217 0.1671
0.8165 218 0.1939
0.8202 219 0.1903
0.8240 220 0.2155
0.8277 221 0.1944
0.8315 222 0.1866
0.8352 223 0.1898
0.8390 224 0.1793
0.8427 225 0.1903
0.8464 226 0.1936
0.8502 227 0.2212
0.8539 228 0.2163
0.8577 229 0.2204
0.8614 230 0.2029
0.8652 231 0.1918
0.8689 232 0.1914
0.8727 233 0.1706
0.8764 234 0.1779
0.8801 235 0.188
0.8839 236 0.1774
0.8876 237 0.1698
0.8914 238 0.1979
0.8951 239 0.1801
0.8989 240 0.1835
0.9026 241 0.1885
0.9064 242 0.1689
0.9101 243 0.2279
0.9139 244 0.2169
0.9176 245 0.2083
0.9213 246 0.2121
0.9251 247 0.1999
0.9288 248 0.1998
0.9326 249 0.1915
0.9363 250 0.1912
0.9401 251 0.2002
0.9438 252 0.1975
0.9476 253 0.2031
0.9513 254 0.1869
0.9551 255 0.202
0.9588 256 0.1638
0.9625 257 0.1978
0.9663 258 0.2
0.9700 259 0.1851
0.9738 260 0.1976
0.9775 261 0.1987
0.9813 262 0.1989
0.9850 263 0.198
0.9888 264 0.2087
0.9925 265 0.1868
0.9963 266 0.2047
1.0 267 0.1966

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.2.1
  • Transformers: 4.44.2
  • PyTorch: 2.3.1+cu121
  • Accelerate: 1.1.1
  • Datasets: 2.21.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
Downloads last month
16
Safetensors
Model size
568M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for seongil-dn/bge-m3-kor-retrieval-451949-bs64-book

Base model

BAAI/bge-m3
Finetuned
(187)
this model