SentenceTransformer based on BAAI/bge-m3

This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: BAAI/bge-m3
  • Maximum Sequence Length: 1024 tokens
  • Output Dimensionality: 1024 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 1024, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("seongil-dn/bge-m3-kor-retrieval-451949-bs64-news-50")
# Run inference
sentences = [
    '지역 예술인을 위한 공모를 시행했던 프로젝트는 어떤 것에 일부분이야?',
    '마산의 원도심 성호동의 역사가 예술로 기록되고 되살아난다. 시대를 살아낸 사람들의 애틋한 이야기가 아름다운 소리, 몸짓, 조형, 화첩에 담겨 시민을 만난다. 창원시와 창원시문화도시지원센터는 오는 30일 오후 2시 마산합포구 문신길 일대에서 성호동과 그 주변 지역주민들의 삶, 지리적, 환경적 문화를 예술에 담은 〈사회참여예술창작지원사업〉 ‘예술로 성호창발(城湖創發)’ 창작 발표회를 갖는다고 밝혔다. 문화특화지역조성사업의 일환으로 진행하는 이 사업은 생성과 소멸의 과정을 거쳐 성장해온 도심 속 흩어져 있는 다양한 문화를 예술로 기록하고 후대에 물려주기 위한 취지로 순수예술 창작물을 구현하고 예술의 사회적 책임에 관해 고찰해 보는 사업이다. 앞으로 지역 예술인들과 뜻을 모아 소중한 원도심의 문화가 한순간 덧없이 사라지는 일이 없도록 매년 확대해 나갈 계획이다. 성호동을 대상으로 올해 처음 시행하는 ‘예술로 성호창발(城湖創發)’ 사업은 지난해 10월 지역 예술인들을 대상으로 참가자를 공개 모집한 결과, 사업 취지를 이해하고 창작 능력과 작품의 완성도가 기대되는 4개 단체를 선정하였다. 선정된 4개 단체 작가들은 스토리 개발을 위해 성호동 주민들을 만나 세밀한 대화를 나누기도 하고, 장르와 특성에 맞는 창작품을 만들기 위해 성호동 구석구석을 누비는 열정을 보였다. 발표회는 1월 30일 오후 2시부터 4시 30분까지 ‘성호동 이바구 투어’라는 이름으로 마산박물관 앞에 모여 문신 길을 따라 추산창작공작소 4933을 거쳐 임항선 그린웨이, 그리고 성호동 생활문화센터를 지나 정법사로 이동하면서 펼쳐진다. 〈(사)경남국악관현악단 ‘휴’〉가 ‘추산창작공작소 4933’에서 동네 이야기를 판소리로 엮어 국악 관현악과 경서도 소리를 통해 성호동의 옛이야기를 펼치고, 는 ‘성호동의 역사와 추억을 담다’란 주제로 도시가 발달하면서 퇴색되어가는 성호동 동네잔치의 상징적 의미를 담은 조형물을 설치했다. 〈신미란 작가〉는 ‘성호동 생활문화센터 2층 전시장’에서 성호동 사람과 삶의 이야기(話)와 그림(畵)을 표현한 ‘성호화첩(成湖話畵)’을 발표하며, 〈박은혜 춤패〉는 ‘일란 이필이의 춤을 찾아가는 소소한 춤 여행’이란 주제로 이필이 선생의 춤을 추며 다큐멘터리 시사회를 가지는 것으로 전체 일정을 마친다. 공식 행사 외의 진행은 성호동 토박이 김경년 창원시도시재생지원센터 해설사가 맡아 행사장을 이동하는 중간중간 맛깔나는 이바구로 성호동의 역사를 들려준다. 심재욱 창원시 문화체육관광국장은 “도시는 사람의 역사를 품은 곳으로 이제 사람이 도시를 품어야 문화예술로 지속 성장의 가능성을 보여줄 수 있다”라며 문화의 힘을 강조했다. 한편 행사 참가는 사회적 거리두기를 위해 참석 인원을 20명으로 제한하여 운영한다.',
    '충남 공주시는 제민천과 국고개 일원을 대상으로 지난해 8월부터 추진한 공공미술 프로젝트 사업이 완료됐다고 21일 밝혔다. 문화체육관광부가 주최 공주시가 주관한 공공미술 프로젝트는 지역예술인 일자리 제공 및 주민 문화 향유 증진이라는 취지로 전국 228개 지자체 대상으로 추진됐다. 이에 시는 지난해 8월 공모를 통해 한국미술협회(공주지부)와 충남공예협동조합 2개팀을 선정 지역작가 37명의 참여를 통해 진행해 \'중동교~대통교\'사이에 조명과 벤치, 포토존 그리고 주민참여로 만들어진 송사리 조형물을 설치해 주민들에게 휴식 공간을 제공했다. 그리고 \'국고개 흐르는 효심\'은 도조작품, 화분조형, 이복이야기 동화책 및 국고개 가이드북 만들기 등 커뮤니티 프로그램 운영 역사.문화.예술 중심지의 특성을 살리는데 중점을 뒀다. 황의정 문화체육과장은 "앞으로도 시민들이 언제 어디서나 문화예술을 누리고, 지역예술인에게는 일자리를 제공할 수 있는 다양한 사업을 진행하겠다"고 말했다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 64
  • learning_rate: 3e-05
  • num_train_epochs: 1
  • max_steps: 50
  • warmup_ratio: 0.05
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 3e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: 50
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.05
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: True
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • eval_use_gather_object: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss
0.0027 1 0.9465
0.0054 2 0.965
0.0082 3 0.7998
0.0109 4 0.7063
0.0136 5 0.6976
0.0163 6 0.6378
0.0191 7 0.6231
0.0218 8 0.6338
0.0245 9 0.4491
0.0272 10 0.5405
0.0300 11 0.5603
0.0327 12 0.483
0.0354 13 0.458
0.0381 14 0.4574
0.0409 15 0.4182
0.0436 16 0.483
0.0463 17 0.5472
0.0490 18 0.5208
0.0518 19 0.4882
0.0545 20 0.618
0.0572 21 0.4938
0.0599 22 0.4108
0.0627 23 0.4958
0.0654 24 0.4569
0.0681 25 0.405
0.0708 26 0.4408
0.0736 27 0.4485
0.0763 28 0.4512
0.0790 29 0.5001
0.0817 30 0.4848
0.0845 31 0.4541
0.0872 32 0.3759
0.0899 33 0.3552
0.0926 34 0.3471
0.0954 35 0.3768
0.0981 36 0.3644
0.1008 37 0.4479
0.1035 38 0.4004
0.1063 39 0.4368
0.1090 40 0.4611
0.1117 41 0.3843
0.1144 42 0.4098
0.1172 43 0.3923
0.1199 44 0.3365
0.1226 45 0.3848
0.1253 46 0.4285
0.1281 47 0.4179
0.1308 48 0.3597
0.1335 49 0.3672
0.1362 50 0.3593

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.2.1
  • Transformers: 4.44.2
  • PyTorch: 2.3.1+cu121
  • Accelerate: 1.1.1
  • Datasets: 2.21.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
Downloads last month
12
Safetensors
Model size
568M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for seongil-dn/bge-m3-kor-retrieval-451949-bs64-news-50

Base model

BAAI/bge-m3
Finetuned
(187)
this model