SentenceTransformer based on BAAI/bge-m3

This is a sentence-transformers model finetuned from BAAI/bge-m3. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: BAAI/bge-m3
  • Maximum Sequence Length: 1024 tokens
  • Output Dimensionality: 1024 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 1024, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("seongil-dn/bge-m3-kor-retrieval-451949-bs64-science-50")
# Run inference
sentences = [
    '이수화 상에서는 물과 반응하여 페로브스카이트 소재의 분해를 야기하는 원인이 뭐야?',
    '<h1>2. 환경적 요인에 의한 페로브카이트 소재 불안정성</h1><h2>2.1. 수분에 의한 안정성 영향</h2><p>유기 페로브스카이트인 mathrmMAPbI3 \\mathrm{MAPbI}_{3} mathrmMA+\\mathrm{MA}^{+}mathrmI\\mathrm{I}^{-}는 약한 결합을 하고 있어 이수화 상 (dihydrate phase)에서는 물과 반응하여 페로브스카이트 소재의 분해를 야기한다. 이는 mathrmMAPbI3 \\mathrm{MAPbI}_{3}  와 물이 반응하여 생성된 이수화 화합물 (\\( \\mathrm{MAPbI}_{3} \\cdot \\mathrm{H}_{2} \\mathrm{O} \\)) 이 mathrmCH3mathrmNH2 \\mathrm{CH}_{3} \\mathrm{NH}_{2}, mathrmHI\\mathrm{HI}, mathrmPbI2\\mathrm{PbI}_{2}  로 분해되고, 생성된 mathrmCH3mathrmNH2 \\mathrm{CH}_{3} \\mathrm{NH}_{2} mathrmHI \\mathrm{HI}  는 물에 녹아 결국 고상의 mathrmPbI2 \\mathrm{PbI}_{2}  만 남는 것으로 설명할 수 있다. </p><p>무기 페로브스카이트는 수분에 의한 재결정화 및 표면 결합 리간드의 손실과 분해로 인해 표면에 트랩 준위가 증가하여 발광효율이 감소한다. 또한 페로브 스카이트 소재는 빛이 없는 상황에서도 물에 의해 소재가 분해되어 안정성이 감소한다. </p><h2>2.2. 빛에 의한 안정성 영향</h2><p>페로브스카이트 소재가 장시간 빛에 노출되는 경우 광-생성 전하 (photo-generated carrier)가 페로브스카이트 소재 표면으로 확산되어 이온성 표면 리간드와 결합한다. 이 과정 중에 몇 개의 리간드들은 용매에 녹아, 보호되지 않은 면을 중심으로 페로브스카이트 소재끼리 응집하여 발광 효율이 감소한다. 또한 페로브스카이트 소재의 응집 및 리간드 손실로 인해 트랩 준위가 증가하여 광학적 특성이 현저히 감소된다. pc-LED는 실생활에서 장시간 빛에 노출되기때문에 빛에 의한 발광 감소 및 소재 안정성 감소는 고연색 발광을 필요로 하는 pc-LED의 적용에 문제가 된다. </p><h2>2.3. 산소에 의한 안정성 영향</h2><p>페로브스카이트 소재는 빛에 노출된 경우에만 산소와 반응하며 특히 광-생성 전하를 가진 페로브스카이트 소재는 산소 분자의 영향을 받기 쉽다. 산소 분자가 격자로 확산되어 공공 결함 (vacancy)을 채우게 되고 광-생성 전자가 전도대에, 정공이 가전자대에 생성된다. 페로브스카이트 소재와 산소가 반응해 mathrmO2 \\mathrm{O}^{2-}  가 생성되어 mathrmMAPbI3 \\mathrm{MAPbI}_{3} mathrmPbI2 \\mathrm{PbI}_{2}, mathrmH2mathrmO\\mathrm{H}_{2} \\mathrm{O}, mathrmI2\\mathrm{I}_{2}, mathrmCH3mathrmNH2\\mathrm{CH}_{3} \\mathrm{NH}_{2}  로 분해된다. 이러한 광-산화 (photo-oxidation) 과정으로 페로브스카이트 소재가 분해되어 안정성이 감소한다. </p><h2>2.4. 열에 의한 안정성 영향</h2><p>열중량분석 (TGA) 분석으로 확인한 페로브스카이트 소재는 수분과 산소가 없을 때 mathrmCsPbX3 \\mathrm{CsPbX}_{3} 500circmathrmC 500{ }^{\\circ} \\mathrm{C} ,\\( \\mathrm{MAPbX}_{3} \\) 는 220circmathrmC 220{ }^{\\circ} \\mathrm{C}  까지 구조를 유지할 수 있다. 유 · 무기 페로브스카이트는 열에 의해 비교적 높은 안정성을 가지고 있지만 고온에서 페로브스카이트 소재가 수분과 산소에 반응하면 구조 분해가 더 가속화되어 안정성이 급격히 감소한다. </p><p>또한 고온에서 발광 효율이 감소하는데 이는 열적으로 활성화된 할로겐 공공 결함에 의해 mathrmMAPbBr3\\mathrm{MAPbBr}_{3}  는\\( 100{ }^{\\circ} \\mathrm{C} \\) 이상의 온도에서 발광을 거의 보이지 않으며 mathrmCsPbBr3 \\mathrm{CsPbBr}_{3}  는 약 80 80 \\%  의 발광 손실을 보이는 것으로 확인할 수 있다. </p>',
    '효율이 높고 광안정성이 우수한 페로브스카이트 태양전지 소재/소자 기술 개발 - 고효율(21.2%)과 고안정성(1,000시간 유지)을 모두 만족하는 페로브스카이트 태양전지용 핵심 소재 및 저비용 제조 기술 개발-\n□ 이번 연구에서는 이전 연구성과(구조, 공정, 신조성 기술)를 기반*으로 이종접합** 페로브스카이트 태양전지의 고효율화(21.2%)와 높은 광안정성(자외선 포함한 광조사에서 1,000시간 이상 안정한 효율 유지)을 모두 만족하는 광전극 소재를 저온(기존 900 ℃이상 고온 → 200 ℃이하) 에서 합성하는 방법을 개발하였다. *【 연구진 이전 연구성과 】\n・무-유기 하이브리드 페로브스카이트 태양전지 플랫폼 구조 기술 개발 (Nature Photonics 2013.5) \n・매우 균일하고 치밀한 페로브스카이트 박막 제조 신규 용액 공정 기술 개발 (Nature Materials 2014.7) \n・고효율을 위한 페로브스카이트 결정상 안정화 신조성 기술 개발 (Nature 2015.1) \n・고품질 페로브스카이트 박막 형성을 위한 신규 공정 기술 개발 (Science 2015.6) 등\n** 이종접합 : 같은 소재간의 접합인 동종 접합과 달리 다른 종류의 소재간의 접합을 의미, 페로브스카이트는 무기물, 유기물, 무/유기 혼성물 간의 이종접합을 이룸.\nㅇ 더 나아가서 연속적이며 대량 생산 공정이 가능한“핫-프레싱 (hot-pressing) 공법*”을 새롭게 제안하여, 고효율 / 고안정성 / 저비용의 방법으로 페로브스카이트 태양전지를 제조하는 새로운 태양전지제조 방법론을 제안하였다. * 핫-프레싱 공법 : 온도와 압력을 가하여 두 물체를 단단히 점착 시키는 방법',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 64
  • learning_rate: 3e-05
  • num_train_epochs: 1
  • max_steps: 50
  • warmup_ratio: 0.05
  • fp16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 3e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: 50
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.05
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: True
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • eval_use_gather_object: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss
0.0156 1 0.9276
0.0312 2 0.9561
0.0469 3 0.9631
0.0625 4 0.8466
0.0781 5 0.7015
0.0938 6 0.6136
0.1094 7 0.4911
0.125 8 0.5431
0.1406 9 0.5274
0.1562 10 0.5033
0.1719 11 0.3905
0.1875 12 0.3733
0.2031 13 0.435
0.2188 14 0.3547
0.2344 15 0.3945
0.25 16 0.3612
0.2656 17 0.3449
0.2812 18 0.3362
0.2969 19 0.3388
0.3125 20 0.3769
0.3281 21 0.3469
0.3438 22 0.3796
0.3594 23 0.2919
0.375 24 0.3072
0.3906 25 0.3036
0.4062 26 0.3109
0.4219 27 0.2839
0.4375 28 0.358
0.4531 29 0.2652
0.4688 30 0.2915
0.4844 31 0.2981
0.5 32 0.3788
0.5156 33 0.2329
0.5312 34 0.2945
0.5469 35 0.2907
0.5625 36 0.305
0.5781 37 0.3176
0.5938 38 0.3345
0.6094 39 0.2549
0.625 40 0.3219
0.6406 41 0.3143
0.6562 42 0.2828
0.6719 43 0.2766
0.6875 44 0.2991
0.7031 45 0.3411
0.7188 46 0.2805
0.7344 47 0.3162
0.75 48 0.2731
0.7656 49 0.3373
0.7812 50 0.2827

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.2.1
  • Transformers: 4.44.2
  • PyTorch: 2.3.1+cu121
  • Accelerate: 1.1.1
  • Datasets: 2.21.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
Downloads last month
11
Safetensors
Model size
568M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for seongil-dn/bge-m3-kor-retrieval-451949-bs64-science-50

Base model

BAAI/bge-m3
Finetuned
(187)
this model