SentenceTransformer

This is a sentence-transformers model trained. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    '방위사업법 시행규칙 저장방법 등',
    '방위사업법 시행규칙 제46조 삭제 <2021.5.11> 제47조(저장방법 등) ①방산업체의 장은 원자재의 저장에 있어서 변질ㆍ훼손 또는 손실이 없도록 장기간 저장할 수 있는 포장단위로 수입 또는 매입하여야 한다.\n②원자재는 롯트별ㆍ포장단위별로 옥내 저장을 원칙으로 하되, 방위사업청장이 정하는 저장유효기간에 따라 품종별로 순환저장을 하여야 하며, 저장장소에는 품목명ㆍ저장번호ㆍ도면번호ㆍ규격서번호 ㆍ제조연도 및 제조회사명을 기재한 장부를 비치하여야 한다.\n③방위사업청장은 원자재의 저장상태 등을 연 2회 이상 정기적으로 점검하고 그 결과를 기록하여 유지ㆍ관리하여야 한다.',
    "정부가 최악의 고용 위기를 타개하고 취약계층 안전망을 강화하기 위해 올 하반기에 3조 8000억 원에 달하는 재정 및 공공자금을 더 푼다. 또 저소득 근로자 가구에 세금 환급 형태로 지급하는 근로장려세제(EITC)는 내년에 334만 가구에 3조 8000억 원 규모로 대폭 확대·지원된다. EITC는 2017년 기준 166만 가구에 1조 2000억 원이 지원됐으므로 대상자는 2배, 지원액은 3배 이상으로 각각 늘어나는 것이다. 정부는 18일 정부서울청사에서 김동연 부총리 겸 기획재정부 장관 주재로 경제관계장관회의를 열어 이런 내용의 '하반기 경제정책 방향'과 '저소득층 일자리·소득 지원 대책'을 확정·발표했다. 정부, 내년 대상·금액 확대 올 연말까지 車 개소세 인하 정부는 올 하반기 기금운용 계획을 3조 2000억 원 규모로 변경하고 공기업 투자를 6000억 원 확대해 합계 3조 8000억 원 규모의 사업비를 지출한다. 먼저 이달 중으로 기금운용 계획을 변경해 주택구입·전세자금대출, 구조조정 업종 보증 확대 등 초과 수요가 있는 융자사업을 중심으로 지원을 확대한다. 또 내수 활성화 차원에서 19일 이후 출고된 승용차·이륜차·캠핑용 자동차 등에 개별소비세(개소세) 세율을 현행 5%에서 연말까지 3.5%로 한시적으로 낮춘다. 노후 경유차를 폐차하고 신차를 살 때 혜택도 강화한다. 2005년 이전 등록한 경유차를 조기에 폐차하면 3.5t 미만은 165만 원, 그 이상은 770만 원까지 지원금을 주는데, 그 지원 대상을 올해 11만 6000대에서 내년 15만 대로 확대한다. 또 올 정기국회 때 조세특례제한법을 개정해 2008년 말 이전 등록한 경유차를 폐차하고 새 차를 사면 개별소비세율을 5%에서 1.5%(100만 원 한도)로 낮춰 적용할 예정이다. 개소세 부담을 70% 줄여주는 이 조치는 내년 1월부터 적용될 예정이다. 송현수 기자 songh@",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.8695
cosine_accuracy@3 0.9347
cosine_accuracy@5 0.9579
cosine_accuracy@10 0.9768
cosine_precision@1 0.8695
cosine_precision@3 0.3116
cosine_precision@5 0.1916
cosine_precision@10 0.0977
cosine_recall@1 0.8695
cosine_recall@3 0.9347
cosine_recall@5 0.9579
cosine_recall@10 0.9768
cosine_ndcg@10 0.9242
cosine_mrr@10 0.9073
cosine_map@100 0.9082

Training Details

Training Dataset

Unnamed Dataset

  • Size: 18,000 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 2 tokens
    • mean: 16.85 tokens
    • max: 42 tokens
    • min: 34 tokens
    • mean: 355.89 tokens
    • max: 3157 tokens
  • Samples:
    anchor positive
    [부고] 강옥주 씨 20일 별세 △강옥주 씨 20일 별세. 김종인(부산일보 판매홍보요원) 씨 모친. 빈소 부산전문장례식장 206호. 발인 22일 오전 6시. 경남 하동 선산. 051-312-4444.
    [포토뉴스] 남북 정상회담 만찬 메뉴 27일 열릴 남북 정상회담 만찬에 쓰일 만찬 메뉴가 24일 공개됐다. 사진은 추운 겨울 동토를 뚫고 돋아나는 따뜻한 봄기운을 형상화한 망고 무스. 봄꽃으로 장식한 망고 무스 위에 한반도기를 놓아 단합된 한민족을 표현하고 단단한 껍질을 직접 깨트림으로 반목을 넘어 남북이 하나 됨을 형상화했다는 게 청와대의 설명. 청와대 제공
    상속세 및 증여세법 정의 상속세 및 증여세법 제1장 총칙 <개정 2010.1.1> 제2조(정의) 이 법에서 사용하는 용어의 뜻은 다음과 같다. <개정 2020.12.22> 1. "상속"이란 「민법」 제5편에 따른 상속을 말하며, 다음 각 목의 것을 포함한다.
    2. "상속개시일"이란 피상속인이 사망한 날을 말한다. 다만, 피상속인의 실종선고로 인하여 상속이 개시되는 경우에는 실종선고일을 말한다.
    3. "상속재산"이란 피상속인에게 귀속되는 모든 재산을 말하며, 다음 각 목의 물건과 권리를 포함한다. 다만, 피상속인의 일신(一身)에 전속(專屬)하는 것으로서 피상속인의 사망으로 인하여 소멸되는 것은 제외한다.
    4. "상속인"이란 「민법」 제1000조, 제1001조, 제1003조 및 제1004조에 따른 상속인을 말하며, 같은 법 제1019조제1항에 따라 상속을 포기한 사람 및 특별연고자를 포함한다.
    5. "수유자"(受遺者)란 다음 각 목에 해당하는 자를 말한다.
    6. "증여"란 그 행위 또는 거래의 명칭ㆍ형식ㆍ목적 등과 관계없이 직접 또는 간접적인 방법으로 타인에게 무상으로 유형ㆍ무형의 재산 또는 이익을 이전(移轉)(현저히 낮은 대가를 받고 이전하는 경우를 포함한다)하거나 타인의 재산가치를 증가시키는 것을 말한다. 다만, 유증, 사인증여, 유언대용신탁 및 수익자연속신탁은 제외한다.
    7. "증여재산"이란 증여로 인하여 수증자에게 귀속되는 모든 재산 또는 이익을 말하며, 다음 각 목의 물건, 권리 및 이익을 포함한다.
    8. "거주자"란 국내에 주소를 두거나 183일 이상 거소(居所)를 둔 사람을 말하며, "비거주자"란 거주자가 아닌 사람을 말한다. 이 경우 주소와 거소의 정의 및 거주자와 비거주자의 판정 등에 필요한 사항은 대통령령으로 정한다.
    9. "수증자"(受贈者)란 증여재산을 받은 거주자(본점이나 주된 사무소의 소재지가 국내에 있는 비영리법인을 포함한다) 또는 비거주자(본점이나 주된 사무소의 소재지가 외국에 있는 비영리법인을 포함한다)를 말한다.
    10. "특수관계인"이란 본인과 친족관계, 경...
  • Loss: GISTEmbedLoss with these parameters:
    {'guide': SentenceTransformer(
      (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel 
      (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
      (2): Normalize()
    ), 'temperature': 0.01}
    

Evaluation Dataset

Unnamed Dataset

  • Size: 2,000 evaluation samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 6 tokens
    • mean: 16.94 tokens
    • max: 41 tokens
    • min: 33 tokens
    • mean: 339.28 tokens
    • max: 2855 tokens
  • Samples:
    anchor positive
    기록적 폭염에 폐유 자연발화로 불 기록적 폭염이 이어지는 부산의 고온 때문에 자연 발화로 불이 났다. 지난달 31일 오후 4시 50분께 부산 남구 용당동 한 창고 밖 건물 외벽에 놓인 페인트 통에서 화재가 발생, 연기를 발견한 옆 건물 회사 직원이 119에 신고했다. 신고를 받고 출동한 부산시소방본부 소방대원들은 10분 만에 불을 껐다. 불은 페인트 통 1개만 태워 다행히 인명 피해는 없었다. 다 쓴 페인트 통에서 불이 나 특별한 재산 피해도 없었다. 현장에는 페인트 통 10개가량이 함께 쌓여 있었다. 폐기물과 페인트 냄새를 막기 위해 투명 비닐로 페인트 통들을 감싸 둔 상황이었다. 경찰은 현장 CCTV를 분석한 결과 고온으로 페인트 통 속의 폐유 등 화학물질에서 자연발화가 일어난 것으로 결론지었다. 경찰 관계자는 "CCTV 영상을 보면 불이 나기 전 한동안 현장을 지나가는 사람과 차량이 없다"며 "햇볕이 내리쬐는 가운데 페인트 통에서 저절로 연기가 나기 시작한다"고 말했다. 인명과 재산 피해가 없어 정밀 화재 감식은 이뤄지지 않을 예정이다. 최강호 기자
    최미혜·정미혜 작가, 부산아동문학상 최미혜(62) 동화작가와 정미혜(55) 동시인이 각각 장편동화 <앵무새별에서 온 무무>와 동시집 <꼴뚜기의 의리>로 제40회 부산아동문학상 수상의 영예를 안았다. 최 동화작가의 작품을 두고 심사위원 김재원·김영호·한정기 동화작가는 심사평을 통해 "어린이들에게 어려운 인문학을 아이들 눈높이에 맞춘 점이 창의적이었고 다양한 요소들을 스토리 속에 잘 녹여낸 점이 미덕이었다"고 평가했다. 정 동시인은 심사위원 박일·손월향·조명제 동시인으로부터 "아이들의 꿈과 희망, 그들에 대한 깊은 사랑을 보여주고 있다"는 평가를 받았다. 이와 함께 제21회 부산아동문학상 신인상은 '우리는 비밀동지'를 쓴 김수연(46) 씨가 동화 부문, '할머니의 공책'을 쓴 전자윤(41) 씨가 동시 부문에 당선됐다. 시상식은 다음 달 7일 오후 7시 부산일보사 10층 소강당에서 개최된다. 윤여진 기자 onlypen@
    가스공사-부산항만공사, '부산항 LNG벙커링' 협약 한국가스공사는 5일 부산항만공사(BPA) 본사에서 부산항만공사와 '부산항 LNG벙커링 체계 구축 및 활성화를 위한 업무협약'을 체결했다고 밝혔다. 이날 행사에는 정승일 가스공사 사장과 우예종 부산항만공사 사장을 비롯한 양사 관계자들이 참석했다. 이번 협약을 통해 양사는 부산항에 입항하는 선박에 LNG(액화천연가스)를 선박연료로 공급하는 'LNG벙커링 사업 타당성 조사'를 내년 상반기 내에 완료할 예정이다. LNG 벙커링용 해상 부유식 LNG저장설비를 포함해 부산항에 적합한 LNG 벙커링 체계와 사업방식을 종합적으로 검토할 계획이다. 국제해사기구(IMO)가 오는 2020년부터 공해상을 항행하는 모든 선박연료의 황 함유량을 0.5%로 규제함에 따라 친환경 선박연료로서 LNG 수요가 증가할 것으로 전망된다. 특히 세계 6대 항만(2017년 물동량 기준)인 부산항은 가스공사 통영LNG기지에 가까워 LNG 벙커링 사업 발전에 유리한 조건을 가지고 있다. 향후 국내 입출항 선박 연료가 단계적으로 LNG로 전환될 경우 오는 2030년에 선박 배출 미세먼지를 2014년 기준 약 20% 수준인 2500t 저감할 수 있을 것으로 전망된다. 송현수 기자 songh@
  • Loss: GISTEmbedLoss with these parameters:
    {'guide': SentenceTransformer(
      (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel 
      (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
      (2): Normalize()
    ), 'temperature': 0.01}
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • learning_rate: 5e-06
  • num_train_epochs: 5
  • warmup_ratio: 0.1
  • bf16: True
  • load_best_model_at_end: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 8
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-06
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss dim_768_cosine_ndcg@10
-1 -1 - - 0.8978
0.2778 625 0.0072 0.0016 0.9073
0.5556 1250 0.0055 0.0016 0.9084
0.8333 1875 0.0042 0.0021 0.9129
1.1111 2500 0.0019 0.0011 0.9164
1.3889 3125 0.001 0.0017 0.9173
1.6667 3750 0.001 0.0017 0.9195
1.9444 4375 0.0012 0.0017 0.9222
2.2222 5000 0.0011 0.0011 0.9242
2.5 5625 0.0004 0.0009 0.9200
2.7778 6250 0.0004 0.0012 0.9228
3.0556 6875 0.0005 0.0014 0.9225
3.3333 7500 0.0006 0.0010 0.9228
3.6111 8125 0.0003 0.0012 0.9237
3.8889 8750 0.0004 0.0011 0.9256
4.1667 9375 0.0001 0.0011 0.9241
4.4444 10000 0.0008 0.0012 0.926
4.7222 10625 0.0 0.0011 0.9258
5.0 11250 0.0003 0.0011 0.9242
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 3.5.0.dev0
  • Transformers: 4.50.0.dev0
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.6.0
  • Datasets: 2.21.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

GISTEmbedLoss

@misc{solatorio2024gistembed,
    title={GISTEmbed: Guided In-sample Selection of Training Negatives for Text Embedding Fine-tuning},
    author={Aivin V. Solatorio},
    year={2024},
    eprint={2402.16829},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

Government R&D Project

This software is a result of the following government research and development project:

Item Details
Project Name AI 기반 중소기업 업무 자동화 및 통합 검색 솔루션
Project No. RQT-25-090153
Supervisor 정보통신산업진흥원
Performer Proten Co., Ltd.
R&D Period 2026.01.01 ~ 2026.06.30
Downloads last month
12
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Papers for ProtenLabs/proten-gte-multilingual-base

Evaluation results