SentenceTransformer
This is a sentence-transformers model trained. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Maximum Sequence Length: 8192 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("sentence_transformers_model_id")
sentences = [
'방위사업법 시행규칙 저장방법 등',
'방위사업법 시행규칙 제46조 삭제 <2021.5.11> 제47조(저장방법 등) ①방산업체의 장은 원자재의 저장에 있어서 변질ㆍ훼손 또는 손실이 없도록 장기간 저장할 수 있는 포장단위로 수입 또는 매입하여야 한다.\n②원자재는 롯트별ㆍ포장단위별로 옥내 저장을 원칙으로 하되, 방위사업청장이 정하는 저장유효기간에 따라 품종별로 순환저장을 하여야 하며, 저장장소에는 품목명ㆍ저장번호ㆍ도면번호ㆍ규격서번호 ㆍ제조연도 및 제조회사명을 기재한 장부를 비치하여야 한다.\n③방위사업청장은 원자재의 저장상태 등을 연 2회 이상 정기적으로 점검하고 그 결과를 기록하여 유지ㆍ관리하여야 한다.',
"정부가 최악의 고용 위기를 타개하고 취약계층 안전망을 강화하기 위해 올 하반기에 3조 8000억 원에 달하는 재정 및 공공자금을 더 푼다. 또 저소득 근로자 가구에 세금 환급 형태로 지급하는 근로장려세제(EITC)는 내년에 334만 가구에 3조 8000억 원 규모로 대폭 확대·지원된다. EITC는 2017년 기준 166만 가구에 1조 2000억 원이 지원됐으므로 대상자는 2배, 지원액은 3배 이상으로 각각 늘어나는 것이다. 정부는 18일 정부서울청사에서 김동연 부총리 겸 기획재정부 장관 주재로 경제관계장관회의를 열어 이런 내용의 '하반기 경제정책 방향'과 '저소득층 일자리·소득 지원 대책'을 확정·발표했다. 정부, 내년 대상·금액 확대 올 연말까지 車 개소세 인하 정부는 올 하반기 기금운용 계획을 3조 2000억 원 규모로 변경하고 공기업 투자를 6000억 원 확대해 합계 3조 8000억 원 규모의 사업비를 지출한다. 먼저 이달 중으로 기금운용 계획을 변경해 주택구입·전세자금대출, 구조조정 업종 보증 확대 등 초과 수요가 있는 융자사업을 중심으로 지원을 확대한다. 또 내수 활성화 차원에서 19일 이후 출고된 승용차·이륜차·캠핑용 자동차 등에 개별소비세(개소세) 세율을 현행 5%에서 연말까지 3.5%로 한시적으로 낮춘다. 노후 경유차를 폐차하고 신차를 살 때 혜택도 강화한다. 2005년 이전 등록한 경유차를 조기에 폐차하면 3.5t 미만은 165만 원, 그 이상은 770만 원까지 지원금을 주는데, 그 지원 대상을 올해 11만 6000대에서 내년 15만 대로 확대한다. 또 올 정기국회 때 조세특례제한법을 개정해 2008년 말 이전 등록한 경유차를 폐차하고 새 차를 사면 개별소비세율을 5%에서 1.5%(100만 원 한도)로 낮춰 적용할 예정이다. 개소세 부담을 70% 줄여주는 이 조치는 내년 1월부터 적용될 예정이다. 송현수 기자 songh@",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
Evaluation
Metrics
Information Retrieval
| Metric |
Value |
| cosine_accuracy@1 |
0.8695 |
| cosine_accuracy@3 |
0.9347 |
| cosine_accuracy@5 |
0.9579 |
| cosine_accuracy@10 |
0.9768 |
| cosine_precision@1 |
0.8695 |
| cosine_precision@3 |
0.3116 |
| cosine_precision@5 |
0.1916 |
| cosine_precision@10 |
0.0977 |
| cosine_recall@1 |
0.8695 |
| cosine_recall@3 |
0.9347 |
| cosine_recall@5 |
0.9579 |
| cosine_recall@10 |
0.9768 |
| cosine_ndcg@10 |
0.9242 |
| cosine_mrr@10 |
0.9073 |
| cosine_map@100 |
0.9082 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 18,000 training samples
- Columns:
anchor and positive
- Approximate statistics based on the first 1000 samples:
|
anchor |
positive |
| type |
string |
string |
| details |
- min: 2 tokens
- mean: 16.85 tokens
- max: 42 tokens
|
- min: 34 tokens
- mean: 355.89 tokens
- max: 3157 tokens
|
- Samples:
| anchor |
positive |
[부고] 강옥주 씨 20일 별세 |
△강옥주 씨 20일 별세. 김종인(부산일보 판매홍보요원) 씨 모친. 빈소 부산전문장례식장 206호. 발인 22일 오전 6시. 경남 하동 선산. 051-312-4444. |
[포토뉴스] 남북 정상회담 만찬 메뉴 |
27일 열릴 남북 정상회담 만찬에 쓰일 만찬 메뉴가 24일 공개됐다. 사진은 추운 겨울 동토를 뚫고 돋아나는 따뜻한 봄기운을 형상화한 망고 무스. 봄꽃으로 장식한 망고 무스 위에 한반도기를 놓아 단합된 한민족을 표현하고 단단한 껍질을 직접 깨트림으로 반목을 넘어 남북이 하나 됨을 형상화했다는 게 청와대의 설명. 청와대 제공 |
상속세 및 증여세법 정의 |
상속세 및 증여세법 제1장 총칙 <개정 2010.1.1> 제2조(정의) 이 법에서 사용하는 용어의 뜻은 다음과 같다. <개정 2020.12.22> 1. "상속"이란 「민법」 제5편에 따른 상속을 말하며, 다음 각 목의 것을 포함한다. 2. "상속개시일"이란 피상속인이 사망한 날을 말한다. 다만, 피상속인의 실종선고로 인하여 상속이 개시되는 경우에는 실종선고일을 말한다. 3. "상속재산"이란 피상속인에게 귀속되는 모든 재산을 말하며, 다음 각 목의 물건과 권리를 포함한다. 다만, 피상속인의 일신(一身)에 전속(專屬)하는 것으로서 피상속인의 사망으로 인하여 소멸되는 것은 제외한다. 4. "상속인"이란 「민법」 제1000조, 제1001조, 제1003조 및 제1004조에 따른 상속인을 말하며, 같은 법 제1019조제1항에 따라 상속을 포기한 사람 및 특별연고자를 포함한다. 5. "수유자"(受遺者)란 다음 각 목에 해당하는 자를 말한다. 6. "증여"란 그 행위 또는 거래의 명칭ㆍ형식ㆍ목적 등과 관계없이 직접 또는 간접적인 방법으로 타인에게 무상으로 유형ㆍ무형의 재산 또는 이익을 이전(移轉)(현저히 낮은 대가를 받고 이전하는 경우를 포함한다)하거나 타인의 재산가치를 증가시키는 것을 말한다. 다만, 유증, 사인증여, 유언대용신탁 및 수익자연속신탁은 제외한다. 7. "증여재산"이란 증여로 인하여 수증자에게 귀속되는 모든 재산 또는 이익을 말하며, 다음 각 목의 물건, 권리 및 이익을 포함한다. 8. "거주자"란 국내에 주소를 두거나 183일 이상 거소(居所)를 둔 사람을 말하며, "비거주자"란 거주자가 아닌 사람을 말한다. 이 경우 주소와 거소의 정의 및 거주자와 비거주자의 판정 등에 필요한 사항은 대통령령으로 정한다. 9. "수증자"(受贈者)란 증여재산을 받은 거주자(본점이나 주된 사무소의 소재지가 국내에 있는 비영리법인을 포함한다) 또는 비거주자(본점이나 주된 사무소의 소재지가 외국에 있는 비영리법인을 포함한다)를 말한다. 10. "특수관계인"이란 본인과 친족관계, 경... |
- Loss:
GISTEmbedLoss with these parameters:{'guide': SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
), 'temperature': 0.01}
Evaluation Dataset
Unnamed Dataset
- Size: 2,000 evaluation samples
- Columns:
anchor and positive
- Approximate statistics based on the first 1000 samples:
|
anchor |
positive |
| type |
string |
string |
| details |
- min: 6 tokens
- mean: 16.94 tokens
- max: 41 tokens
|
- min: 33 tokens
- mean: 339.28 tokens
- max: 2855 tokens
|
- Samples:
| anchor |
positive |
기록적 폭염에 폐유 자연발화로 불 |
기록적 폭염이 이어지는 부산의 고온 때문에 자연 발화로 불이 났다. 지난달 31일 오후 4시 50분께 부산 남구 용당동 한 창고 밖 건물 외벽에 놓인 페인트 통에서 화재가 발생, 연기를 발견한 옆 건물 회사 직원이 119에 신고했다. 신고를 받고 출동한 부산시소방본부 소방대원들은 10분 만에 불을 껐다. 불은 페인트 통 1개만 태워 다행히 인명 피해는 없었다. 다 쓴 페인트 통에서 불이 나 특별한 재산 피해도 없었다. 현장에는 페인트 통 10개가량이 함께 쌓여 있었다. 폐기물과 페인트 냄새를 막기 위해 투명 비닐로 페인트 통들을 감싸 둔 상황이었다. 경찰은 현장 CCTV를 분석한 결과 고온으로 페인트 통 속의 폐유 등 화학물질에서 자연발화가 일어난 것으로 결론지었다. 경찰 관계자는 "CCTV 영상을 보면 불이 나기 전 한동안 현장을 지나가는 사람과 차량이 없다"며 "햇볕이 내리쬐는 가운데 페인트 통에서 저절로 연기가 나기 시작한다"고 말했다. 인명과 재산 피해가 없어 정밀 화재 감식은 이뤄지지 않을 예정이다. 최강호 기자 |
최미혜·정미혜 작가, 부산아동문학상 |
최미혜(62) 동화작가와 정미혜(55) 동시인이 각각 장편동화 <앵무새별에서 온 무무>와 동시집 <꼴뚜기의 의리>로 제40회 부산아동문학상 수상의 영예를 안았다. 최 동화작가의 작품을 두고 심사위원 김재원·김영호·한정기 동화작가는 심사평을 통해 "어린이들에게 어려운 인문학을 아이들 눈높이에 맞춘 점이 창의적이었고 다양한 요소들을 스토리 속에 잘 녹여낸 점이 미덕이었다"고 평가했다. 정 동시인은 심사위원 박일·손월향·조명제 동시인으로부터 "아이들의 꿈과 희망, 그들에 대한 깊은 사랑을 보여주고 있다"는 평가를 받았다. 이와 함께 제21회 부산아동문학상 신인상은 '우리는 비밀동지'를 쓴 김수연(46) 씨가 동화 부문, '할머니의 공책'을 쓴 전자윤(41) 씨가 동시 부문에 당선됐다. 시상식은 다음 달 7일 오후 7시 부산일보사 10층 소강당에서 개최된다. 윤여진 기자 onlypen@ |
가스공사-부산항만공사, '부산항 LNG벙커링' 협약 |
한국가스공사는 5일 부산항만공사(BPA) 본사에서 부산항만공사와 '부산항 LNG벙커링 체계 구축 및 활성화를 위한 업무협약'을 체결했다고 밝혔다. 이날 행사에는 정승일 가스공사 사장과 우예종 부산항만공사 사장을 비롯한 양사 관계자들이 참석했다. 이번 협약을 통해 양사는 부산항에 입항하는 선박에 LNG(액화천연가스)를 선박연료로 공급하는 'LNG벙커링 사업 타당성 조사'를 내년 상반기 내에 완료할 예정이다. LNG 벙커링용 해상 부유식 LNG저장설비를 포함해 부산항에 적합한 LNG 벙커링 체계와 사업방식을 종합적으로 검토할 계획이다. 국제해사기구(IMO)가 오는 2020년부터 공해상을 항행하는 모든 선박연료의 황 함유량을 0.5%로 규제함에 따라 친환경 선박연료로서 LNG 수요가 증가할 것으로 전망된다. 특히 세계 6대 항만(2017년 물동량 기준)인 부산항은 가스공사 통영LNG기지에 가까워 LNG 벙커링 사업 발전에 유리한 조건을 가지고 있다. 향후 국내 입출항 선박 연료가 단계적으로 LNG로 전환될 경우 오는 2030년에 선박 배출 미세먼지를 2014년 기준 약 20% 수준인 2500t 저감할 수 있을 것으로 전망된다. 송현수 기자 songh@ |
- Loss:
GISTEmbedLoss with these parameters:{'guide': SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: NewModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
), 'temperature': 0.01}
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: steps
learning_rate: 5e-06
num_train_epochs: 5
warmup_ratio: 0.1
bf16: True
load_best_model_at_end: True
batch_sampler: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 8
per_device_eval_batch_size: 8
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 5e-06
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 5
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: True
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: True
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
tp_size: 0
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
dispatch_batches: None
split_batches: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional
Training Logs
| Epoch |
Step |
Training Loss |
Validation Loss |
dim_768_cosine_ndcg@10 |
| -1 |
-1 |
- |
- |
0.8978 |
| 0.2778 |
625 |
0.0072 |
0.0016 |
0.9073 |
| 0.5556 |
1250 |
0.0055 |
0.0016 |
0.9084 |
| 0.8333 |
1875 |
0.0042 |
0.0021 |
0.9129 |
| 1.1111 |
2500 |
0.0019 |
0.0011 |
0.9164 |
| 1.3889 |
3125 |
0.001 |
0.0017 |
0.9173 |
| 1.6667 |
3750 |
0.001 |
0.0017 |
0.9195 |
| 1.9444 |
4375 |
0.0012 |
0.0017 |
0.9222 |
| 2.2222 |
5000 |
0.0011 |
0.0011 |
0.9242 |
| 2.5 |
5625 |
0.0004 |
0.0009 |
0.9200 |
| 2.7778 |
6250 |
0.0004 |
0.0012 |
0.9228 |
| 3.0556 |
6875 |
0.0005 |
0.0014 |
0.9225 |
| 3.3333 |
7500 |
0.0006 |
0.0010 |
0.9228 |
| 3.6111 |
8125 |
0.0003 |
0.0012 |
0.9237 |
| 3.8889 |
8750 |
0.0004 |
0.0011 |
0.9256 |
| 4.1667 |
9375 |
0.0001 |
0.0011 |
0.9241 |
| 4.4444 |
10000 |
0.0008 |
0.0012 |
0.926 |
| 4.7222 |
10625 |
0.0 |
0.0011 |
0.9258 |
| 5.0 |
11250 |
0.0003 |
0.0011 |
0.9242 |
- The bold row denotes the saved checkpoint.
Framework Versions
- Python: 3.11.11
- Sentence Transformers: 3.5.0.dev0
- Transformers: 4.50.0.dev0
- PyTorch: 2.6.0+cu124
- Accelerate: 1.6.0
- Datasets: 2.21.0
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
GISTEmbedLoss
@misc{solatorio2024gistembed,
title={GISTEmbed: Guided In-sample Selection of Training Negatives for Text Embedding Fine-tuning},
author={Aivin V. Solatorio},
year={2024},
eprint={2402.16829},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
Government R&D Project
This software is a result of the following government research and development project:
| Item |
Details |
| Project Name |
AI 기반 중소기업 업무 자동화 및 통합 검색 솔루션 |
| Project No. |
RQT-25-090153 |
| Supervisor |
정보통신산업진흥원 |
| Performer |
Proten Co., Ltd. |
| R&D Period |
2026.01.01 ~ 2026.06.30 |