Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper • 1908.10084 • Published • 15
How to use phatvucoder/vietnamese-bi-encoder with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("phatvucoder/vietnamese-bi-encoder")
sentences = [
"Đóng bảo_hiểm xã_hội tự_nguyện được hưởng các chế_độ nào ?",
"Điều 5 . Thời_hiệu xử_phạt vi_phạm hành_chính \n 1 . Thời_hiệu xử_phạt vi_phạm hành_chính trong lĩnh_vực lao_động , bảo_hiểm xã_hội , người lao_động Việt_Nam đi làm_việc ở nước_ngoài theo hợp_đồng thực_hiện theo quy_định tại khoản 1 Điều 6 của Luật Xử_lý vi_phạm hành_chính . \n 2 . Việc xác_định hành_vi vi_phạm hành_chính đã kết_thúc , hành_vi vi_phạm hành_chính đang thực_hiện để tính thời_hiệu xử_phạt vi_phạm hành_chính thực_hiện theo quy_định tại khoản 1 Điều 8 Nghị_định số 118 / 2021 / NĐ - CP ngày 23 tháng 12 năm 2021 của Chính_phủ quy_định chi_tiết một_số điều và biện_pháp thi_hành của Luật Xử_lý vi_phạm hành_chính . \n Điều 6 . Mức phạt tiền , thẩm_quyền xử_phạt và nguyên_tắc áp_dụng đối_với hành_vi vi_phạm hành_chính nhiều lần \n ... \n 2 . Thẩm_quyền xử_phạt vi_phạm hành_chính quy_định tại Chương V Nghị_định này là thẩm_quyền áp_dụng đối_với cá_nhân ; trong trường_hợp phạt tiền , thẩm_quyền xử_phạt tổ_chức gấp 02 lần thẩm_quyền xử_phạt cá_nhân .",
"\" Điều 4 . Các chế_độ bảo_hiểm xã_hội \n ... \n 2 . Bảo_hiểm xã_hội tự_nguyện có các chế_độ sau đây : \n a ) Hưu_trí ; \n b ) Tử_tuất . \"",
"Giới_thiệu chung về ngành , nghề \n Lái tàu đường_sắt trình_độ trung_cấp là ngành , nghề mà người hành_nghề trực_tiếp trực_tiếp lái đầu_máy_kéo các đoàn tàu khách , đoàn tàu hàng để phục_vụ nhu_cầu đi_lại của hành_khách và vận_chuyển hàng_hoá lưu_thông trên các tuyến đường_sắt trong phạm_vi cả nước , đáp_ứng được yêu_cầu bậc 4 trong Khung trình_độ quốc_gia Việt_Nam . \n Người hành_nghề Lái tàu đường_sắt phải chấp_hành nghiêm_chỉnh Luật Đường_sắt , quy_chuẩn kỹ_thuật quốc_gia về chạy_tàu , quy_chuẩn kỹ_thuật quốc_gia về khai_thác đường_sắt , quy_chuẩn kỹ_thuật quốc_gia về tín_hiệu giao_thông đường_sắt , quy_trình tác_nghiệp ban lái tàu đầu_máy dieden và các chỉ_thị mệnh_lệnh có liên_quan đến việc chạy_tàu , bảo_vệ , giữ_gìn bảo_dưỡng đầu_máy tốt để bảo_đảm chạy_tàu an_toàn và đúng giờ . \n Khối_lượng kiến_thức tối_thiểu : 1.700 giờ ( tương_đương 60 tín_chỉ ) ."
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from bkai-foundation-models/vietnamese-bi-encoder. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for retrieval.
SentenceTransformer(
(0): Transformer({'transformer_task': 'feature-extraction', 'modality_config': {'text': {'method': 'forward', 'method_output_name': 'last_hidden_state'}}, 'module_output_name': 'token_embeddings', 'architecture': 'RobertaModel'})
(1): Pooling({'embedding_dimension': 768, 'pooling_mode': 'mean', 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
queries = [
'Hồ_sơ đề_nghị cấp lại Giấy_phép và năng định cho nhân_viên bảo_dưỡng tàu_bay trong trường_hợp hết hạn gồm những nội_dung gì ?',
]
documents = [
'NỘI_DUNG THỦ_TỤC HÀNH_CHÍNH CÔNG_BỐ SỬA_ĐỔI \n ... \n 2 . Cấp lại Giấy_phép và năng định cho nhân_viên bảo_dưỡng tàu_bay ( AMT ) \n ... \n 2.3 . Thành_phần , số_lượng hồ_sơ : \n a ) Thành_phần : \n * Trường_hợp hết hạn : \n 1 . Bản_sao hoặc biểu_mẫu điện_tử đơn đề_nghị cấp lại nêu rõ lý_do theo quy_định tại khoản h Phụ_lục 1 Điều 7.350 . \n 2 . Bản_sao hoặc bản_sao điện_tử tài_liệu duy_trì kinh_nghiệm với các nội_dung áp_dụng cho năng định của người đề_nghị . \n * Trường_hợp Giấy_phép mất , rách : \n 1 . Bản_sao hoặc biểu_mẫu điện_tử đơn đề_nghị cấp lại nêu rõ lý_do theo quy_định tại khoản h Phụ_lục 1 Điều 7.350 . \n 2 . Bản_sao hoặc bản_sao điện_tử giấy_phép và năng định đã được cấp ( nếu có ) . ” \n 2.4 . Thời_hạn giải_quyết : 07 ngày , kể từ ngày nhận được hồ_sơ hợp_lệ . \n 2.5 . Đối_tượng thực_hiện thủ_tục hành_chính : Cá_nhân , tổ_chức \n ...',
'Hồ_sơ , trình_tự , thủ_tục cấp Giấy_phép xuất_khẩu , nhập_khẩu tiền chất công_nghiệp \n ... \n 7 . Hồ_sơ , thủ_tục gia_hạn Giấy_phép \n a ) Giấy_phép được gia_hạn trong trường_hợp hết thời_hạn ghi trong Giấy_phép xuất_khẩu , nhập_khẩu quy_định tại khoản 4 Điều này nhưng việc xuất_khẩu , nhập_khẩu chưa thực_hiện được hoặc thực_hiện chưa xong . Giấy_phép chỉ được gia_hạn một lần ; \n b ) Trước khi Giấy_phép hết hạn tối_thiểu 05 ngày làm_việc , tổ_chức , cá_nhân có nhu_cầu gia_hạn Giấy_phép phải lập 01 bộ hồ_sơ đề_nghị gia_hạn Giấy_phép gửi cơ_quan cấp phép qua đường bưu_điện hoặc gửi trực_tiếp hoặc qua hệ_thống dịch_vụ công trực_tuyến ; \n c ) Hồ_sơ đề_nghị gia_hạn Giấy_phép bao_gồm : Văn_bản đề_nghị gia_hạn Giấy_phép xuất_khẩu , nhập_khẩu tiền chất công_nghiệp ; bản_sao Giấy_phép xuất_khẩu , nhập_khẩu tiền chất công_nghiệp đã được cấp ; \n d ) Trong thời_hạn 05 ngày làm_việc kể từ ngày nhận đủ hồ_sơ hợp_lệ , cơ_quan cấp phép kiểm_tra , gia_hạn Giấy_phép cho tổ_chức , cá_nhân . Trường_hợp không gia_hạn Giấy_phép , cơ_quan có thẩm_quyền cấp phép phải có văn_bản trả_lời , nêu rõ lý_do ; \n đ ) Giấy_phép xuất_khẩu , nhập_khẩu được gia_hạn không quá 06 tháng kể từ ngày cấp phép gia_hạn .',
'Hình_thức phòng xử_án \n 1 . Phòng xử án phải được bố_trí Quốc_huy nước Cộng_hòa xã_hội chủ_nghĩa Việt_Nam trên nền ốp gỗ ở chính giữa , phía sau và ở trên vị_trí của Hội_đồng xét_xử , Hội_đồng giải_quyết việc dân_sự , phá_sản , Thẩm_phán chủ tọa phiên_tòa , chủ_trì phiên họp . \n 2 . Phòng xử án được bố_trí hai bục , trừ phòng xử án và giải_quyết các vụ_việc thuộc thẩm_quyền của Tòa_gia_đình và người chưa thành_niên . Vị_trí của Hội_đồng xét_xử , Hội_đồng giải_quyết việc dân_sự , phá_sản , Thẩm_phán chủ tọa phiên_tòa , chủ_trì phiên họp ở trên bục cao nhất ; bục thứ hai là vị_trí của những người tiến_hành tố_tụng khác , người tham_gia tố_tụng và người tham_dự phiên_tòa , phiên họp . \n 3 . Phòng xử án phải bảo_đảm không_gian để tiến_hành phiên_tòa , phiên họp và hàng_rào ngăn_cách giữa khu_vực của những người tiến_hành tố_tụng , người tham_gia tố_tụng với khu_vực của người tham_dự phiên_tòa , phiên họp ; phải bố_trí lối đi riêng của Hội_đồng xét_xử , Hội_đồng giải_quyết việc dân_sự , phá_sản , Thẩm_phán chủ tọa phiên_tòa , chủ_trì phiên họp ; lối đi của những người tiến_hành tố_tụng khác , người tham_gia tố_tụng , người tham_dự phiên_tòa , phiên họp ; tường trong phòng xử án có nền màu vàng . \n 4 . Sơ_đồ vị_trí của những người tiến_hành tố_tụng , người tham_gia tố_tụng , người tham_dự phiên_tòa , phiên họp trong phòng xử án được thực_hiện theo Phụ_lục số 01 ban_hành kèm theo Thông_tư này . \n 5 . Trường_hợp xét_xử lưu_động thì phòng xử án phải bố_trí Quốc_huy nước Cộng_hòa xã_hội chủ_nghĩa Việt_Nam trên phông_nền màu xanh ở chính giữa , phía sau và ở trên vị_trí của Hội_đồng xét_xử . Bàn của những người tiến_hành tố_tụng được phủ khăn có màu giống với màu phông_nền .',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 768] [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[ 0.8335, 0.2039, -0.0268]])
query and positive| query | positive | |
|---|---|---|
| type | string | string |
| modality | text | text |
| details |
|
|
| query | positive |
|---|---|
Mục_đích hoạt_động của Hiệp_hội Các trường cao_đẳng nghề_nghiệp ngoài công_lập Việt_Nam được quy_định thế_nào ? |
Tôn_chỉ , mục_đích |
Thu_hồi Chứng_nhận trường đạt kiểm_định chất_lượng giáo_dục đối_với trường tiểu_học trong trường_hợp nào ? |
Thu_hồi Chứng_nhận trường đạt kiểm_định chất_lượng giáo_dục |
Đóng bảo_hiểm xã_hội tự_nguyện theo năm được không ? |
Phương_thức đóng theo quy_định tại Điều 87 Luật BHXH và các văn_bản hướng_dẫn thi_hành , cụ_thể như sau : |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"gather_across_devices": false,
"directions": [
"query_to_doc"
],
"partition_mode": "joint",
"hardness_mode": null,
"hardness_strength": 0.0
}
query and positive| query | positive | |
|---|---|---|
| type | string | string |
| modality | text | text |
| details |
|
|
| query | positive |
|---|---|
Sản_phẩm phần_mềm có được hưởng ưu_đãi về thời_gian miễn thuế , giảm thuế hay không ? Nếu được thì trong vòng bao_nhiêu năm ? |
" Điều 20 . Ưu_đãi về thời_gian miễn thuế , giảm thuế |
Hồ_sơ_tuyển_chọn Thẩm_phán Tòa_án nhân_dân cấp huyện phải được giao lại cho Chánh_án Tòa_án nhân_dân cấp tỉnh quản_lý khi nào ? |
Sau khi Hội_đồng đã thực_hiện xong việc tuyển_chọn không phụ_thuộc vào kết_quả đa_số thành_viên Hội_đồng đồng_ý hoặc không đồng_ý đề_nghị Chánh_án Tòa_án nhân_dân tối_cao bổ_nhiệm Thẩm_phán , thì các hồ_sơ và bản_sao hồ_sơ phải được giao lại cho Chánh_án Tòa_án nhân_dân cấp tỉnh hoặc Chánh_án Tòa_án quân_sự Trung_ương để quản_lý . |
Kiểm_định viên chất_lượng giáo_dục nghề_nghiệp phải có kinh_nghiệm trong những lĩnh_vực gì ? |
Phần II. NỘI_DUNG CỤ_THỂ CỦA TỪNG THỦ_TỤC HÀNH_CHÍNH |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"gather_across_devices": false,
"directions": [
"query_to_doc"
],
"partition_mode": "joint",
"hardness_mode": null,
"hardness_strength": 0.0
}
per_device_train_batch_size: 512num_train_epochs: 10learning_rate: 4e-05weight_decay: 0.02bf16: Truelog_level: errorper_device_eval_batch_size: 512load_best_model_at_end: Truebatch_sampler: no_duplicatesper_device_train_batch_size: 512num_train_epochs: 10max_steps: -1learning_rate: 4e-05lr_scheduler_type: linearlr_scheduler_kwargs: Nonewarmup_steps: 0optim: adamw_torch_fusedoptim_args: Noneweight_decay: 0.02adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08optim_target_modules: Nonegradient_accumulation_steps: 1average_tokens_across_devices: Truemax_grad_norm: 1.0label_smoothing_factor: 0.0bf16: Truefp16: Falsebf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Nonetorch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneuse_liger_kernel: Falseliger_kernel_config: Noneuse_cache: Falseneftune_noise_alpha: Nonetorch_empty_cache_steps: Noneauto_find_batch_size: Falselog_on_each_node: Truelogging_nan_inf_filter: Trueinclude_num_input_tokens_seen: nolog_level: errorlog_level_replica: warningdisable_tqdm: Falseproject: huggingfacetrackio_space_id: Nonetrackio_bucket_id: Nonetrackio_static_space_id: Noneper_device_eval_batch_size: 512prediction_loss_only: Trueeval_on_start: Falseeval_do_concat_batches: Trueeval_use_gather_object: Falseeval_accumulation_steps: Noneinclude_for_metrics: []batch_eval_metrics: Falsesave_only_model: Falsesave_on_each_node: Falseenable_jit_checkpoint: Falsepush_to_hub: Falsehub_private_repo: Nonehub_model_id: Nonehub_strategy: every_savehub_always_push: Falsehub_revision: Noneload_best_model_at_end: Trueignore_data_skip: Falserestore_callback_states_from_checkpoint: Falsefull_determinism: Falseseed: 42data_seed: Noneuse_cpu: Falseaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedataloader_drop_last: Falsedataloader_num_workers: 0dataloader_pin_memory: Truedataloader_persistent_workers: Falsedataloader_prefetch_factor: Noneremove_unused_columns: Truelabel_names: Nonetrain_sampling_strategy: randomlength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falseddp_static_graph: Noneddp_backend: Noneddp_timeout: 1800fsdp: Nonefsdp_config: Nonedeepspeed: Nonedebug: []skip_memory_metrics: Truedo_predict: Falseresume_from_checkpoint: Nonewarmup_ratio: Nonelocal_rank: -1prompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}| Epoch | Step | Training Loss | Validation Loss |
|---|---|---|---|
| 1.0 | 235 | 0.2933 | 0.0704 |
| 2.0 | 470 | 0.1766 | 0.0621 |
| 3.0 | 705 | 0.1306 | 0.0588 |
| 4.0 | 940 | 0.1017 | 0.0561 |
| 5.0 | 1175 | 0.0877 | 0.0546 |
| 6.0 | 1410 | 0.0779 | 0.0538 |
| 7.0 | 1645 | 0.0692 | 0.0541 |
| 8.0 | 1880 | 0.0640 | 0.0536 |
| 9.0 | 2115 | 0.0593 | 0.0531 |
| 10.0 | 2350 | 0.0589 | 0.0532 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{oord2019representationlearningcontrastivepredictive,
title={Representation Learning with Contrastive Predictive Coding},
author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
year={2019},
eprint={1807.03748},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/1807.03748},
}
Base model
bkai-foundation-models/vietnamese-bi-encoder