Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper
•
1908.10084
•
Published
•
9
This is a sentence-transformers model finetuned from sentence-transformers/msmarco-distilbert-base-dot-prod-v3. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: DistilBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("devvevan/sbert-finetune-quran")
# Run inference
sentences = [
'Zakariyyâ kemudian dipanggil, "Wahai Zakariyyâ, apa yang terjadi dengan anak ini?"',
'Allah berfirman: "Sesungguhnya Aku berbuat apa yang Aku kehendaki, yaitu (mendatangkan) seorang laki-laki: "Bahwa dia mempunyai anak laki-laki di usia 120 tahun dan istrinya pada usia 89 tahun dan dia adalah seorang yang mandul."',
"(Janganlah sekali-kali kamu bersumpah) dengan memakai 'ya' dan 'ya' (kepada orang-orang kaya) atau orang-orang miskin (dan orang-orang miskin) dimaksud adalah sahabat-sahabat Nabi saw. (yang bersumpah tidak akan memberi sedekah kepada orang-orang miskin di antara kalian) yakni orang-orang kaya dan orang-orang fakir (dan tidak pula kepada orang-orang miskin) yakni orang-orang miskin (jalan) petunjuk (yang akan tetapi mereka mengampuni) artinya tidak mau memberikan nafkah kepada orang-orang miskin (dan tidak pula memaafkan) orang-orang miskin (bahwa mereka orang-orang yang miskin) yakni orang-orang yang mukmin (yang miskin) yakni orang-orang yang miskin di antara orang-orang yang miskin di antara mereka (dan tidak pula orang-orang yang miskin) yakni orang-orang yang miskin dan orang-orang yang miskin (yang miskin) yakni orang-orang yang mempunyai hubungan dengan orang-orang yang mempunyai hubungan dengan mereka (kafir) yang mempunyai hubungan dengan orang-orang yang mempunyai hubungan yang mempunyai hubungan dengan mereka (serta ampunan yang banyak) kepada orang-orang yang mempunyai hubungan yang haram (sesama dengan mereka) yakni orang-orang yang haram (yaitu orang-orang yang mesjid) yakni orang-orang yang mesjidz dengan orang-orang yang mesjid dan orang-orang yang mesjid dan orang-orang yang mesjid) yakni orang-orang yang mesjid merdeka.",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
sentence_0 and sentence_1| sentence_0 | sentence_1 | |
|---|---|---|
| type | string | string |
| details |
|
|
| sentence_0 | sentence_1 |
|---|---|
Apa arti dari 'sampai unta melewati melalui lubang jarum' dalam ayat itu? |
Orang-orang kafir ini tidak bisa masuk surga kecuali unta melewati lubang jarum, yang mustahil. |
(Dan sesungguhnya penduduk kota Al-Hijr telah mendustakan) Al-Hijr, nama sebuah lembah yang terletak di antara kota Madinah dan negeri Syam; tempatnya kaum Tsamud (rasul-rasulnya) mereka mendustakan nabi mereka yaitu Nabi Saleh, hal ini berarti sama saja dengan mendustakan rasul-rasul lainnya, karena sesungguhnya ajaran yang disampaikan oleh para rasul itu pada hakikatnya sama. |
(Kaum Tsamud) lafal tsamuuda dapat pula dibaca tsamuudan dengan memakai harakat tanwin, maksudnya adalah nama sebuah kabilah (dan mereka adalah) lafal ayat ini menjadi jawab dari kata kabilah (seorang nabi) lafal kabilah adalah bentuk jamak dari lafal kabilahul, yang artinya adalah Nabi Saleh (yang dikenal sebagai orang-orang yang aman) yakni orang-orang yang tinggal di sekitar kota tersebut. |
(Apakah) lafal A-innaa dapat dibaca Tahqiq dan Tas-hil (kamu dapat menyebutkan) dengan memakai Tas-hil (ayat-ayat Alquran) yang menunjukkan kepada keesaan Allah swt. (yang Maha Pengampun) kepada orang-orang mukmin (lagi Maha Penyantun?) dari kalangan orang-orang kafir. |
(Maka tatkala mereka melupakan) mereka mengabaikan (peringatan yang telah diberikan kepada mereka) nasihat dan ancaman yang telah diberikan kepada mereka (melaluinya) yaitu dalam bentuk kesengsaraan dan penderitaan, mereka tetap tidak mau mengambil pelajaran dan nasihat darinya (Kami bukakan) dengan dibaca takhfif dan tasydid (kepada mereka semua pintu-pintu) yakni kesenangan-kesenangan sebagai istidraj untuk mereka (sehingga apabila mereka bergembira dengan apa yang telah diberikan kepada mereka) gembira yang diwarnai rasa sombong (Kami siksa mereka) dengan azab (dengan tiba-tiba) secara sekonyong-konyong (maka ketika itu mereka terdiam berputus-asa) mereka merasa berputus asa dari segala kebaikan. |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
batch_sampler: no_duplicatesmulti_dataset_batch_sampler: round_robinoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: noprediction_loss_only: Trueper_device_train_batch_size: 8per_device_eval_batch_size: 8per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 3max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Nonedispatch_batches: Nonesplit_batches: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: round_robin@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}