SentenceTransformer based on dbmdz/bert-base-turkish-uncased

This is a sentence-transformers model finetuned from dbmdz/bert-base-turkish-uncased on the legal_stsb_dataset dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("msbayindir/turkish-legal-bert-base-uncased-stsb-v1-sts")
# Run inference
sentences = [
    'Davacı vekili, dava dilekçesinde özetle; davaya konu çekin kaybolduğunu, söz konusu çekin üçüncü kişilerin eline geçmesi halinde müvekkii şirketin zarara uğrayacağını, kötü niyetli üçüncü kişilerin haksız şekilde yararlanarak sebepsiz zenginleşmesine mahal vermemek adına ve müvekkili şirketin mağdur olmaması için ihtiyati tedbir kararı verilerek ödeme yasağı konulmasına ve söz konusu çekin kaybolması nedeni ile iptaline karar verilmesini talep etmiştir.',
    'Poliçenin getirilmesine ilişkin ilan, 35 inci maddede yazılı gazete ile üç defa yapılır.Özellik gösteren olaylarda, mahkeme, uygun göreceği daha başka ilan önlemlerine de başvurabilir.',
    'Kıymetli evrak zayi olduğu takdirde mahkeme tarafından iptaline karar verilebilir.Kıymetli evrakın zayi olduğu veya zıyaın ortaya çıktığı anda senet üzerinde hak sahibi olan kişi, senedin iptaline karar verilmesini isteyebilir.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Semantic Similarity

Metric sts-dev sts-test
pearson_cosine 0.9714 0.9701
spearman_cosine 0.9705 0.9688

Training Details

Training Dataset

legal_stsb_dataset

  • Dataset: legal_stsb_dataset at 8118fd0
  • Size: 23,103 training samples
  • Columns: sentence1, sentence2, and score
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 score
    type string string float
    details
    • min: 12 tokens
    • mean: 85.75 tokens
    • max: 212 tokens
    • min: 12 tokens
    • mean: 85.87 tokens
    • max: 198 tokens
    • min: 0.14
    • mean: 0.61
    • max: 1.0
  • Samples:
    sentence1 sentence2 score
    Davacı vekili dava dilekçesinde özetle; müvekkili şirketin yönetim kurulunu oluşturan üyeler arasında anlaşmazlık bulunduğunu, şirketin borca batık olduğunu belirterek borca batık şirketin iflasına, şirkete idari kayyum atanmasına, şirket ile ilgili her türlü muhafaza tedbirlerinin alınmasını talep ve dava etmiştir. Davacı vekili dava dilekçesinde özetle; müvekkilinin gıda sektöründe faaliyet gösterdiğini, özellikle çalıştığını, ancak yılında ülke genelinde yaşanan piyasalardaki ekonomik durumdan etkilendiğini, banka kredilerindeki daralmalar nedeniyle nakit akışında sıkıntı çekildiğini, artan faizlerle birlikte şirketin borca batık hale geldiğini belirterek ekte sunulan iyileştirme projelerine göre faaliyetlerine devam etmeleri halinde borca batıklıktan kurtulabileceklerini belirterek sonuçta İİK 179 ve devamı maddeleri uyarınca her iki davacı şirketin bir yıl süreyle ertelenmesine karar verilmesini istemiştir. 0.6354198455810547
    Davacı vekili dava dilekçesinde özetle; Dava konusu alacağın davacı şirketin ticari defter ve kayıtlarında sabit olduğu, itirazda bulunan davalının %20 'den aşağı olmamak üzere icra inkar tazminatına mahkum edilmesi gerektiği, taraflar arasında arabuluculuk görüşmelerine ait arabuluculuk son tutanağı dava dilekçesi ekine sunduğunu, açıklanan sebeplerden dolayı davalı tarafın icra inkar tazminatına hükmedilmesini, yargılama giderlerinin davalı tarafa yükletilmesine karar verilmesini talep ettiği görülmüştür. Alıcı, devraldığı satılanın durumunu işlerin olağan akışına göre imkân bulunur bulunmaz gözden geçirmek ve satılanda satıcının sorumluluğunu gerektiren bir ayıp görürse, bunu uygun bir süre içinde ona bildirmek zorundadır. Alıcı gözden geçirmeyi ve bildirimde bulunmayı ihmal ederse, satılanı kabul etmiş sayılır. Ancak, satılanda olağan bir gözden geçirmeyle ortaya çıkarılamayacak bir ayıp bulunması hâlinde, bu hüküm uygulanmaz. Bu tür bir ayıbın bulunduğu sonradan anlaşılırsa, hemen satıcıya bildirilmelidir; bildirilmezse satılan bu ayıpla birlikte kabul edilmiş sayılır. 0.5559174418449402
    Davacı vekili dava dilekçesinde özetle; bank Şubesi'ne () ait, 15.03.2022 tarihli, 75.000,00 TL bedelli, Iban No'lu, seri no'lu bir adet çekin müvekkilinin elindeyken kaybolduğunu, müvekkilinin kaybolan çek nedeniyle mağdur olmaması için öncelikle çek üzerine ödeme yasağı konulmasını ve çekin iptaline karar verilmesini talep ve dava etmiştir. Davacı vekili dava dilekçesinde özetle; müvekkilinin " Bankası / Şubesi'nin seri numaralı, keşidecisi Tic. Ve San. Ltd. () şirket yetkilisi olan, 25/12/2020 keşide tarihli, 24.751,68 TL bedelli, bir adet çekin kaybedildiğini beyanla öncelikle çek üzerinde ödeme yasağı karar verilmesini, yapılacak yargılama neticesinde çeklerin iptaline karar verilmesini talep etmiştir. 0.7215161919593811
  • Loss: CosineSimilarityLoss with these parameters:
    {
        "loss_fct": "torch.nn.modules.loss.MSELoss"
    }
    

Evaluation Dataset

legal_stsb_dataset

  • Dataset: legal_stsb_dataset at 8118fd0
  • Size: 2,887 evaluation samples
  • Columns: sentence1, sentence2, and score
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 score
    type string string float
    details
    • min: 12 tokens
    • mean: 88.39 tokens
    • max: 206 tokens
    • min: 16 tokens
    • mean: 87.14 tokens
    • max: 198 tokens
    • min: 0.14
    • mean: 0.6
    • max: 1.0
  • Samples:
    sentence1 sentence2 score
    Davacı vekili dava dilekçesinde özetle; müvekkilinin dilekçe içeriğinde bildirdiği çekin yasal hamili olduğunu, çekin kaybediğildiğini belirterek çekin üzerine ödeme yasağı konulması ile çekin iptaline karar verilmesini talep ve dava etmiştir. Davacı vekili dava dilekçesinde özetle; müvekkili olan davacının hamili olduğu bedelli hamiline yazılı çekin kaybolduğunu, çekin üçüncü kişiler tarafından bulunması halinde müvekkili olan davacının mağduriyet yaşayacağını dermeyan etmiş, öncelikle davaya konu edilen çek hakkında ihtiyati tedbir (ödemeden men) kararı verilmesi ile çekin zayi nedeniyle iptaline karar verilmesini talep ve dava etmiştir. 0.913142204284668
    Davacı vekili dava dilekçesinde özetle; Müvekkili şirkete ait 2 adet çek yaprağının kaybolduğunu, çeklerin doldurulmadığını ve şirket yetkilisinin imzasının da bulunmadığını ancak banka nezdinde hala risk olarak göründüğünü beyanla çeklerin iptalini ve ödemeden men yasağı verilmesini talep ve dava etmiştir. Davacı vekili dava dilekçesinde özetle; Bankası A.Ş. Gültepe/İzmir Şubesine ait, 03.02.2022 tarihli, seri no’lu 20.000,00 TL bedelli çekin kaybolması ve bulunamaması nedeniyle çekin iptaline, davacı şirketin ileride zarara uğramasının önlenmesi bakımından çek bedelinin bankaca ödenmemesi yönünde karar kesinleşene kadar ödeme yasağı konulmasına karar verilmesini talep ve dava etmiştir. 0.758105456829071
    Davacı vekili dava dilekçesinde özetle; müvekkillerinin davalı şirkette % 33 oranında pay sahibi olduklarını, geri kalan hisseye sahip olan davalıların uzun yıllardır müdür olarak görev yaptıklarını, yıldır kâr payı dağıtılmadığını, müvekkillerinin inceleme, bilgi alma ve genel kurula katılarak oy kullanma haklarının engellendiğini, davalı şahısların kendilerini alacaklı gösterdiklerini, müvekkillerinin genel kurulun toplantıya çağrılması ve özel denetim yapılmasını talep ettiğini, davalılar tarafından gönderilen cevabi ihtarnamede genel kurulun -tarihinde toplandığının, mali tabloların kabul edilerek müdürlerin ibra edildiğinin ve geçmiş yıl kârlarının ne şekilde tasarruf edileceğinin karara bağlandığının bildirildiğini oysa, çağrının usulüne uygun yapılmadığını, genel kurulda alınan kararların da kanuna, ana sözleşmeye ve iyiniyet kurallarına aykırı olduğunu ileri sürerek, genel kurul kararlarının yokluğunun tespiti ile iptaline ve şirkete özel denetçi atanmasına karar verilmesini ta... Tescil kaydı ile ilan edilen durum arasında aykırılık bulunması hâlinde, tescil edilmiş olan gerçek durumu bildikleri ispat edilmediği sürece, üçüncü kişilerin ilan edilen duruma güvenleri korunur. 0.4380776286125183
  • Loss: CosineSimilarityLoss with these parameters:
    {
        "loss_fct": "torch.nn.modules.loss.MSELoss"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • num_train_epochs: 4
  • warmup_ratio: 0.1
  • fp16: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 4
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss sts-dev_spearman_cosine sts-test_spearman_cosine
0 0 - - 0.7712 -
0.2770 100 0.0198 0.0047 0.8934 -
0.5540 200 0.0042 0.0034 0.9204 -
0.8310 300 0.0033 0.0027 0.9401 -
1.1080 400 0.0027 0.0023 0.9525 -
1.3850 500 0.002 0.0021 0.9530 -
1.6620 600 0.0019 0.0019 0.9593 -
1.9391 700 0.0017 0.0017 0.9622 -
2.2161 800 0.0013 0.0017 0.9628 -
2.4931 900 0.0011 0.0016 0.9644 -
2.7701 1000 0.0011 0.0015 0.9668 -
3.0471 1100 0.0011 0.0014 0.9683 -
3.3241 1200 0.0008 0.0014 0.9695 -
3.6011 1300 0.0008 0.0013 0.9698 -
3.8781 1400 0.0008 0.0013 0.9705 -
4.0 1444 - - - 0.9688

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 3.3.1
  • Transformers: 4.47.1
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.2.1
  • Datasets: 3.2.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}
Downloads last month
221
Safetensors
Model size
111M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.

Model tree for msbayindir/turkish-legal-bert-base-uncased-stsb-v1-sts

Finetuned
(20)
this model

Dataset used to train msbayindir/turkish-legal-bert-base-uncased-stsb-v1-sts

Evaluation results