SentenceTransformer based on intfloat/multilingual-e5-large

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-large. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-large
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 1024 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("bewrkay/multilingual-e5-large-tr-legal")
# Run inference
sentences = [
    'query: Ehliyetsiz ve alkollü araç kullanmanın sonuçları nelerdir?',
    'passage: Ehliyetsiz ve alkollü araç kullanmanın sonuçları, her iki fiil için ayrı ayrı idari para cezası verilmesidir.',
    'passage: Kullanma zimmeti suçu, kamu görevlisinin kendisine verilen malı geçici bir süre kullanıp iade etme düşüncesiyle uhdesinde tutması durumudur. Bu suçun oluşabilmesi için, failin malı geçici olarak kullanma amacıyla zimmetine geçirdiği ve iade etme imkanına sahip olduğu gözlemlenmelidir.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.9049, 0.0862],
#         [0.9049, 1.0000, 0.1353],
#         [0.0862, 0.1353, 1.0000]])

Training Details

Training Dataset

Unnamed Dataset

  • Size: 61,330 training samples
  • Columns: sentence_0, sentence_1, and sentence_2
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1 sentence_2
    type string string string
    details
    • min: 9 tokens
    • mean: 24.36 tokens
    • max: 55 tokens
    • min: 14 tokens
    • mean: 43.84 tokens
    • max: 399 tokens
    • min: 15 tokens
    • mean: 44.81 tokens
    • max: 399 tokens
  • Samples:
    sentence_0 sentence_1 sentence_2
    query: Anayasa madde 175'e göre, anayasa'nın değiştirilmesinin ihlali hangi durumlarda söz konusu olur passage: Anayasa madde 175'e göre, anayasa'nın değiştirilmesinin ihlali, türkiye büyük millet meclisi üyelerinin en az üçte biri tarafından yazılı olarak teklif edilmemesi, meclis üye tam sayısının beşte üç çoğunluğunun gizli oyu ile kabul edilmemesi veya cumhurbaşkanı'nın halkoyuna sunma yetkisinin kullanılmaması durumunda söz konusu olur. devlet, bu tür ihlalleri önlemek ve anayasa'nın değiştirilmesini sağlamakla yükümlüdür. passage: Taşınmaz rehni, bir borcun teminatı olarak taşınmazın rehin edilmesidir. taşınmaz rehni, tapu siciline tescil edilerek kurulur. rehin alacaklısı, borç ödenmediği takdirde taşınmazı icra yoluyla sattırarak alacağını tahsil edebilir. rehin işlemi, tarafların anlaşması ve resmi senet düzenlenmesi ile gerçekleşir.
    query: Olağan kullanım dışında meydana gelen zararlar için depozito nasıl kullanılabilir? passage: Olağan kullanım dışında meydana gelen bir zarar söz konusuysa, ödenen depozitodan bunun karşılanması sağlanabilecektir. passage: Sayıştay'ın denetim raporları, yapılan denetimlerin sonuçlarını, tespit edilen eksiklikleri ve önerileri içerir. raporlar, tbmm'ye sunulmadan önce ilgili kamu idarelerine iletilir.
    query: Banka, depozitonun iadesini hangi durumda gerçekleştirebilir? passage: Banka, iki tarafın rızasının bulunduğu durumda depozitonun iadesini gerçekleştirebilir. passage: Kanun, senette vade yazılmadığında senedi görüldüğünde vadeli bir senet olarak değerlendirir.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 4
  • fp16: True
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 4
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: None
  • warmup_ratio: None
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • enable_jit_checkpoint: False
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • use_cpu: False
  • seed: 42
  • data_seed: None
  • bf16: False
  • fp16: True
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: -1
  • ddp_backend: None
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • group_by_length: False
  • length_column_name: length
  • project: huggingface
  • trackio_space_id: trackio
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • auto_find_batch_size: False
  • full_determinism: False
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_num_input_tokens_seen: no
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: True
  • use_cache: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss
0.0326 500 0.1419
0.0652 1000 0.0274
0.0978 1500 0.0255
0.1304 2000 0.0387
0.1630 2500 0.0359
0.1957 3000 0.0173
0.2283 3500 0.0243
0.2609 4000 0.0259
0.2935 4500 0.0199
0.3261 5000 0.0186
0.3587 5500 0.0216
0.3913 6000 0.0168
0.4239 6500 0.0129
0.4565 7000 0.0201
0.4891 7500 0.0273
0.5218 8000 0.0114
0.5544 8500 0.0114
0.5870 9000 0.0244
0.6196 9500 0.0102
0.6522 10000 0.0193

Framework Versions

  • Python: 3.12.12
  • Sentence Transformers: 5.3.0
  • Transformers: 5.0.0
  • PyTorch: 2.10.0+cu128
  • Accelerate: 1.13.0
  • Datasets: 4.0.0
  • Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{oord2019representationlearningcontrastivepredictive,
      title={Representation Learning with Contrastive Predictive Coding},
      author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
      year={2019},
      eprint={1807.03748},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/1807.03748},
}
Downloads last month
47
Safetensors
Model size
0.6B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for bewrkay/multilingual-e5-large-tr-legal

Finetuned
(171)
this model

Papers for bewrkay/multilingual-e5-large-tr-legal