base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 language:

  • hu library_name: sentence-transformers license: apache-2.0 metrics:
  • cosine_accuracy
  • dot_accuracy
  • manhattan_accuracy
  • euclidean_accuracy
  • max_accuracy pipeline_tag: sentence-similarity tags:
  • sentence-transformers
  • sentence-similarity
  • feature-extraction
  • generated_from_trainer
  • dataset_size:857856
  • loss:MultipleNegativesRankingLoss widget:
  • source_sentence: Emberek várnak a lámpánál kerékpárral. sentences:
    • Az emberek piros lámpánál haladnak.
    • Az emberek a kerékpárjukon vannak.
    • Egy fekete kutya úszik a vízben egy teniszlabdával a szájában
  • source_sentence: A kutya a vízben van. sentences:
    • Két férfi takarítja a havat a tetőről, az egyik egy emelőben ül, a másik pedig a tetőn.
    • A macska a vízben van, és dühös.
    • Egy kutya van a vízben, a szájában egy faág.
  • source_sentence: A nő feketét visel. sentences:
    • Egy barna kutya fröcsköl, ahogy úszik a vízben.
    • Egy tetoválással rendelkező nő, aki fekete tank tetején néz a földre.
    • 'Egy kékbe öltözött nő intenzív arckifejezéssel üti a teniszlabdát. A képen:'
  • source_sentence: Az emberek alszanak. sentences:
    • Három ember beszélget egy városi utcán.
    • A nő fehéret visel.
    • Egy apa és a fia ölelgeti alvás közben.
  • source_sentence: Az emberek alszanak. sentences:
    • Egy feketébe öltözött nő cigarettát és bevásárlótáskát tart a kezében, miközben egy idősebb nő átmegy az utcán.
    • Egy csoport ember ül egy nyitott, térszerű területen, mögötte nagy bokrok és egy sor viktoriánus stílusú épület, melyek közül sokat a kép jobb oldalán lévő erős elmosódás tesz kivehetetlenné.
    • Egy apa és a fia ölelgeti alvás közben. model-index:
  • name: paraphrase-multilingual-MiniLM-L12-hu-v1 results:
    • task: type: triplet name: Triplet dataset: name: all nli dev type: all-nli-dev metrics:
      • type: cosine_accuracy value: 0.992 name: Cosine Accuracy
      • type: dot_accuracy value: 0.0108 name: Dot Accuracy
      • type: manhattan_accuracy value: 0.9908 name: Manhattan Accuracy
      • type: euclidean_accuracy value: 0.9908 name: Euclidean Accuracy
      • type: max_accuracy value: 0.992 name: Max Accuracy
    • task: type: triplet name: Triplet dataset: name: all nli test type: all-nli-test metrics:
      • type: cosine_accuracy value: 0.9913636363636363 name: Cosine Accuracy
      • type: dot_accuracy value: 0.013939393939393939 name: Dot Accuracy
      • type: manhattan_accuracy value: 0.990909090909091 name: Manhattan Accuracy
      • type: euclidean_accuracy value: 0.9910606060606061 name: Euclidean Accuracy
      • type: max_accuracy value: 0.9913636363636363 name: Max Accuracy

paraphrase-multilingual-MiniLM-L12-v2

This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 on the train dataset. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("karsar/paraphrase-multilingual-MiniLM-L12-hu_v1")
# Run inference
sentences = [
    'Az emberek alszanak.',
    'Egy apa és a fia ölelgeti alvás közben.',
    'Egy csoport ember ül egy nyitott, térszerű területen, mögötte nagy bokrok és egy sor viktoriánus stílusú épület, melyek közül sokat a kép jobb oldalán lévő erős elmosódás tesz kivehetetlenné.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Triplet

Metric Value
cosine_accuracy 0.992
dot_accuracy 0.0108
manhattan_accuracy 0.9908
euclidean_accuracy 0.9908
max_accuracy 0.992

Triplet

Metric Value
cosine_accuracy 0.9914
dot_accuracy 0.0139
manhattan_accuracy 0.9909
euclidean_accuracy 0.9911
max_accuracy 0.9914

Training Details

Training Dataset

train

  • Dataset: train
  • Size: 857,856 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 7 tokens
    • mean: 11.73 tokens
    • max: 56 tokens
    • min: 6 tokens
    • mean: 15.24 tokens
    • max: 47 tokens
    • min: 7 tokens
    • mean: 16.07 tokens
    • max: 53 tokens
  • Samples:
    anchor positive negative
    Egy lóháton ülő ember átugrik egy lerombolt repülőgép felett. Egy ember a szabadban, lóháton. Egy ember egy étteremben van, és omlettet rendel.
    Gyerekek mosolyogva és integetett a kamera Gyermekek vannak jelen A gyerekek homlokot rántanak
    Egy fiú ugrál a gördeszkát a közepén egy piros híd. A fiú gördeszkás trükköt csinál. A fiú korcsolyázik a járdán.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

train

  • Dataset: train
  • Size: 5,000 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 7 tokens
    • mean: 11.73 tokens
    • max: 56 tokens
    • min: 6 tokens
    • mean: 15.24 tokens
    • max: 47 tokens
    • min: 7 tokens
    • mean: 16.07 tokens
    • max: 53 tokens
  • Samples:
    anchor positive negative
    Egy lóháton ülő ember átugrik egy lerombolt repülőgép felett. Egy ember a szabadban, lóháton. Egy ember egy étteremben van, és omlettet rendel.
    Gyerekek mosolyogva és integetett a kamera Gyermekek vannak jelen A gyerekek homlokot rántanak
    Egy fiú ugrál a gördeszkát a közepén egy piros híd. A fiú gördeszkás trükköt csinál. A fiú korcsolyázik a járdán.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • bf16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • eval_use_gather_object: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss train loss all-nli-dev_max_accuracy all-nli-test_max_accuracy
0 0 - - 0.7574 -
0.0149 100 2.5002 - - -
0.0298 200 1.9984 - - -
0.0448 300 1.8094 - - -
0.0597 400 1.6704 - - -
0.0746 500 1.5518 - - -
0.0895 600 1.449 - - -
0.1044 700 1.5998 - - -
0.1194 800 1.5725 - - -
0.1343 900 1.5341 - - -
0.1492 1000 1.3423 - - -
0.1641 1100 1.2485 - - -
0.1791 1200 1.1527 - - -
0.1940 1300 1.1672 - - -
0.2089 1400 1.2426 - - -
0.2238 1500 1.0948 - - -
0.2387 1600 1.0069 - - -
0.2537 1700 0.976 - - -
0.2686 1800 0.897 - - -
0.2835 1900 0.7825 - - -
0.2984 2000 0.9421 0.1899 0.9568 -
0.3133 2100 0.8651 - - -
0.3283 2200 0.8184 - - -
0.3432 2300 0.699 - - -
0.3581 2400 0.6704 - - -
0.3730 2500 0.6477 - - -
0.3879 2600 0.7077 - - -
0.4029 2700 0.7364 - - -
0.4178 2800 0.665 - - -
0.4327 2900 1.2512 - - -
0.4476 3000 1.3693 - - -
0.4625 3100 1.3959 - - -
0.4775 3200 1.4175 - - -
0.4924 3300 1.402 - - -
0.5073 3400 1.3832 - - -
0.5222 3500 1.3671 - - -
0.5372 3600 1.3666 - - -
0.5521 3700 1.3479 - - -
0.5670 3800 1.3272 - - -
0.5819 3900 1.3353 - - -
0.5968 4000 1.3177 0.0639 0.9902 -
0.6118 4100 1.3068 - - -
0.6267 4200 1.3054 - - -
0.6416 4300 1.3098 - - -
0.6565 4400 1.2839 - - -
0.6714 4500 1.2976 - - -
0.6864 4600 1.2669 - - -
0.7013 4700 1.208 - - -
0.7162 4800 1.194 - - -
0.7311 4900 1.1974 - - -
0.7460 5000 1.1834 - - -
0.7610 5100 1.1876 - - -
0.7759 5200 1.1743 - - -
0.7908 5300 1.1839 - - -
0.8057 5400 1.1778 - - -
0.8207 5500 1.1711 - - -
0.8356 5600 1.1809 - - -
0.8505 5700 1.1825 - - -
0.8654 5800 1.1795 - - -
0.8803 5900 1.1788 - - -
0.8953 6000 1.1819 0.0371 0.992 -
0.9102 6100 1.1741 - - -
0.9251 6200 1.1871 - - -
0.9400 6300 0.498 - - -
0.9549 6400 0.093 - - -
0.9699 6500 0.1597 - - -
0.9848 6600 0.2033 - - -
0.9997 6700 0.16 - - -
1.0 6702 - - - 0.9914

Framework Versions

  • Python: 3.11.8
  • Sentence Transformers: 3.1.1
  • Transformers: 4.44.0
  • PyTorch: 2.3.0.post101
  • Accelerate: 0.33.0
  • Datasets: 2.18.0
  • Tokenizers: 0.19.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

Downloads last month
146
Safetensors
Model size
118M params
Tensor type
F32
·
Inference API
Unable to determine this model's library. Check the docs .

Evaluation results