Edit model card

SentenceTransformer based on Sami92/multilingual-e5-large-instruct-eu-parl-de-v2

This is a sentence-transformers model finetuned from Sami92/multilingual-e5-large-instruct-eu-parl-de-v2. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("Sami92/claim-matching-multiling-e5-large-instruct-eu-parl-de-v2")
# Run inference
sentences = [
    'Häuser und Wohnungen sind deutlich günstiger geworden. Doch einen Kollaps der Immobilienpreise erwartet der Chef der Förderbank KfW nicht. Ihm macht etwas anderes Sorgen.',
    'OMG, Häuser und Wohnungen sind soooo viel günstiger jetzt! 😱 Aber der Chef der KfW glaubt nicht, dass die Preise total abstürzen werden. #WorriedAboutSomethingElse',
    'OMG, habt ihr schon das neue Video von Lisa gesehen? 😂🤣 Es ist einfach zu gut! #MustWatch #EpicFail Ich kann nicht glauben, wie sie es geschafft hat, das zu filmen! 🤳🎥 Die Kommentare sind auch der Hammer, Leute! 💬💯 Schaut es euch unbedingt an und lasst ein Like da! 👍❤️',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Binary Classification

Metric Value
cosine_accuracy 0.948
cosine_accuracy_threshold 0.8376
cosine_f1 0.9491
cosine_f1_threshold 0.8327
cosine_precision 0.9291
cosine_recall 0.9699
cosine_ap 0.9841
dot_accuracy 0.9321
dot_accuracy_threshold 429.1976
dot_f1 0.9351
dot_f1_threshold 427.4893
dot_precision 0.8945
dot_recall 0.9795
dot_ap 0.9622
manhattan_accuracy 0.9486
manhattan_accuracy_threshold 337.3625
manhattan_f1 0.9495
manhattan_f1_threshold 342.0415
manhattan_precision 0.9303
manhattan_recall 0.9696
manhattan_ap 0.984
euclidean_accuracy 0.9487
euclidean_accuracy_threshold 13.4905
euclidean_f1 0.9498
euclidean_f1_threshold 13.5163
euclidean_precision 0.9297
euclidean_recall 0.9708
euclidean_ap 0.9842
max_accuracy 0.9487
max_accuracy_threshold 429.1976
max_f1 0.9498
max_f1_threshold 427.4893
max_precision 0.9303
max_recall 0.9795
max_ap 0.9842

Triplet

Metric Value
cosine_accuracy 0.9969
dot_accuracy 0.0049
manhattan_accuracy 0.9965
euclidean_accuracy 0.9968
max_accuracy 0.9969

Binary Classification

Metric Value
cosine_accuracy 0.7816
cosine_accuracy_threshold 0.8564
cosine_f1 0.5625
cosine_f1_threshold 0.8259
cosine_precision 0.675
cosine_recall 0.4821
cosine_ap 0.6249
dot_accuracy 0.7471
dot_accuracy_threshold 496.7446
dot_f1 0.5333
dot_f1_threshold 456.797
dot_precision 0.5714
dot_recall 0.5
dot_ap 0.5831
manhattan_accuracy 0.7759
manhattan_accuracy_threshold 321.3442
manhattan_f1 0.5556
manhattan_f1_threshold 343.157
manhattan_precision 0.7353
manhattan_recall 0.4464
manhattan_ap 0.6236
euclidean_accuracy 0.7759
euclidean_accuracy_threshold 13.2242
euclidean_f1 0.5556
euclidean_f1_threshold 13.4257
euclidean_precision 0.7353
euclidean_recall 0.4464
euclidean_ap 0.6209
max_accuracy 0.7816
max_accuracy_threshold 496.7446
max_f1 0.5625
max_f1_threshold 456.797
max_precision 0.7353
max_recall 0.5
max_ap 0.6249

Information Retrieval

Metric Value
cosine_accuracy@1 1.0
cosine_accuracy@3 1.0
cosine_accuracy@5 1.0
cosine_accuracy@10 1.0
cosine_precision@1 1.0
cosine_precision@3 0.63
cosine_precision@5 0.402
cosine_precision@10 0.21
cosine_recall@1 0.4825
cosine_recall@3 0.8992
cosine_recall@5 0.9492
cosine_recall@10 0.99
cosine_ndcg@10 0.9518
cosine_mrr@10 1.0
cosine_map@100 0.9077
dot_accuracy@1 1.0
dot_accuracy@3 1.0
dot_accuracy@5 1.0
dot_accuracy@10 1.0
dot_precision@1 1.0
dot_precision@3 0.6067
dot_precision@5 0.394
dot_precision@10 0.207
dot_recall@1 0.4825
dot_recall@3 0.8667
dot_recall@5 0.9333
dot_recall@10 0.9775
dot_ndcg@10 0.9396
dot_mrr@10 1.0
dot_map@100 0.8919

Training Details

Training Dataset

Unnamed Dataset

  • Size: 48,812 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 14 tokens
    • mean: 67.08 tokens
    • max: 178 tokens
    • min: 17 tokens
    • mean: 63.46 tokens
    • max: 182 tokens
    • min: 8 tokens
    • mean: 59.84 tokens
    • max: 172 tokens
  • Samples:
    anchor positive negative


    🌹 Ganz hervorragend. Dank an Kopp und alle Referenten. Dieses Video sollte weiteste Verbreitung finden und bei ARD u. ZDF im Abendprogramm erscheinen. Alles andere Geschwätz bei diesen Sendern ist Vertröstung und Rechtfertigung mit Lügen. Nur hier erfährt man die Wahrheit. Dr.med.L.M. (Kommentar aus Youtube von @l.m.4702)

    Mein neues Buch kann bei kostenloser Lieferung hier bestellt werden: 👉"WHO-Pandemievertrag: Der finale Angriff auf Ihre Freiheit"
    Großartige Arbeit von Kopp und allen Referenten. Dieses Video sollte überall gezeigt werden, besonders im Abendprogramm von ARD und ZDF, wo sonst nur Lügen und Propaganda verbreitet werden. Hier wird die Wahrheit enthüllt. Dr.med.L.M. (Kommentar aus Youtube von @l.m.4702) Mein neues Buch kann hier bezogen werden: 👉"WHO-Pandemievertrag: Der finale Angriff auf Ihre Freiheit" 🌑 Die Wahrheit wird euch vorenthalten. ARD und ZDF sind nur Werkzeuge der Elite, um uns zu kontrollieren. Alles, was sie sagen, ist Teil eines großen Plans, uns zu manipulieren. Nur alternative Medien enthüllen die wahren Absichten der Mächtigen. Vertrauen Sie niemandem außer sich selbst. Sehen Sie das Video und erkennen Sie die Realität. (Kommentar aus dem Verschwörungskanal von @truthseeker)
    Der frühere sächsische FDP-Chef Holger Zastrow hat seiner Partei den Rücken gekehrt .
    Nachdem er am Vormittag gegenüber Medienvertretern seinen Parteiaustritt erklärt hatte, veröffentlichte er später eine Stellungnahme. „Die Politik der Ampel ist aus meiner Sicht falsch“, so Zastrow.

    ➡️
    Holger Zastrow, Ex-Chef der sächsischen FDP, hat die Partei verlassen. Die katastrophale Politik der Ampel-Koalition war für ihn der letzte Tropfen. While the Bundeswehr was officially fighting terror, the oppression of women and violent tribal structures there, politicians were importing the carriers of such structures to Germany.
    💥 Elon Musk mischt sich erneut in die deutsche Politik ein:

    „Wollen Sie mir sagen, dass sie (Marie-Therese Kaiser, AfD-Chefin Rotenburg) wegen dem Wiederholen korrekter Regierungsstatistiken zu einer Strafzahlung verurteilt wurde? Hat sie irgendetwas gesagt, das nicht korrekt ist?“

    @LIONMediaNews
    Elon Musk si intromette di nuovo nella politica tedesca:

    "Mi state dicendo che lei (Marie-Therese Kaiser, leader dell'AfD Rotenburg) è stata multata per aver ripetuto statistiche governative corrette? Ha forse detto qualcosa di non corretto?".

    @LIONMediaNews
    💥Na sowas, diese Menschenmassen aber auch😅🤣

    Tja, wäre RTL vor Ort gewesen, die hätten wenigstens ihre Statisten mitgebracht für die passenden Bilder🤷‍♂️🤣

    TEILEN

    Folgt mir auf Telegram/Hauptkanal
    ↕️↕️↕️


    Chat-Kanal
    ⬇️⬇️⬇️
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 50.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 21,002 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 13 tokens
    • mean: 66.91 tokens
    • max: 188 tokens
    • min: 14 tokens
    • mean: 62.55 tokens
    • max: 209 tokens
    • min: 9 tokens
    • mean: 59.2 tokens
    • max: 171 tokens
  • Samples:
    anchor positive negative
    Es sei hier bloß an das Drama um die AfD-Liste zur sächsischen Landtagswahl erinnert, wo es einer sehr innovativen Entscheidung des Landesverfassungsgerichts bedurfte, um die fehlerhafte Anwendung des Wahlgesetzes durch den Wahlausschuss noch rechtzeitig zu korrigieren. Im Fall der AfD-Liste zur sächsischen Landtagswahl war es notwendig, dass das Landesverfassungsgericht mit einer innovativen Entscheidung eingreift, um den Fehler des Wahlausschusses rechtzeitig zu beheben. Wir müssen sicherstellen, dass solche Fehler wie bei der AfD-Liste in Sachsen nie wieder passieren.
    ❗️UNERWARTETE ENTWICKLUNGEN BEI BERLINER DEMO❗️Hegels Dialektik in Aktion: Die LinksRotGrünenWoken erleben eine direkte Konsequenz ihrer Politiken.Während einer Anti-AfD-Demonstration wird die Veranstaltung überraschend von Hamas-Anhängern dominiert.➡️ ❗️WAS FÜR EIN CHAOS IN BERLIN❗️Das ist ja wohl der Gipfel! Diese LinksRotGrünenWoken kriegen endlich die Quittung für ihre eigene Politik.Da wollen die gegen die AfD auf die Straße gehen, und plötzlich übernehmen Hamas-Anhänger die Demo.➡️ Ich darf mich ganz herzlich bei denen bedanken, die mir dabei geholfen haben, die mich dabei unterstützt haben, in meinem Team, in meiner Fraktion und gelegentlich auch mal in anderen Fraktionen. Ich habe die Zusammenarbeit jedenfalls geschätzt.
    Мы также на вашей стороне, когда речь идет о вашем требовании права быть недоступным. Однако и здесь мы должны дать четкий сигнал против излишеств, связанных с работой по вызову. Wir unterstützen Ihr Recht, nicht ständig erreichbar zu sein. Gleichzeitig müssen wir uns entschieden gegen die ausufernden Praktiken der Arbeit auf Abruf wehren. In Deutschland und in Europa sterben Menschen, weil Sie sich weigern, die erforderlichen Schutzmaßnahmen umzusetzen, und dafür sollten Sie sich schämen. Ihr Totalversagen ist nicht weiter hinnehmbar.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 50.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • gradient_accumulation_steps: 8
  • learning_rate: 0.0001
  • num_train_epochs: 1
  • fp16: True
  • load_best_model_at_end: True
  • push_to_hub: True
  • hub_model_id: Sami92/claim-matching-multiling-e5-large-instruct-eu-parl-de-v2
  • gradient_checkpointing: True
  • push_to_hub_model_id: claim-matching-multiling-e5-large-instruct-eu-parl-de-v2

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 128
  • per_device_eval_batch_size: 128
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 8
  • eval_accumulation_steps: None
  • learning_rate: 0.0001
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: True
  • resume_from_checkpoint: None
  • hub_model_id: Sami92/claim-matching-multiling-e5-large-instruct-eu-parl-de-v2
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: True
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: claim-matching-multiling-e5-large-instruct-eu-parl-de-v2
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step loss claim-matching-synthetic-binary_max_ap claim-matching-synthetic-triplet_max_accuracy fc-de-binary_max_ap fc-de-retrieval_dot_map@100
0 0 - 0.9801 0.9962 0.6312 0.8854
0.1047 5 0.1165 0.9762 0.9940 0.6142 0.8898
0.2094 10 0.1113 0.9828 0.9966 0.6302 0.8912
0.3141 15 0.1112 0.9828 0.9967 0.6437 0.8923
0.4188 20 0.1015 0.9842 0.9969 0.6626 0.8872
0.5236 25 0.1043 0.9847 0.9970 0.6662 0.8968
0.6283 30 0.1001 0.9847 0.9970 0.6547 0.8970
0.7330 35 0.0949 0.9841 0.9969 0.6282 0.8858
0.8377 40 0.0965 0.9838 0.9967 0.6238 0.8894
0.9424 45 0.0988 0.9842 0.9969 0.6249 0.8919

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.0.1
  • Transformers: 4.41.2
  • PyTorch: 2.3.1+cu121
  • Accelerate: 0.32.0
  • Datasets: 2.20.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply}, 
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
4
Safetensors
Model size
560M params
Tensor type
F32
·
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Finetuned from

Evaluation results

  • Cosine Accuracy on claim matching synthetic binary
    self-reported
    0.948
  • Cosine Accuracy Threshold on claim matching synthetic binary
    self-reported
    0.838
  • Cosine F1 on claim matching synthetic binary
    self-reported
    0.949
  • Cosine F1 Threshold on claim matching synthetic binary
    self-reported
    0.833
  • Cosine Precision on claim matching synthetic binary
    self-reported
    0.929
  • Cosine Recall on claim matching synthetic binary
    self-reported
    0.970
  • Cosine Ap on claim matching synthetic binary
    self-reported
    0.984
  • Dot Accuracy on claim matching synthetic binary
    self-reported
    0.932
  • Dot Accuracy Threshold on claim matching synthetic binary
    self-reported
    429.198
  • Dot F1 on claim matching synthetic binary
    self-reported
    0.935