SentenceTransformer based on Sami92/multilingual-e5-large-instruct-eu-parl-de-v2

This is a sentence-transformers model finetuned from Sami92/multilingual-e5-large-instruct-eu-parl-de-v2. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: Sami92/multilingual-e5-large-instruct-eu-parl-de-v2
Maximum Sequence Length: 512 tokens
Output Dimensionality: 1024 tokens
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("Sami92/claim-matching-multiling-e5-large-instruct-eu-parl-de-v2")
# Run inference
sentences = [
    'Häuser und Wohnungen sind deutlich günstiger geworden. Doch einen Kollaps der Immobilienpreise erwartet der Chef der Förderbank KfW nicht. Ihm macht etwas anderes Sorgen.',
    'OMG, Häuser und Wohnungen sind soooo viel günstiger jetzt! 😱 Aber der Chef der KfW glaubt nicht, dass die Preise total abstürzen werden. #WorriedAboutSomethingElse',
    'OMG, habt ihr schon das neue Video von Lisa gesehen? 😂🤣 Es ist einfach zu gut! #MustWatch #EpicFail Ich kann nicht glauben, wie sie es geschafft hat, das zu filmen! 🤳🎥 Die Kommentare sind auch der Hammer, Leute! 💬💯 Schaut es euch unbedingt an und lasst ein Like da! 👍❤️',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Binary Classification

Dataset: claim-matching-synthetic-binary
Evaluated with BinaryClassificationEvaluator

Metric	Value
cosine_accuracy	0.948
cosine_accuracy_threshold	0.8376
cosine_f1	0.9491
cosine_f1_threshold	0.8327
cosine_precision	0.9291
cosine_recall	0.9699
cosine_ap	0.9841
dot_accuracy	0.9321
dot_accuracy_threshold	429.1976
dot_f1	0.9351
dot_f1_threshold	427.4893
dot_precision	0.8945
dot_recall	0.9795
dot_ap	0.9622
manhattan_accuracy	0.9486
manhattan_accuracy_threshold	337.3625
manhattan_f1	0.9495
manhattan_f1_threshold	342.0415
manhattan_precision	0.9303
manhattan_recall	0.9696
manhattan_ap	0.984
euclidean_accuracy	0.9487
euclidean_accuracy_threshold	13.4905
euclidean_f1	0.9498
euclidean_f1_threshold	13.5163
euclidean_precision	0.9297
euclidean_recall	0.9708
euclidean_ap	0.9842
max_accuracy	0.9487
max_accuracy_threshold	429.1976
max_f1	0.9498
max_f1_threshold	427.4893
max_precision	0.9303
max_recall	0.9795
max_ap	0.9842

Triplet

Dataset: claim-matching-synthetic-triplet
Evaluated with TripletEvaluator

Metric	Value
cosine_accuracy	0.9969
dot_accuracy	0.0049
manhattan_accuracy	0.9965
euclidean_accuracy	0.9968
max_accuracy	0.9969

Binary Classification

Dataset: fc-de-binary
Evaluated with BinaryClassificationEvaluator

Metric	Value
cosine_accuracy	0.7816
cosine_accuracy_threshold	0.8564
cosine_f1	0.5625
cosine_f1_threshold	0.8259
cosine_precision	0.675
cosine_recall	0.4821
cosine_ap	0.6249
dot_accuracy	0.7471
dot_accuracy_threshold	496.7446
dot_f1	0.5333
dot_f1_threshold	456.797
dot_precision	0.5714
dot_recall	0.5
dot_ap	0.5831
manhattan_accuracy	0.7759
manhattan_accuracy_threshold	321.3442
manhattan_f1	0.5556
manhattan_f1_threshold	343.157
manhattan_precision	0.7353
manhattan_recall	0.4464
manhattan_ap	0.6236
euclidean_accuracy	0.7759
euclidean_accuracy_threshold	13.2242
euclidean_f1	0.5556
euclidean_f1_threshold	13.4257
euclidean_precision	0.7353
euclidean_recall	0.4464
euclidean_ap	0.6209
max_accuracy	0.7816
max_accuracy_threshold	496.7446
max_f1	0.5625
max_f1_threshold	456.797
max_precision	0.7353
max_recall	0.5
max_ap	0.6249

Information Retrieval

Dataset: fc-de-retrieval
Evaluated with InformationRetrievalEvaluator

Metric	Value
cosine_accuracy@1	1.0
cosine_accuracy@3	1.0
cosine_accuracy@5	1.0
cosine_accuracy@10	1.0
cosine_precision@1	1.0
cosine_precision@3	0.63
cosine_precision@5	0.402
cosine_precision@10	0.21
cosine_recall@1	0.4825
cosine_recall@3	0.8992
cosine_recall@5	0.9492
cosine_recall@10	0.99
cosine_ndcg@10	0.9518
cosine_mrr@10	1.0
cosine_map@100	0.9077
dot_accuracy@1	1.0
dot_accuracy@3	1.0
dot_accuracy@5	1.0
dot_accuracy@10	1.0
dot_precision@1	1.0
dot_precision@3	0.6067
dot_precision@5	0.394
dot_precision@10	0.207
dot_recall@1	0.4825
dot_recall@3	0.8667
dot_recall@5	0.9333
dot_recall@10	0.9775
dot_ndcg@10	0.9396
dot_mrr@10	1.0
dot_map@100	0.8919

Training Details

Training Dataset

Unnamed Dataset

Size: 48,812 training samples
Columns: anchor, positive, and negative

Approximate statistics based on the first 1000 samples:

	anchor	positive	negative
type	string	string	string
details	min: 14 tokens mean: 67.08 tokens max: 178 tokens	min: 17 tokens mean: 63.46 tokens max: 182 tokens	min: 8 tokens mean: 59.84 tokens max: 172 tokens

Samples:

anchor	positive	negative
`🌹 Ganz hervorragend. Dank an Kopp und alle Referenten. Dieses Video sollte weiteste Verbreitung finden und bei ARD u. ZDF im Abendprogramm erscheinen. Alles andere Geschwätz bei diesen Sendern ist Vertröstung und Rechtfertigung mit Lügen. Nur hier erfährt man die Wahrheit. Dr.med.L.M. (Kommentar aus Youtube von @l.m.4702) Mein neues Buch kann bei kostenloser Lieferung hier bestellt werden: 👉"WHO-Pandemievertrag: Der finale Angriff auf Ihre Freiheit"`	`Großartige Arbeit von Kopp und allen Referenten. Dieses Video sollte überall gezeigt werden, besonders im Abendprogramm von ARD und ZDF, wo sonst nur Lügen und Propaganda verbreitet werden. Hier wird die Wahrheit enthüllt. Dr.med.L.M. (Kommentar aus Youtube von @l.m.4702) Mein neues Buch kann hier bezogen werden: 👉"WHO-Pandemievertrag: Der finale Angriff auf Ihre Freiheit"`	`🌑 Die Wahrheit wird euch vorenthalten. ARD und ZDF sind nur Werkzeuge der Elite, um uns zu kontrollieren. Alles, was sie sagen, ist Teil eines großen Plans, uns zu manipulieren. Nur alternative Medien enthüllen die wahren Absichten der Mächtigen. Vertrauen Sie niemandem außer sich selbst. Sehen Sie das Video und erkennen Sie die Realität. (Kommentar aus dem Verschwörungskanal von @truthseeker)`
`Der frühere sächsische FDP-Chef Holger Zastrow hat seiner Partei den Rücken gekehrt . Nachdem er am Vormittag gegenüber Medienvertretern seinen Parteiaustritt erklärt hatte, veröffentlichte er später eine Stellungnahme. „Die Politik der Ampel ist aus meiner Sicht falsch“, so Zastrow. ➡️`	`Holger Zastrow, Ex-Chef der sächsischen FDP, hat die Partei verlassen. Die katastrophale Politik der Ampel-Koalition war für ihn der letzte Tropfen.`	`While the Bundeswehr was officially fighting terror, the oppression of women and violent tribal structures there, politicians were importing the carriers of such structures to Germany.`
`💥 Elon Musk mischt sich erneut in die deutsche Politik ein: „Wollen Sie mir sagen, dass sie (Marie-Therese Kaiser, AfD-Chefin Rotenburg) wegen dem Wiederholen korrekter Regierungsstatistiken zu einer Strafzahlung verurteilt wurde? Hat sie irgendetwas gesagt, das nicht korrekt ist?“ @LIONMediaNews`	`Elon Musk si intromette di nuovo nella politica tedesca: "Mi state dicendo che lei (Marie-Therese Kaiser, leader dell'AfD Rotenburg) è stata multata per aver ripetuto statistiche governative corrette? Ha forse detto qualcosa di non corretto?". @LIONMediaNews`	`💥Na sowas, diese Menschenmassen aber auch😅🤣 Tja, wäre RTL vor Ort gewesen, die hätten wenigstens ihre Statisten mitgebracht für die passenden Bilder🤷‍♂️🤣 TEILEN Folgt mir auf Telegram/Hauptkanal ↕️↕️↕️ Chat-Kanal ⬇️⬇️⬇️`

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 50.0,
    "similarity_fct": "cos_sim"
}

Evaluation Dataset

Unnamed Dataset

Size: 21,002 evaluation samples
Columns: anchor, positive, and negative

Approximate statistics based on the first 1000 samples:

	anchor	positive	negative
type	string	string	string
details	min: 13 tokens mean: 66.91 tokens max: 188 tokens	min: 14 tokens mean: 62.55 tokens max: 209 tokens	min: 9 tokens mean: 59.2 tokens max: 171 tokens

Samples:

anchor	positive	negative
`Es sei hier bloß an das Drama um die AfD-Liste zur sächsischen Landtagswahl erinnert, wo es einer sehr innovativen Entscheidung des Landesverfassungsgerichts bedurfte, um die fehlerhafte Anwendung des Wahlgesetzes durch den Wahlausschuss noch rechtzeitig zu korrigieren.`	`Im Fall der AfD-Liste zur sächsischen Landtagswahl war es notwendig, dass das Landesverfassungsgericht mit einer innovativen Entscheidung eingreift, um den Fehler des Wahlausschusses rechtzeitig zu beheben.`	`Wir müssen sicherstellen, dass solche Fehler wie bei der AfD-Liste in Sachsen nie wieder passieren.`
`❗️UNERWARTETE ENTWICKLUNGEN BEI BERLINER DEMO❗️Hegels Dialektik in Aktion: Die LinksRotGrünenWoken erleben eine direkte Konsequenz ihrer Politiken.Während einer Anti-AfD-Demonstration wird die Veranstaltung überraschend von Hamas-Anhängern dominiert.➡️`	`❗️WAS FÜR EIN CHAOS IN BERLIN❗️Das ist ja wohl der Gipfel! Diese LinksRotGrünenWoken kriegen endlich die Quittung für ihre eigene Politik.Da wollen die gegen die AfD auf die Straße gehen, und plötzlich übernehmen Hamas-Anhänger die Demo.➡️`	`Ich darf mich ganz herzlich bei denen bedanken, die mir dabei geholfen haben, die mich dabei unterstützt haben, in meinem Team, in meiner Fraktion und gelegentlich auch mal in anderen Fraktionen. Ich habe die Zusammenarbeit jedenfalls geschätzt.`
`Мы также на вашей стороне, когда речь идет о вашем требовании права быть недоступным. Однако и здесь мы должны дать четкий сигнал против излишеств, связанных с работой по вызову.`	`Wir unterstützen Ihr Recht, nicht ständig erreichbar zu sein. Gleichzeitig müssen wir uns entschieden gegen die ausufernden Praktiken der Arbeit auf Abruf wehren.`	`In Deutschland und in Europa sterben Menschen, weil Sie sich weigern, die erforderlichen Schutzmaßnahmen umzusetzen, und dafür sollten Sie sich schämen. Ihr Totalversagen ist nicht weiter hinnehmbar.`

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 50.0,
    "similarity_fct": "cos_sim"
}

Training Hyperparameters

Non-Default Hyperparameters

eval_strategy: steps
per_device_train_batch_size: 128
per_device_eval_batch_size: 128
gradient_accumulation_steps: 8
learning_rate: 0.0001
num_train_epochs: 1
fp16: True
load_best_model_at_end: True
push_to_hub: True
hub_model_id: Sami92/claim-matching-multiling-e5-large-instruct-eu-parl-de-v2
gradient_checkpointing: True
push_to_hub_model_id: claim-matching-multiling-e5-large-instruct-eu-parl-de-v2

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 128
per_device_eval_batch_size: 128
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 8
eval_accumulation_steps: None
learning_rate: 0.0001
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 1
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.0
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: False
fp16: True
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: True
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: True
resume_from_checkpoint: None
hub_model_id: Sami92/claim-matching-multiling-e5-large-instruct-eu-parl-de-v2
hub_strategy: every_save
hub_private_repo: False
hub_always_push: False
gradient_checkpointing: True
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: claim-matching-multiling-e5-large-instruct-eu-parl-de-v2
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
dispatch_batches: None
split_batches: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
batch_sampler: batch_sampler
multi_dataset_batch_sampler: proportional

Training Logs

Epoch	Step	loss	claim-matching-synthetic-binary_max_ap	claim-matching-synthetic-triplet_max_accuracy	fc-de-binary_max_ap	fc-de-retrieval_dot_map@100
0	0	-	0.9801	0.9962	0.6312	0.8854
0.1047	5	0.1165	0.9762	0.9940	0.6142	0.8898
0.2094	10	0.1113	0.9828	0.9966	0.6302	0.8912
0.3141	15	0.1112	0.9828	0.9967	0.6437	0.8923
0.4188	20	0.1015	0.9842	0.9969	0.6626	0.8872
0.5236	25	0.1043	0.9847	0.9970	0.6662	0.8968
0.6283	30	0.1001	0.9847	0.9970	0.6547	0.8970
0.7330	35	0.0949	0.9841	0.9969	0.6282	0.8858
0.8377	40	0.0965	0.9838	0.9967	0.6238	0.8894
0.9424	45	0.0988	0.9842	0.9969	0.6249	0.8919

Framework Versions

Python: 3.10.12
Sentence Transformers: 3.0.1
Transformers: 4.41.2
PyTorch: 2.3.1+cu121
Accelerate: 0.32.0
Datasets: 2.20.0
Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply}, 
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

Sami92
/

claim-matching-multiling-e5-large-instruct-eu-parl-de-v2

SentenceTransformer based on Sami92/multilingual-e5-large-instruct-eu-parl-de-v2

Model Details

Model Description

Model Sources

Full Model Architecture

Usage

Direct Usage (Sentence Transformers)

Evaluation

Metrics

Binary Classification

Triplet

Binary Classification

Information Retrieval

Training Details

Training Dataset

Unnamed Dataset

Evaluation Dataset

Unnamed Dataset

Training Hyperparameters

Non-Default Hyperparameters

All Hyperparameters

Training Logs

Framework Versions

Citation

BibTeX

Sentence Transformers

MultipleNegativesRankingLoss

Finetuned from

Evaluation results

SentenceTransformer based on Sami92/multilingual-e5-large-instruct-eu-parl-de-v2

Model Details

Model Description

Model Sources

Full Model Architecture

Usage

Direct Usage (Sentence Transformers)

Evaluation

Metrics

Binary Classification

Triplet

Binary Classification

Information Retrieval

Training Details

Training Dataset

Unnamed Dataset

Evaluation Dataset

Unnamed Dataset

Training Hyperparameters

Non-Default Hyperparameters

All Hyperparameters

Training Logs

Framework Versions

Citation

BibTeX

Sentence Transformers

MultipleNegativesRankingLoss

Finetuned from Sami92/multilingual-e5-large-instruct-eu-parl-de-v2

Evaluation results

Finetuned from