metadata
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:2232
- loss:MultipleNegativesRankingLoss
base_model: chkla/parlbert-german-v1
widget:
- source_sentence: >-
Ihr Koalitionsvertrag ist voller solcher Leistungsversprechen ohne
Preisschild. Es reicht in der Rentenpolitik eben nicht aus, die
Beitragsentwicklung allein in dieser Wahlperiode im Blick zu haben. So
bleibt Verlässlichkeit im Generationenvertrag auf der Strecke. Zudem fällt
auf: Es fehlt bei Ihnen ein klares Bekenntnis zur Stabilität der
Sozialversicherungsbeiträge. Steigende Beiträge aber gefährden
Arbeitsplätze und belasten gerade die Bezieher kleinerer Einkommen. Damit
möchte ich auch eine Bemerkung zum Thema Mindestlohn machen: Auch wir –
das sei klar hier festgestellt – haben nichts gegen einen spürbaren
Anstieg des Mindestlohns. Ja, es gibt gute Gründe dafür.
sentences:
- Koalitionsvertrag Leistungsversprechen Preisschild
- Asylrecht Außengrenzen Schlupflöcher
- Rentenpolitik Beitragsentwicklung Generationenvertrag
- source_sentence: >-
Nur um mal eine Zahl zu nennen: Die Ukraine braucht an einem Tag so viel
Munition, wie in Deutschland in sechs Monaten hergestellt werden könnte.
Die Firmen, die Fahrzeuge liefern könnten, die Firmen, die Munition
produzieren könnten, melden sich mittlerweile reihenweise bei uns und
unseren Wahlkreisabgeordneten und beklagen sich darüber, dass sie keine
Aufträge bekommen, dass die Zahlungsziele nicht eingehalten werden und
damit keine Planungssicherheit seitens der Bundesregierung besteht. Herr
Bundeskanzler, so kann man auch mit den Bündnisverpflichtungen nicht
umgehen.
sentences:
- Ukraine Munitionsbedarf Deutschland
- Munitionsbestellung Bundesregierung
- R+V Studie Spaltung
- source_sentence: >-
Eine solche Festlegung hätte massive Auswirkungen auf die
Versorgungssicherheit in Deutschland mit sich gebracht. Auch bei der
kleinen Wasserkraft ist die Ampel auf unsere Position eingeschwenkt. Diese
soll zukünftig wie alle erneuerbaren Energien im überragenden öffentlichen
Interesse sein und wie bisher gefördert werden. Leider fehlt uns jedoch
die Einbeziehung der Vor-Ort Stromnetze unter 110 kV in das überragende
öffentliche Interesse. So wird es weiterhin Realität bleiben, dass der so
wichtige grüne Strom zwar produziert wird, aber das Netz bzw. die
Verteilung des Stroms hinterherhinken. Mehr Mut zur Veränderung hätten wir
uns auch bei den kleinen Solaranlagen auf Dächern gewünscht.
sentences:
- Vor-Ort Stromnetze 110 kV
- Austausch im Bundestag
- kleine Wasserkraft öffentliche Interesse
- source_sentence: >-
Das ist ein Punkt, den der Bundesrechnungshof angesprochen und gerügt hat
und den auch ich schon in den letzten Debatten angesprochen habe. Darüber
müssen wir in den kommenden Wochen noch mal deutlich sprechen. Seit 2022
werben Sie für dieses Programm. Bisher kennen wir Strategiepapiere in
Hochglanzform mit Problembeschreibungen. Konkrete Förderrichtlinien oder
in Förderrichtlinien gegossene Lösungsansätze halten sich aber in Grenzen,
auch wenn jetzt das eine oder andere Programm aufgelegt worden ist. Frau
Ministerin, Sie kündigen viel an, bewegen sich aber dabei im
Schneckentempo.
sentences:
- Ministerin Kritik Schneckentempo
- KFOR Mission Kosovo Bedeutung
- Förderrichtlinien fehlen Kritik
- source_sentence: >-
Das ist keine vernünftige Haushaltspolitik. Gerade im Bereich Luft- und
Raumfahrt finden derzeit unglaublich viele Innovationen für eine
klimaneutrale Mobilität statt. So entwickelt Airbus Flugzeuge mit
Wasserstoffantrieb, und in Leipzig wird mit der Neuentwicklung der Dornier
328 ein Regionalflugzeug gebaut, welches mit klimaneutralen E-Fuels
betrieben werden kann.
sentences:
- AfD Aufarbeitung Spaltung
- Airbus Wasserstoffantrieb Flugzeuge
- Ukrainekrieg Luftfahrt
datasets:
- davhin/parl-synthetic-queries-v3
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
- cosine_accuracy
model-index:
- name: SentenceTransformer based on chkla/parlbert-german-v1
results:
- task:
type: triplet
name: Triplet
dataset:
name: parlsearch test before training
type: parlsearch-test-before-training
metrics:
- type: cosine_accuracy
value: 0.5465949773788452
name: Cosine Accuracy
- task:
type: triplet
name: Triplet
dataset:
name: parlsearch test after training
type: parlsearch-test-after-training
metrics:
- type: cosine_accuracy
value: 0.5465949773788452
name: Cosine Accuracy
SentenceTransformer based on chkla/parlbert-german-v1
This is a sentence-transformers model finetuned from chkla/parlbert-german-v1 on the parl-synthetic-queries-v3 dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: chkla/parlbert-german-v1
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
- Training Dataset:
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("davhin/parlbert-german-search-v3")
# Run inference
sentences = [
'Das ist keine vernünftige Haushaltspolitik. Gerade im Bereich Luft- und Raumfahrt finden derzeit unglaublich viele Innovationen für eine klimaneutrale Mobilität statt. So entwickelt Airbus Flugzeuge mit Wasserstoffantrieb, und in Leipzig wird mit der Neuentwicklung der Dornier 328 ein Regionalflugzeug gebaut, welches mit klimaneutralen E-Fuels betrieben werden kann.',
'Airbus Wasserstoffantrieb Flugzeuge',
'Ukrainekrieg Luftfahrt',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Triplet
- Datasets:
parlsearch-test-before-training
andparlsearch-test-after-training
- Evaluated with
TripletEvaluator
Metric | parlsearch-test-before-training | parlsearch-test-after-training |
---|---|---|
cosine_accuracy | 0.5466 | 0.5466 |
Training Details
Training Dataset
parl-synthetic-queries-v3
- Dataset: parl-synthetic-queries-v3 at afdb8d3
- Size: 2,232 training samples
- Columns:
anchor
,positive
, andnegative
- Approximate statistics based on the first 1000 samples:
anchor positive negative type string string string details - min: 33 tokens
- mean: 114.11 tokens
- max: 130 tokens
- min: 4 tokens
- mean: 7.3 tokens
- max: 15 tokens
- min: 4 tokens
- mean: 7.23 tokens
- max: 16 tokens
- Samples:
anchor positive negative Aber Deutschland – und übrigens auch der Rest Europas – muss die Realität anerkennen, dass es günstigen Strom zu unterschiedlichen Tageszeiten gibt. Darauf muss der Markt reagieren – der Markt, den Herr Linnemann und die Union eigentlich so hoch schätzen. Dass wir dessen Signale wirken lassen wollen, was dann zu günstigen Preisen führt, dürfte ich der Union eigentlich nicht erklären müssen. Das ist traurig. Es ist traurig, dass Sie diese neuen Konzepte nicht annehmen. Gleichzeitig hoffe ich, dass in der Regierung bei dem Konzept, den Markt wirken zu lassen, noch mehr passiert.
günstiger Strom Tageszeiten Deutschland
Lastprofil Unternehmen Entlastung
Wenn Sie die Menschen vor Ort fragen, sagen alle: Diese Planungen sind vollkommen überdimensioniert.– Dazu muss man ins Verhältnis setzen, dass wir bundesweit eigentlich 8 000 Brücken ersetzen müssen. Bei uns in Leverkusen haben wir schon eine neue Brücke, aber jetzt bekommen wir noch eine zweite. Wir können es uns schlichtweg nicht mehr leisten, den Bundesverkehrswegeplan als Wünsch-dir-was-Liste anzusehen, in der sich jeder Abgeordnete mit einer eigenen Autobahnausfahrt verewigt.
Autobahnausfahrt Abgeordnete
Bundesverkehrswegeplan Kritik
Es geht nicht nur um die Bürgerinnen und Bürger, die bei einer Langen Nacht der Wissenschaften unterwegs sind, die sich vielleicht an einem Citizen-Science-Projekt beteiligen, sondern es geht auch darum, dass wissenschaftliche Erkenntnisse in der Politik verwendet werden, dass sie auch dort reflektiert werden, dass sie auch dort verstanden werden.
wissenschaftliche Erkenntnisse Politik
Citizen Science Projekte
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Evaluation Dataset
parl-synthetic-queries-v3
- Dataset: parl-synthetic-queries-v3 at afdb8d3
- Size: 2,232 evaluation samples
- Columns:
anchor
,positive
, andnegative
- Approximate statistics based on the first 1000 samples:
anchor positive negative type string string string details - min: 56 tokens
- mean: 113.8 tokens
- max: 130 tokens
- min: 4 tokens
- mean: 7.23 tokens
- max: 16 tokens
- min: 4 tokens
- mean: 7.21 tokens
- max: 13 tokens
- Samples:
anchor positive negative Es wurde ausgerechnet, unter anderem vom Bundesgerichtshof, dass mit diesem Verfahren beim Dieselabgasskandal circa zwei Jahre Zeit bis zu einer höchstrichterlichen Entscheidung hätten eingespart werden können. Das wäre für die Richterinnen und Richter wichtig gewesen. Beim nächsten Massenverfahren wird es möglich sein, Zeit einzusparen. Von daher ist es gut, dass wir die Justiz mit diesem Gesetz entlasten. Weil die Länge und die Dauer der Verhandlungen angesprochen worden sind, lassen Sie mich noch ein paar Sätze zu anderen möglichen Verfahrensformen sagen, mit denen man Massenverfahren besser bewältigen kann.
Massenverfahren Justiz Entlastung
Dieselabgasskandal Verfahrensdauer
Welchen Sinn macht die Fortschreibung einer Blockade und eines Selbstbetruges? Keinen Sinn. Deshalb ist dieser Moment durchaus ein historischer. Deshalb bin ich ausgesprochen dankbar für den Gesetzentwurf der Ministerin. Wir als Koalition werden diesen Gesetzentwurf durchbringen und damit endlich ein Gesetz des gesunden Menschenverstandes durchsetzen; denn darum geht es hier. Die Menschen, um die es geht, haben keine großen migrationspolitischen Fragen oder Open Borders oder sonst etwas auf der Agenda. Ihre Agenda ist ihr eigenes Leben. Sie wollen hier einfach vernünftig leben können; denn sie sind Mitglieder dieser Gesellschaft. Aber bisher dürfen sie es nicht sein.
Gesetz des gesunden Menschenverstandes
Abschaffung EEG-Umlage
Wir bieten ein Framework an, auf dem die Wirtschaft aufsetzen kann und mit dem sie zuarbeiten kann, wodurch Innovationen, die die Wirtschaft bereitstellt, auch der Verwaltung zugutekommen können. Und andersrum: Die Verwaltung ist ein Treiber von Innovationen. Denn der öffentliche Dienst ist der größte Auftraggeber in der IT-Branche. Wenn wir da mehr kooperieren, haben beide Seiten was davon. Das bringt uns Wohlstand. Das bringt uns einfach eine breitere Perspektive. Deswegen ist dieses Gesetz auch ein Wirtschaftsförderungsgesetz. Es wurde sehr viel über das alte OZG 1.0 gelästert.
OZG 1.0 Kritik
Innovationen Verwaltung Wirtschaft
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 16per_device_eval_batch_size
: 16learning_rate
: 2e-05num_train_epochs
: 1warmup_ratio
: 0.1use_mps_device
: Truebf16
: Truebatch_sampler
: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 16per_device_eval_batch_size
: 16per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 2e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 1max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Trueseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Truefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | Training Loss | Validation Loss | parlsearch-test-before-training_cosine_accuracy | parlsearch-test-after-training_cosine_accuracy |
---|---|---|---|---|---|
-1 | -1 | - | - | 0.5269 | - |
0.9524 | 100 | 1.7259 | 1.3180 | 0.5466 | - |
-1 | -1 | - | - | - | 0.5466 |
Framework Versions
- Python: 3.12.8
- Sentence Transformers: 3.4.0
- Transformers: 4.48.1
- PyTorch: 2.5.1
- Accelerate: 1.3.0
- Datasets: 3.2.0
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}