metadata
language:
- en
- de
license: apache-2.0
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:264810
- loss:MatryoshkaLoss
- loss:MultipleNegativesRankingLoss
base_model: answerdotai/ModernBERT-base
widget:
- source_sentence: >-
Die Einwohner Haarens protestierten, da der Name ihrer Gemeinde bei der
Eröffnung der Strecke von den Wegweisern entfernt und durch "Wünnenberg"
ersetzt wurde.
sentences:
- >-
Die Wirksamkeit von Duolingos Ansatz wurde von einer externen Studie
untersucht, die von der Firma selbst in Auftrag gegeben worden war.
Professoren der City University of New York und der University of South
Carolina haben die Studie durchgeführt und schätzen, dass 34 Stunden
Duolingo den gleichen Fortschritt bei Lesen und Schreiben erzielen wie
ein Erstsemesterkurs an einem US-College, der mehr als geschätzte 130
Stunden dauert. Die Studie untersuchte nicht die Sprechfähigkeiten der
Probanden. Bei einem Vergleich wurde festgestellt, dass Benutzer der
Software Rosetta Stone etwa 55 bis 60 Stunden benötigten, um den
gleichen Stoff zu lernen. Die Studie hat darüber hinaus keine Vergleiche
mit anderen kostenlosen oder günstigen Kursen durchgeführt wie "BBC",
"Book2", oder "Before You Know It".
- >-
Da im selben Jahr im Zuge der Gebietsreform in Nordrhein-Westfalen die
Gemeinde Haaren in die Stadt Wünnenberg eingemeindet wurde, änderte man
kurzfristig vor Eröffnung der Strecke den Namen der Anschlussstelle
"Haaren" in "Wünnenberg", sodass Haaren von den Wegweisern gänzlich
verschwand. Bei der feierlichen Eröffnung der Strecke kam es zu
Protestaktionen seitens Einwohner Haarens, bei denen die Fahrbahn
blockiert wurde, sodass die Eröffnungskolonne nicht wie geplant
stattfinden konnte. Wünnenberger Lokalpolitiker erwirkten schließlich
beim Landesverkehrsministerium in Düsseldorf einen Kompromiss, sodass
die Anschlussstelle, wie das spätere Autobahnkreuz, ab Oktober 1975
"Wünnenberg-Haaren" hieß. Bemerkenswerterweise trägt das Autobahnkreuz
(noch 2021) diesen Namen, obwohl Wünnenberg seit dem Jahr 2000 "Bad
Wünnenberg" heißt und das Voranstellen des Gemeinde- bzw. Städtenamens
vor den Stadtteilnamen bei Orten mit weniger als 100.000 Einwohnern
gegen die nordrhein-westfälischen Wegweisungs-Richtlinien verstößt.
- "Auf Basis der Planungen einer 1957 gegründeten Arbeitsgruppe der Industrie- und Handelskammer Kassel genehmigte das Bundesverkehrsministerium in Bonn den Bau einer 4,7\_km langen Verbindung zwischen der Autobahn Hamburg–Frankfurt und der B\_3. Die einbahnige \"hochwasserfreie Verbindung Kassel\" entstand von 1958 bis 1962 auf der vorbereiteten Trasse der Reichsautobahn. Dabei wurde auch die Fuldatalbrücke Bergshausen mit einer Fahrbahn fertiggestellt. Der Bau dieser Brücke wurde bereits in der NS-Zeit begonnen, bis zur Einstellung des Baus infolge des Zweiten Weltkriegs waren nur einige Arbeiten an der Gründung im Gange gewesen."
- source_sentence: >-
Das Weibchen legt jeden Tag in den Morgenstunden ein Ei und übernachtet
manchmal schon vor der Eiablage auf dem Nest.
sentences:
- >-
Während der Phase der Eiablage legt das Weibchen jeden Tag in den
Morgenstunden ein Ei. Das Weibchen übernachtet auch vor der Eiablage
bisweilen schon auf dem Nest, die Bebrütung wird allerdings erst nach
der Ablage des vorletzten (manchmal des letzten) Eis begonnen, sodass
alle Jungvögel etwa am selben Tag schlüpfen.
- "Das Gelege besteht aus 2 bis maximal 8, zumeist 5–6\_Eiern. Diese sind oval und durchschnittlich 22\_×\_17\_mm groß. Die möglichen Grundfärbungen – weißlich (weiß, gelblich, hellgrau oder beige), grünlich oder rötlich – tragen eine Obersprenkelung, die zwischen verschiedenen Brauntönen variieren kann. Darunter liegt eine blassere Sprenkelung in je nach Farbtyp unterschiedlich getöntem Grau. Auch die Verteilung der Sprenkelung kann recht unterschiedlich sein."
- >-
Die Serienhandlung dreht sich am Anfang neben der Bewahrung von Clarks
Geheimnis hauptsächlich um das Stoppen von gewalttätigen und
verbrecherischen „Meteoritenfreaks“, die durch das Meteoritengestein
(Kryptonit) nach den beiden Meteoritenschauern auf Smallville (Anfang
der ersten und Ende der vierten Staffel) besondere Fähigkeiten erlangt
haben und dadurch korrumpiert oder in den Wahnsinn getrieben werden. Die
entstandenen kuriosen Kräfte erinnern besonders in der Anfangszeit der
Serie oft an "Akte X". Von den Fans werden solche Charaktere in der
Fantasy und der Science-Fiction als "Freak of the Week" (dt. „Monster
der Woche“) bezeichnet, da in der wöchentlich ausgestrahlten Serie in
jeder Folge einer der Freaks auftaucht und besiegt werden muss.
- source_sentence: >-
Reichhart vollzog vertretungsweise Hinrichtungen in verschiedenen
deutschen Städten, darunter Berlin-Plötzensee, wo er unter anderem Hans
und Sophie Scholl hinrichtete.
sentences:
- >-
Reichhart vollzog vertretungsweise auch Hinrichtungen in Köln,
Frankfurt-Preungesheim, Berlin-Plötzensee, Brandenburg-Görden und
Breslau, wo ebenfalls zentrale Hinrichtungsstätten eingerichtet worden
waren. Von 1938 bis 1944 war er auch zuständiger Scharfrichter für die
zentralen Hinrichtungsstätten in Wien und Graz. Insgesamt vollstreckte
er seit 1924 während der Weimarer Republik und der Zeit des
Nationalsozialismus 2.951 Todesurteile mit der Guillotine und 59 mit dem
Galgen. Unter den Verurteilten waren 250 Frauen. Er richtete auch Hans
und Sophie Scholl hin († 22. Februar 1943), die bekanntesten Mitglieder
der Widerstandsgruppe Weiße Rose. Reichhart äußerte später, er habe noch
nie jemanden so tapfer sterben sehen wie Sophie Scholl.
- >-
2012 war Frentzen in Melbourne im Rahmenprogramm der Formel 1
Gaststarter im Porsche Carrera Cup Australien.
- >-
Im Juli 1932 veröffentlichten mehrere niederländische Zeitungen Artikel
über Reichharts andere Tätigkeit und lüfteten damit sein Inkognito.
Seine Geschäfte florierten nicht mehr; im Frühjahr 1933 kehrte er nach
München zurück. Er erwog, seine Scharfrichtertätigkeit aufzugeben.
- source_sentence: >-
Wann empfahl das RKI der Bevölkerung in Deutschland, einfachen Mundschutz
zusätzlich zu anderen Schutzmaßnahmen zu tragen?
sentences:
- >-
Trotz des Festhaltens an ägyptischer Tradition war das Land auch großen
Veränderungen unterworfen. So verlor Theben seine Bedeutung als
kultureller und administrativer Mittelpunkt an Saïs. Weiterhin lässt
sich bei allen Herrschern der 26. Dynastie eine starke Anlehnung an die
griechischen Stadtstaaten feststellen, wenn auch unter Pharao Apries der
Versuch einer Loslösung von den Griechen erkennbar ist, die das Heer
dominierten. Amasis eroberte Zypern im ersten Jahrzehnt seiner
Herrschaft und schloss ein Bündnis mit Kyrene, das sein Vorgänger noch
bekämpft hatte. Dazu heiratete er eine kyrenische Prinzessin. Dieses
Bündnis war noch intakt, als 525 v. Chr. die Perser Ägypten
attackierten.
- >-
Das RKI bewertete das Risiko für die Bevölkerung in Deutschland am 28.
Februar 2020 als „gering bis mäßig“, seit dem 17. März als „hoch“ und
für Risikogruppen seit dem 26. März als „sehr hoch“. Die Gefahr variiere
regional; schwere Krankheitsverläufe seien „mit zunehmendem Alter und
bestehenden Vorerkrankungen“ wahrscheinlicher. Das RKI empfahl zum
Infektionsschutz, genügend Abstand zu anderen Menschen einzuhalten (zum
Eigen- und Fremdschutz), sich regelmäßig die Hände mit Seife zu waschen
und sich nicht ins Gesicht zu fassen, um nicht das Virus auf die
Schleimhäute von Mund, Nase oder Augen zu bringen. Nachdem am 26. März
2020 der Präsident der Bundesärztekammer die Bevölkerung aufgerufen
hatte, zusätzlich einfachen Mundschutz zu tragen, erklärte das RKI am 2.
April, das Tragen von einfachem Mundschutz könne zusätzlich mithelfen,
andere Menschen nicht anzustecken. Es sei aber kein Ersatz für andere
Maßnahmen wie das Abstandhalten.
- >-
Nach dem Tod Kochs am 27. Mai 1910 wurde im Institutsgebäude eine
Grabstätte für ihn eingerichtet. Im Erdgeschoss des Südwestflügels wurde
dafür ein großer Raum gegenüber dem Hörsaal ausgewählt und mit Marmor in
verschiedenen Farbtönen ausgekleidet. In diesem Zimmer war zu Lebzeiten
Kochs die photographische Abteilung untergebracht. Die Adaptierung des
Raums als Mausoleum erfolgte nach Plänen des Architekten Paul Mebes. Am
4. Dezember 1910 wurde in Anwesenheit von Familienangehörigen Kochs die
kupferne Urne mit seiner Asche dort beigesetzt. Die offizielle
Einweihung des Mausoleums fand am 10. Dezember 1910 statt. Das Mausoleum
des Institutsgebäudes enthält an seiner westlichen Schmalseite das von
dem Berliner Künstler Walter Schmarje ausgeführte Epitaph mit dem
Reliefbild Kochs. Darunter befindet sich in einer durch eine weiße
Marmorplatte verschlossenen Nische die Urne mit der Asche Kochs. An der
Ostseite des Raumes sind unter der Überschrift „Robert Koch – Werke und
Wirken“ wesentliche Daten zu den Ergebnissen seiner Forschungsarbeit
dargestellt. Die Bestattung Kochs im Institutsgebäude war möglich, da es
zu der Zeit in Preußen noch kein Gesetz über die Urnenbeisetzung gab.
- source_sentence: >-
Wieso verklagte die Familie von Ritter die behandelnden Ärzte auf 67
Millionen US-Dollar Schadensersatz?
sentences:
- >-
Während Proben zu einer Folge von "Meine wilden Töchter" traten bei
Ritter im September 2003 starke Brustschmerzen auf, und er begab sich in
das nahegelegene "Providence Saint Joseph Medical Center", in dem er am
11. September 2003 im Alter von 54 Jahren – eine Woche vor seinem 55.
Geburtstag – an einer Aortendissektion starb. Seine Familie verklagte
Anfang 2008 die behandelnden Ärzte auf einen Schadensersatz von 67
Millionen US-Dollar. Die Klage wurde im März 2008 abgewiesen.
- >-
Nach der Einstellung der Fernsehserie "Herzbube mit zwei Damen" nach
acht Staffeln im Jahr 1984 machte er mit dem Spin-off "Three’s A Crowd"
weiter, jedoch wurde die Serie nach einer Staffel eingestellt. Weitere
Fernsehrollen hatte er in "Inspektor Hooperman" (1987), die ihm eine
Nominierung sowohl für den Golden Globe als auch für den Emmy
einbrachte, "Küß’ mich, John" (1992), "Ally McBeal" (1997), "Buffy – Im
Bann der Dämonen" (1997), "Clifford the Big Red Dog" (2000), "Scrubs –
Die Anfänger" oder "Meine wilden Töchter" (2002).
- >-
In Taiwan wurde im April 2014 der Bau des Kernkraftwerks Lungmen nach
heftigen Protesten bis zu einem Referendum ausgesetzt.
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
- cosine_accuracy@1
- cosine_accuracy@3
- cosine_accuracy@5
- cosine_accuracy@10
- cosine_precision@1
- cosine_precision@3
- cosine_precision@5
- cosine_precision@10
- cosine_recall@1
- cosine_recall@3
- cosine_recall@5
- cosine_recall@10
- cosine_ndcg@10
- cosine_mrr@10
- cosine_map@100
model-index:
- name: BGE base Financial Matryoshka
results:
- task:
type: information-retrieval
name: Information Retrieval
dataset:
name: dim 768
type: dim_768
metrics:
- type: cosine_accuracy@1
value: 0.5817699836867863
name: Cosine Accuracy@1
- type: cosine_accuracy@3
value: 0.9327759651984774
name: Cosine Accuracy@3
- type: cosine_accuracy@5
value: 0.952215878194671
name: Cosine Accuracy@5
- type: cosine_accuracy@10
value: 0.9681552474170745
name: Cosine Accuracy@10
- type: cosine_precision@1
value: 0.5817699836867863
name: Cosine Precision@1
- type: cosine_precision@3
value: 0.3109253217328258
name: Cosine Precision@3
- type: cosine_precision@5
value: 0.1904431756389342
name: Cosine Precision@5
- type: cosine_precision@10
value: 0.09681552474170746
name: Cosine Precision@10
- type: cosine_recall@1
value: 0.5817699836867863
name: Cosine Recall@1
- type: cosine_recall@3
value: 0.9327759651984774
name: Cosine Recall@3
- type: cosine_recall@5
value: 0.952215878194671
name: Cosine Recall@5
- type: cosine_recall@10
value: 0.9681552474170745
name: Cosine Recall@10
- type: cosine_ndcg@10
value: 0.8140491092898914
name: Cosine Ndcg@10
- type: cosine_mrr@10
value: 0.7608257917087448
name: Cosine Mrr@10
- type: cosine_map@100
value: 0.7617714980276816
name: Cosine Map@100
datasets:
- avemio/GRAG-EMBEDDING-TRIPLES-HESSIAN-AI
BGE base Financial Matryoshka
This is a sentence-transformers model finetuned from answerdotai/ModernBERT-base on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: answerdotai/ModernBERT-base
- Maximum Sequence Length: 8192 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
- Training Dataset:
- json
- Language: en
- License: apache-2.0
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("avemio-digital/ModernBERT_base_triples_embedding")
# Run inference
sentences = [
'Wieso verklagte die Familie von Ritter die behandelnden Ärzte auf 67 Millionen US-Dollar Schadensersatz?',
'Während Proben zu einer Folge von "Meine wilden Töchter" traten bei Ritter im September 2003 starke Brustschmerzen auf, und er begab sich in das nahegelegene "Providence Saint Joseph Medical Center", in dem er am 11. September 2003 im Alter von 54 Jahren – eine Woche vor seinem 55. Geburtstag – an einer Aortendissektion starb. Seine Familie verklagte Anfang 2008 die behandelnden Ärzte auf einen Schadensersatz von 67 Millionen US-Dollar. Die Klage wurde im März 2008 abgewiesen.',
'Nach der Einstellung der Fernsehserie "Herzbube mit zwei Damen" nach acht Staffeln im Jahr 1984 machte er mit dem Spin-off "Three’s A Crowd" weiter, jedoch wurde die Serie nach einer Staffel eingestellt. Weitere Fernsehrollen hatte er in "Inspektor Hooperman" (1987), die ihm eine Nominierung sowohl für den Golden Globe als auch für den Emmy einbrachte, "Küß’ mich, John" (1992), "Ally McBeal" (1997), "Buffy – Im Bann der Dämonen" (1997), "Clifford the Big Red Dog" (2000), "Scrubs – Die Anfänger" oder "Meine wilden Töchter" (2002).',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Information Retrieval
- Dataset:
dim_768
- Evaluated with
InformationRetrievalEvaluator
Metric | Value |
---|---|
cosine_accuracy@1 | 0.5818 |
cosine_accuracy@3 | 0.9328 |
cosine_accuracy@5 | 0.9522 |
cosine_accuracy@10 | 0.9682 |
cosine_precision@1 | 0.5818 |
cosine_precision@3 | 0.3109 |
cosine_precision@5 | 0.1904 |
cosine_precision@10 | 0.0968 |
cosine_recall@1 | 0.5818 |
cosine_recall@3 | 0.9328 |
cosine_recall@5 | 0.9522 |
cosine_recall@10 | 0.9682 |
cosine_ndcg@10 | 0.814 |
cosine_mrr@10 | 0.7608 |
cosine_map@100 | 0.7618 |
Training Details
Training Dataset
json
- Dataset: json
- Size: 264,810 training samples
- Columns:
anchor
,positive
, andnegative
- Approximate statistics based on the first 1000 samples:
anchor positive negative type string string string details - min: 28 tokens
- mean: 54.52 tokens
- max: 307 tokens
- min: 30 tokens
- mean: 184.58 tokens
- max: 1293 tokens
- min: 33 tokens
- mean: 151.69 tokens
- max: 1297 tokens
- Samples:
anchor positive negative Was passiert, als die Haeduer sich gegen Caesar erheben und die Römer die Schlacht um Gergovia führen?
Während er Titus Labienus mit vier Legionen in die Gebiete der Senonen und Parisier verlegt, macht sich Caesar auf nach Gergovia ins Gebiet der Arverner und die Heimat des Vercingetorix. Die Haeduer erheben sich jedoch schon bald gegen Caesar. Während die Schlacht um Gergovia tobt, rücken die Haeduer auf die römischen Truppen zu. Die Römer verlieren an diesem Tag fast siebenhundert Männer, können die Stadt aber nicht einnehmen. Caesar zieht weiter zur Stadt Noviodunum, die von den Haeduern zerstört wurde, während Labienus gegen die Stadt Lutetia zieht. Dort kommt es für Labienus zur siegreichen Schlacht. Die Gallier fliehen. Nach drei Tagen vereinigen sich seine Truppen mit denen Caesars.
Unterdessen hält Vercingetorix gallischen Landtag in Bibracte. Fast alle gallischen Stämme nehmen teil und bestätigen Vercingetorix als Feldherrn. Es kommt zur Schlacht, in deren Verlauf die gallischen Reiter am Fluss Armançon vernichtet werden. Vercingetorix zieht mit seinen Fußtruppen zur Festung Alesia ab. Dort kommt es erneut zum Kampf, den Caesar dank germanischer Hilfstruppen für sich entscheiden kann. Ihm gelingt es, die Gallier einzuschließen und ein ausgeklügeltes Befestigungssystem rund um die Stadt zu errichten. Die eingeschlossenen Gallier warten jetzt dringend auf heranziehende gallische Hilfstruppen, denn ihre Lebensmittelvorräte sind fast aufgebraucht. Die Gallier diskutieren die Möglichkeit, sich zu ergeben. In der flammenden Rede des Arverners Critognatus spricht sich dieser gegen eine Kapitulation aus und überzeugt die Übrigen. Reitergefechte eröffnen die nächsten Kampfhandlungen, bis zum Abend bahnt sich aber keine Entscheidung an. Auch in den kommenden Tagen gelingt...
Wo war die Geburtsstätte der Hip-Hop-Musik und welches Label spielte eine bedeutende Rolle in den 1990er Jahren an der US-Ostküste?
Hip-Hop-Musik entstand in New York City, an der US-Ostküste. Obwohl es inzwischen auch andere wichtige Zentren wie zum Beispiel Philadelphia und Los Angeles gibt, ist die Stadt bis heute das Zentrum der Szene. 1992 begann sich die Musikszene zu verändern. Hip-Hop-Musik wurde immer mehr und schließlich endgültig vom Mainstream übernommen und versprach, kommerziell sehr lukrativ zu werden. Ein wichtiges Label an der Ostküste war zu dieser Zeit Bad Boy Entertainment von Puff Daddy, dort veröffentlichten Craig Mack, Mase und The Notorious B.I.G.
East Coast vs. West Coast ("Ostküste gegen Westküste") ist die gängigste Bezeichnung für den bekanntesten "Beef" – eine Fehde im Hip-Hop. Bei der in der Mitte der 1990er-Jahre stattfindenden Auseinandersetzung handelte es sich um eine Rivalität zwischen den Plattenfirmen Bad Boy Entertainment aus New York City und Death Row Records aus Los Angeles sowie den dazugehörigen Rappern und Produzenten, die gewaltsam eskalierte. In ihrer Folge wurden unter anderem die Rapper Tupac Shakur und Notorious B.I.G. erschossen, wobei die Täter und der jeweilige Zusammenhang mit der Fehde ungeklärt blieben. Benannt ist der Konflikt nach den Szenen des Eastcoast-Hip-Hops und des Westcoast-Hip-Hops.
Die Annäherung zwischen Nord- und Südkorea in Bezug auf die Olympischen Spiele von 2018 beinhaltete gemeinsame Gespräche, die Einigung auf die Teilnahme nordkoreanischer Athleten sowie das gemeinsame Eintreten bei der Eröffnungsfeier und im Frauen-Eishockey.
Am 1. Januar 2018 sagte der nordkoreanische Machthaber Kim Jong-un in seiner Neujahrsansprache, dass die beiden Länder wieder gemeinsame Gespräche führen sollten. Am 9. Januar 2018 trafen sich Regierungsvertreter beider Länder und einigten sich unter anderem auf Athleten aus Nordkorea bei den Wettkämpfen in Südkorea. Am 17. Januar 2018 sagte ein Sprecher des südkoreanischen Vereinigungsministeriums, dass die beiden Länder unter dem Namen „Korea“ bei der Eröffnungsfeier gemeinsam einlaufen und im Frauen-Eishockey gemeinsam antreten würden.
Während der XXIII. Olympischen Winterspiele gab es vier Dopingfälle. So wurde der japanische Shorttracker Kei Saito positiv auf das Diuretikum Acetazolamid, der slowenische Eishockeyspieler Žiga Jeglič positiv auf das Asthmamittel Fenoterol, der russische Curler Alexander Alexandrowitsch Kruschelnizki positiv auf das Herzmittel Meldonium und die russische Bobfahrerin Nadeschda Wiktorowna Sergejewa positiv auf das Herzmittel Trimetazidin getestet. Alle vier Athleten wurden von der Veranstaltung ausgeschlossen. Außerdem wurden dem russischen Curler und seiner Partnerin die zuvor gewonnene Bronzemedaille bei den Mixed Doubles aberkannt und dem norwegischen Team Kristin Skaslien/Magnus Nedregotten zugesprochen.
- Loss:
MatryoshkaLoss
with these parameters:{ "loss": "MultipleNegativesRankingLoss", "matryoshka_dims": [ 768 ], "matryoshka_weights": [ 1 ], "n_dims_per_step": -1 }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: epochgradient_accumulation_steps
: 16learning_rate
: 2e-05num_train_epochs
: 1lr_scheduler_type
: cosinewarmup_ratio
: 0.1bf16
: Truetf32
: Trueload_best_model_at_end
: Trueoptim
: adamw_torch_fusedbatch_sampler
: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: epochprediction_loss_only
: Trueper_device_train_batch_size
: 8per_device_eval_batch_size
: 8per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 16eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 2e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 1max_steps
: -1lr_scheduler_type
: cosinelr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Truefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Truelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Trueignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torch_fusedoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
Training Logs
Click to expand
Epoch | Step | Training Loss | dim_768_cosine_ndcg@10 |
---|---|---|---|
0.0048 | 10 | 39.6025 | - |
0.0097 | 20 | 37.9613 | - |
0.0145 | 30 | 34.1056 | - |
0.0193 | 40 | 27.0495 | - |
0.0242 | 50 | 17.7033 | - |
0.0290 | 60 | 11.5513 | - |
0.0338 | 70 | 8.059 | - |
0.0387 | 80 | 5.7182 | - |
0.0435 | 90 | 4.1844 | - |
0.0483 | 100 | 3.5612 | - |
0.0532 | 110 | 2.7178 | - |
0.0580 | 120 | 2.4993 | - |
0.0628 | 130 | 2.0754 | - |
0.0677 | 140 | 1.9418 | - |
0.0725 | 150 | 1.4704 | - |
0.0773 | 160 | 1.3959 | - |
0.0822 | 170 | 1.4232 | - |
0.0870 | 180 | 1.5266 | - |
0.0918 | 190 | 1.2147 | - |
0.0967 | 200 | 1.3711 | - |
0.1015 | 210 | 1.0753 | - |
0.1063 | 220 | 1.156 | - |
0.1112 | 230 | 1.3619 | - |
0.1160 | 240 | 1.1122 | - |
0.1208 | 250 | 1.0742 | - |
0.1257 | 260 | 1.136 | - |
0.1305 | 270 | 0.858 | - |
0.1353 | 280 | 1.068 | - |
0.1402 | 290 | 0.6717 | - |
0.1450 | 300 | 0.8825 | - |
0.1498 | 310 | 0.7441 | - |
0.1547 | 320 | 0.8464 | - |
0.1595 | 330 | 0.7714 | - |
0.1643 | 340 | 0.8174 | - |
0.1692 | 350 | 0.7368 | - |
0.1740 | 360 | 0.741 | - |
0.1788 | 370 | 0.6764 | - |
0.1837 | 380 | 0.7638 | - |
0.1885 | 390 | 0.7172 | - |
0.1933 | 400 | 0.7113 | - |
0.1982 | 410 | 0.7091 | - |
0.2030 | 420 | 0.5405 | - |
0.2078 | 430 | 0.5891 | - |
0.2127 | 440 | 0.6461 | - |
0.2175 | 450 | 0.781 | - |
0.2223 | 460 | 0.6744 | - |
0.2272 | 470 | 0.5077 | - |
0.2320 | 480 | 0.7061 | - |
0.2368 | 490 | 0.5176 | - |
0.2417 | 500 | 0.4864 | - |
0.2465 | 510 | 0.5373 | - |
0.2513 | 520 | 0.5507 | - |
0.2562 | 530 | 0.6507 | - |
0.2610 | 540 | 0.5708 | - |
0.2658 | 550 | 0.4801 | - |
0.2707 | 560 | 0.3825 | - |
0.2755 | 570 | 0.5892 | - |
0.2803 | 580 | 0.5823 | - |
0.2852 | 590 | 0.51 | - |
0.2900 | 600 | 0.5337 | - |
0.2948 | 610 | 0.5187 | - |
0.2997 | 620 | 0.471 | - |
0.3045 | 630 | 0.5821 | - |
0.3093 | 640 | 0.3278 | - |
0.3142 | 650 | 0.5094 | - |
0.3190 | 660 | 0.4114 | - |
0.3238 | 670 | 0.4379 | - |
0.3287 | 680 | 0.5234 | - |
0.3335 | 690 | 0.5318 | - |
0.3383 | 700 | 0.4787 | - |
0.3432 | 710 | 0.3483 | - |
0.3480 | 720 | 0.465 | - |
0.3528 | 730 | 0.4302 | - |
0.3577 | 740 | 0.3866 | - |
0.3625 | 750 | 0.453 | - |
0.3673 | 760 | 0.3842 | - |
0.3722 | 770 | 0.4903 | - |
0.3770 | 780 | 0.33 | - |
0.3819 | 790 | 0.4736 | - |
0.3867 | 800 | 0.3975 | - |
0.3915 | 810 | 0.3676 | - |
0.3964 | 820 | 0.2913 | - |
0.4012 | 830 | 0.4038 | - |
0.4060 | 840 | 0.4749 | - |
0.4109 | 850 | 0.4103 | - |
0.4157 | 860 | 0.4588 | - |
0.4205 | 870 | 0.3013 | - |
0.4254 | 880 | 0.4855 | - |
0.4302 | 890 | 0.3959 | - |
0.4350 | 900 | 0.3933 | - |
0.4399 | 910 | 0.3598 | - |
0.4447 | 920 | 0.4467 | - |
0.4495 | 930 | 0.4035 | - |
0.4544 | 940 | 0.4247 | - |
0.4592 | 950 | 0.4468 | - |
0.4640 | 960 | 0.3264 | - |
0.4689 | 970 | 0.3445 | - |
0.4737 | 980 | 0.363 | - |
0.4785 | 990 | 0.3709 | - |
0.4834 | 1000 | 0.4586 | - |
0.4882 | 1010 | 0.3139 | - |
0.4930 | 1020 | 0.567 | - |
0.4979 | 1030 | 0.3755 | - |
0.5027 | 1040 | 0.2952 | - |
0.5075 | 1050 | 0.3576 | - |
0.5124 | 1060 | 0.311 | - |
0.5172 | 1070 | 0.381 | - |
0.5220 | 1080 | 0.3554 | - |
0.5269 | 1090 | 0.3065 | - |
0.5317 | 1100 | 0.4087 | - |
0.5365 | 1110 | 0.2437 | - |
0.5414 | 1120 | 0.4124 | - |
0.5462 | 1130 | 0.435 | - |
0.5510 | 1140 | 0.2396 | - |
0.5559 | 1150 | 0.3464 | - |
0.5607 | 1160 | 0.3872 | - |
0.5655 | 1170 | 0.4872 | - |
0.5704 | 1180 | 0.351 | - |
0.5752 | 1190 | 0.2864 | - |
0.5800 | 1200 | 0.4254 | - |
0.5849 | 1210 | 0.3073 | - |
0.5897 | 1220 | 0.3146 | - |
0.5945 | 1230 | 0.268 | - |
0.5994 | 1240 | 0.3106 | - |
0.6042 | 1250 | 0.426 | - |
0.6090 | 1260 | 0.4197 | - |
0.6139 | 1270 | 0.3648 | - |
0.6187 | 1280 | 0.272 | - |
0.6235 | 1290 | 0.3805 | - |
0.6284 | 1300 | 0.3631 | - |
0.6332 | 1310 | 0.265 | - |
0.6380 | 1320 | 0.288 | - |
0.6429 | 1330 | 0.2716 | - |
0.6477 | 1340 | 0.3444 | - |
0.6525 | 1350 | 0.2418 | - |
0.6574 | 1360 | 0.3825 | - |
0.6622 | 1370 | 0.2237 | - |
0.6670 | 1380 | 0.2659 | - |
0.6719 | 1390 | 0.244 | - |
0.6767 | 1400 | 0.2628 | - |
0.6815 | 1410 | 0.3385 | - |
0.6864 | 1420 | 0.3503 | - |
0.6912 | 1430 | 0.3228 | - |
0.6960 | 1440 | 0.3461 | - |
0.7009 | 1450 | 0.3283 | - |
0.7057 | 1460 | 0.3345 | - |
0.7105 | 1470 | 0.429 | - |
0.7154 | 1480 | 0.254 | - |
0.7202 | 1490 | 0.196 | - |
0.7250 | 1500 | 0.3695 | - |
0.7299 | 1510 | 0.2672 | - |
0.7347 | 1520 | 0.3063 | - |
0.7395 | 1530 | 0.3582 | - |
0.7444 | 1540 | 0.3276 | - |
0.7492 | 1550 | 0.3168 | - |
0.7540 | 1560 | 0.3315 | - |
0.7589 | 1570 | 0.3494 | - |
0.7637 | 1580 | 0.3574 | - |
0.7685 | 1590 | 0.2926 | - |
0.7734 | 1600 | 0.3158 | - |
0.7782 | 1610 | 0.2219 | - |
0.7830 | 1620 | 0.2301 | - |
0.7879 | 1630 | 0.3057 | - |
0.7927 | 1640 | 0.2204 | - |
0.7975 | 1650 | 0.2708 | - |
0.8024 | 1660 | 0.2864 | - |
0.8072 | 1670 | 0.3662 | - |
0.8120 | 1680 | 0.2674 | - |
0.8169 | 1690 | 0.284 | - |
0.8217 | 1700 | 0.2438 | - |
0.8265 | 1710 | 0.3772 | - |
0.8314 | 1720 | 0.3122 | - |
0.8362 | 1730 | 0.2474 | - |
0.8410 | 1740 | 0.2981 | - |
0.8459 | 1750 | 0.2331 | - |
0.8507 | 1760 | 0.2858 | - |
0.8555 | 1770 | 0.2362 | - |
0.8604 | 1780 | 0.254 | - |
0.8652 | 1790 | 0.2155 | - |
0.8700 | 1800 | 0.2614 | - |
0.8749 | 1810 | 0.2149 | - |
0.8797 | 1820 | 0.2774 | - |
0.8845 | 1830 | 0.3404 | - |
0.8894 | 1840 | 0.2184 | - |
0.8942 | 1850 | 0.2138 | - |
0.8990 | 1860 | 0.3272 | - |
0.9039 | 1870 | 0.3183 | - |
0.9087 | 1880 | 0.2401 | - |
0.9135 | 1890 | 0.2773 | - |
0.9184 | 1900 | 0.2353 | - |
0.9232 | 1910 | 0.2686 | - |
0.9280 | 1920 | 0.3028 | - |
0.9329 | 1930 | 0.2799 | - |
0.9377 | 1940 | 0.4128 | - |
0.9425 | 1950 | 0.1866 | - |
0.9474 | 1960 | 0.2149 | - |
0.9522 | 1970 | 0.2565 | - |
0.9570 | 1980 | 0.3198 | - |
0.9619 | 1990 | 0.2368 | - |
0.9667 | 2000 | 0.1715 | - |
0.9715 | 2010 | 0.2219 | - |
0.9764 | 2020 | 0.2335 | - |
0.9812 | 2030 | 0.2485 | - |
0.9860 | 2040 | 0.2966 | - |
0.9909 | 2050 | 0.2007 | - |
0.9957 | 2060 | 0.2383 | - |
0.9996 | 2068 | - | 0.8064 |
0.0048 | 10 | 0.2327 | - |
0.0097 | 20 | 0.2529 | - |
0.0145 | 30 | 0.2527 | - |
0.0193 | 40 | 0.2244 | - |
0.0242 | 50 | 0.4014 | - |
0.0290 | 60 | 0.3844 | - |
0.0338 | 70 | 0.2978 | - |
0.0387 | 80 | 0.3432 | - |
0.0435 | 90 | 0.184 | - |
0.0483 | 100 | 0.3491 | - |
0.0532 | 110 | 0.2435 | - |
0.0580 | 120 | 0.2032 | - |
0.0628 | 130 | 0.257 | - |
0.0677 | 140 | 0.3178 | - |
0.0725 | 150 | 0.2575 | - |
0.0773 | 160 | 0.2099 | - |
0.0822 | 170 | 0.232 | - |
0.0870 | 180 | 0.2196 | - |
0.0918 | 190 | 0.2303 | - |
0.0967 | 200 | 0.271 | - |
0.1015 | 210 | 0.1831 | - |
0.1063 | 220 | 0.1815 | - |
0.1112 | 230 | 0.2543 | - |
0.1160 | 240 | 0.2217 | - |
0.1208 | 250 | 0.2435 | - |
0.1257 | 260 | 0.247 | - |
0.1305 | 270 | 0.2078 | - |
0.1353 | 280 | 0.1966 | - |
0.1402 | 290 | 0.13 | - |
0.1450 | 300 | 0.1588 | - |
0.1498 | 310 | 0.1402 | - |
0.1547 | 320 | 0.1944 | - |
0.1595 | 330 | 0.1297 | - |
0.1643 | 340 | 0.2317 | - |
0.1692 | 350 | 0.137 | - |
0.1740 | 360 | 0.1501 | - |
0.1788 | 370 | 0.1475 | - |
0.1837 | 380 | 0.1325 | - |
0.1885 | 390 | 0.1457 | - |
0.1933 | 400 | 0.1415 | - |
0.1982 | 410 | 0.1256 | - |
0.2030 | 420 | 0.1201 | - |
0.2078 | 430 | 0.0994 | - |
0.2127 | 440 | 0.1208 | - |
0.2175 | 450 | 0.158 | - |
0.2223 | 460 | 0.1329 | - |
0.2272 | 470 | 0.1148 | - |
0.2320 | 480 | 0.1643 | - |
0.2368 | 490 | 0.1067 | - |
0.2417 | 500 | 0.089 | - |
0.2465 | 510 | 0.1037 | - |
0.2513 | 520 | 0.1159 | - |
0.2562 | 530 | 0.102 | - |
0.2610 | 540 | 0.1189 | - |
0.2658 | 550 | 0.0932 | - |
0.2707 | 560 | 0.0655 | - |
0.2755 | 570 | 0.1196 | - |
0.2803 | 580 | 0.1225 | - |
0.2852 | 590 | 0.1129 | - |
0.2900 | 600 | 0.098 | - |
0.2948 | 610 | 0.1093 | - |
0.2997 | 620 | 0.094 | - |
0.3045 | 630 | 0.1147 | - |
0.3093 | 640 | 0.0661 | - |
0.3142 | 650 | 0.1133 | - |
0.3190 | 660 | 0.0813 | - |
0.3238 | 670 | 0.0922 | - |
0.3287 | 680 | 0.1496 | - |
0.3335 | 690 | 0.113 | - |
0.3383 | 700 | 0.1132 | - |
0.3432 | 710 | 0.0712 | - |
0.3480 | 720 | 0.1276 | - |
0.3528 | 730 | 0.1022 | - |
0.3577 | 740 | 0.0779 | - |
0.3625 | 750 | 0.1139 | - |
0.3673 | 760 | 0.0753 | - |
0.3722 | 770 | 0.1194 | - |
0.3770 | 780 | 0.0701 | - |
0.3819 | 790 | 0.1178 | - |
0.3867 | 800 | 0.0992 | - |
0.3915 | 810 | 0.0906 | - |
0.3964 | 820 | 0.0699 | - |
0.4012 | 830 | 0.1325 | - |
0.4060 | 840 | 0.1236 | - |
0.4109 | 850 | 0.1026 | - |
0.4157 | 860 | 0.1389 | - |
0.4205 | 870 | 0.087 | - |
0.4254 | 880 | 0.134 | - |
0.4302 | 890 | 0.1171 | - |
0.4350 | 900 | 0.1081 | - |
0.4399 | 910 | 0.1205 | - |
0.4447 | 920 | 0.0975 | - |
0.4495 | 930 | 0.1331 | - |
0.4544 | 940 | 0.1272 | - |
0.4592 | 950 | 0.1445 | - |
0.4640 | 960 | 0.0818 | - |
0.4689 | 970 | 0.0996 | - |
0.4737 | 980 | 0.1063 | - |
0.4785 | 990 | 0.1124 | - |
0.4834 | 1000 | 0.168 | - |
0.4882 | 1010 | 0.0961 | - |
0.4930 | 1020 | 0.1498 | - |
0.4979 | 1030 | 0.1202 | - |
0.5027 | 1040 | 0.1063 | - |
0.5075 | 1050 | 0.1772 | - |
0.5124 | 1060 | 0.1073 | - |
0.5172 | 1070 | 0.1248 | - |
0.5220 | 1080 | 0.1265 | - |
0.5269 | 1090 | 0.1239 | - |
0.5317 | 1100 | 0.1154 | - |
0.5365 | 1110 | 0.0984 | - |
0.5414 | 1120 | 0.1572 | - |
0.5462 | 1130 | 0.149 | - |
0.5510 | 1140 | 0.0775 | - |
0.5559 | 1150 | 0.1215 | - |
0.5607 | 1160 | 0.1423 | - |
0.5655 | 1170 | 0.2041 | - |
0.5704 | 1180 | 0.1489 | - |
0.5752 | 1190 | 0.1116 | - |
0.5800 | 1200 | 0.1711 | - |
0.5849 | 1210 | 0.1188 | - |
0.5897 | 1220 | 0.1028 | - |
0.5945 | 1230 | 0.0867 | - |
0.5994 | 1240 | 0.1198 | - |
0.6042 | 1250 | 0.1741 | - |
0.6090 | 1260 | 0.1689 | - |
0.6139 | 1270 | 0.1622 | - |
0.6187 | 1280 | 0.1141 | - |
0.6235 | 1290 | 0.161 | - |
0.6284 | 1300 | 0.1321 | - |
0.6332 | 1310 | 0.092 | - |
0.6380 | 1320 | 0.1303 | - |
0.6429 | 1330 | 0.1126 | - |
0.6477 | 1340 | 0.1341 | - |
0.6525 | 1350 | 0.0947 | - |
0.6574 | 1360 | 0.2087 | - |
0.6622 | 1370 | 0.1157 | - |
0.6670 | 1380 | 0.1085 | - |
0.6719 | 1390 | 0.0938 | - |
0.6767 | 1400 | 0.125 | - |
0.6815 | 1410 | 0.163 | - |
0.6864 | 1420 | 0.1575 | - |
0.6912 | 1430 | 0.1585 | - |
0.6960 | 1440 | 0.1875 | - |
0.7009 | 1450 | 0.1624 | - |
0.7057 | 1460 | 0.1535 | - |
0.7105 | 1470 | 0.2075 | - |
0.7154 | 1480 | 0.1321 | - |
0.7202 | 1490 | 0.0914 | - |
0.7250 | 1500 | 0.1906 | - |
0.7299 | 1510 | 0.1301 | - |
0.7347 | 1520 | 0.1832 | - |
0.7395 | 1530 | 0.1919 | - |
0.7444 | 1540 | 0.1693 | - |
0.7492 | 1550 | 0.193 | - |
0.7540 | 1560 | 0.1707 | - |
0.7589 | 1570 | 0.1851 | - |
0.7637 | 1580 | 0.1886 | - |
0.7685 | 1590 | 0.1727 | - |
0.7734 | 1600 | 0.1654 | - |
0.7782 | 1610 | 0.1279 | - |
0.7830 | 1620 | 0.1506 | - |
0.7879 | 1630 | 0.1939 | - |
0.7927 | 1640 | 0.148 | - |
0.7975 | 1650 | 0.1656 | - |
0.8024 | 1660 | 0.1648 | - |
0.8072 | 1670 | 0.2508 | - |
0.8120 | 1680 | 0.1731 | - |
0.8169 | 1690 | 0.1835 | - |
0.8217 | 1700 | 0.1428 | - |
0.8265 | 1710 | 0.231 | - |
0.8314 | 1720 | 0.1976 | - |
0.8362 | 1730 | 0.1659 | - |
0.8410 | 1740 | 0.2064 | - |
0.8459 | 1750 | 0.1229 | - |
0.8507 | 1760 | 0.1709 | - |
0.8555 | 1770 | 0.1506 | - |
0.8604 | 1780 | 0.173 | - |
0.8652 | 1790 | 0.1587 | - |
0.8700 | 1800 | 0.1733 | - |
0.8749 | 1810 | 0.1407 | - |
0.8797 | 1820 | 0.187 | - |
0.8845 | 1830 | 0.2365 | - |
0.8894 | 1840 | 0.1434 | - |
0.8942 | 1850 | 0.1547 | - |
0.8990 | 1860 | 0.2597 | - |
0.9039 | 1870 | 0.2158 | - |
0.9087 | 1880 | 0.1674 | - |
0.9135 | 1890 | 0.196 | - |
0.9184 | 1900 | 0.2011 | - |
0.9232 | 1910 | 0.2137 | - |
0.9280 | 1920 | 0.2141 | - |
0.9329 | 1930 | 0.2114 | - |
0.9377 | 1940 | 0.2817 | - |
0.9425 | 1950 | 0.1285 | - |
0.9474 | 1960 | 0.1401 | - |
0.9522 | 1970 | 0.2044 | - |
0.9570 | 1980 | 0.2434 | - |
0.9619 | 1990 | 0.1693 | - |
0.9667 | 2000 | 0.1225 | - |
0.9715 | 2010 | 0.1716 | - |
0.9764 | 2020 | 0.1703 | - |
0.9812 | 2030 | 0.1686 | - |
0.9860 | 2040 | 0.242 | - |
0.9909 | 2050 | 0.1553 | - |
0.9957 | 2060 | 0.1721 | - |
0.9996 | 2068 | - | 0.8140 |
Framework Versions
- Python: 3.11.11
- Sentence Transformers: 3.3.1
- Transformers: 4.48.1
- PyTorch: 2.5.1+cu124
- Accelerate: 1.2.1
- Datasets: 2.19.1
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MatryoshkaLoss
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}