avemio-digital's picture
Update README.md
60b68ae verified
|
raw
history blame
60.4 kB
metadata
language:
  - en
  - de
license: apache-2.0
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:264810
  - loss:MatryoshkaLoss
  - loss:MultipleNegativesRankingLoss
base_model: answerdotai/ModernBERT-base
widget:
  - source_sentence: >-
      Die Einwohner Haarens protestierten, da der Name ihrer Gemeinde bei der
      Eröffnung der Strecke von den Wegweisern entfernt und durch "Wünnenberg"
      ersetzt wurde.
    sentences:
      - >-
        Die Wirksamkeit von Duolingos Ansatz wurde von einer externen Studie
        untersucht, die von der Firma selbst in Auftrag gegeben worden war.
        Professoren der City University of New York und der University of South
        Carolina haben die Studie durchgeführt und schätzen, dass 34 Stunden
        Duolingo den gleichen Fortschritt bei Lesen und Schreiben erzielen wie
        ein Erstsemesterkurs an einem US-College, der mehr als geschätzte 130
        Stunden dauert. Die Studie untersuchte nicht die Sprechfähigkeiten der
        Probanden. Bei einem Vergleich wurde festgestellt, dass Benutzer der
        Software Rosetta Stone etwa 55 bis 60 Stunden benötigten, um den
        gleichen Stoff zu lernen. Die Studie hat darüber hinaus keine Vergleiche
        mit anderen kostenlosen oder günstigen Kursen durchgeführt wie "BBC",
        "Book2", oder "Before You Know It".
      - >-
        Da im selben Jahr im Zuge der Gebietsreform in Nordrhein-Westfalen die
        Gemeinde Haaren in die Stadt Wünnenberg eingemeindet wurde, änderte man
        kurzfristig vor Eröffnung der Strecke den Namen der Anschlussstelle
        "Haaren" in "Wünnenberg", sodass Haaren von den Wegweisern gänzlich
        verschwand. Bei der feierlichen Eröffnung der Strecke kam es zu
        Protestaktionen seitens Einwohner Haarens, bei denen die Fahrbahn
        blockiert wurde, sodass die Eröffnungskolonne nicht wie geplant
        stattfinden konnte. Wünnenberger Lokalpolitiker erwirkten schließlich
        beim Landesverkehrsministerium in Düsseldorf einen Kompromiss, sodass
        die Anschlussstelle, wie das spätere Autobahnkreuz, ab Oktober 1975
        "Wünnenberg-Haaren" hieß. Bemerkenswerterweise trägt das Autobahnkreuz
        (noch 2021) diesen Namen, obwohl Wünnenberg seit dem Jahr 2000 "Bad
        Wünnenberg" heißt und das Voranstellen des Gemeinde- bzw. Städtenamens
        vor den Stadtteilnamen bei Orten mit weniger als 100.000 Einwohnern
        gegen die nordrhein-westfälischen Wegweisungs-Richtlinien verstößt.
      - "Auf Basis der Planungen einer 1957 gegründeten Arbeitsgruppe der Industrie- und Handelskammer Kassel genehmigte das Bundesverkehrsministerium in Bonn den Bau einer 4,7\_km langen Verbindung zwischen der Autobahn Hamburg–Frankfurt und der B\_3. Die einbahnige \"hochwasserfreie Verbindung Kassel\" entstand von 1958 bis 1962 auf der vorbereiteten Trasse der Reichsautobahn. Dabei wurde auch die Fuldatalbrücke Bergshausen mit einer Fahrbahn fertiggestellt. Der Bau dieser Brücke wurde bereits in der NS-Zeit begonnen, bis zur Einstellung des Baus infolge des Zweiten Weltkriegs waren nur einige Arbeiten an der Gründung im Gange gewesen."
  - source_sentence: >-
      Das Weibchen legt jeden Tag in den Morgenstunden ein Ei und übernachtet
      manchmal schon vor der Eiablage auf dem Nest.
    sentences:
      - >-
        Während der Phase der Eiablage legt das Weibchen jeden Tag in den
        Morgenstunden ein Ei. Das Weibchen übernachtet auch vor der Eiablage
        bisweilen schon auf dem Nest, die Bebrütung wird allerdings erst nach
        der Ablage des vorletzten (manchmal des letzten) Eis begonnen, sodass
        alle Jungvögel etwa am selben Tag schlüpfen.
      - "Das Gelege besteht aus 2 bis maximal 8, zumeist 5–6\_Eiern. Diese sind oval und durchschnittlich 22\_×\_17\_mm groß. Die möglichen Grundfärbungen – weißlich (weiß, gelblich, hellgrau oder beige), grünlich oder rötlich – tragen eine Obersprenkelung, die zwischen verschiedenen Brauntönen variieren kann. Darunter liegt eine blassere Sprenkelung in je nach Farbtyp unterschiedlich getöntem Grau. Auch die Verteilung der Sprenkelung kann recht unterschiedlich sein."
      - >-
        Die Serienhandlung dreht sich am Anfang neben der Bewahrung von Clarks
        Geheimnis hauptsächlich um das Stoppen von gewalttätigen und
        verbrecherischen „Meteoritenfreaks“, die durch das Meteoritengestein
        (Kryptonit) nach den beiden Meteoritenschauern auf Smallville (Anfang
        der ersten und Ende der vierten Staffel) besondere Fähigkeiten erlangt
        haben und dadurch korrumpiert oder in den Wahnsinn getrieben werden. Die
        entstandenen kuriosen Kräfte erinnern besonders in der Anfangszeit der
        Serie oft an "Akte X". Von den Fans werden solche Charaktere in der
        Fantasy und der Science-Fiction als "Freak of the Week" (dt. „Monster
        der Woche“) bezeichnet, da in der wöchentlich ausgestrahlten Serie in
        jeder Folge einer der Freaks auftaucht und besiegt werden muss.
  - source_sentence: >-
      Reichhart vollzog vertretungsweise Hinrichtungen in verschiedenen
      deutschen Städten, darunter Berlin-Plötzensee, wo er unter anderem Hans
      und Sophie Scholl hinrichtete.
    sentences:
      - >-
        Reichhart vollzog vertretungsweise auch Hinrichtungen in Köln,
        Frankfurt-Preungesheim, Berlin-Plötzensee, Brandenburg-Görden und
        Breslau, wo ebenfalls zentrale Hinrichtungsstätten eingerichtet worden
        waren. Von 1938 bis 1944 war er auch zuständiger Scharfrichter für die
        zentralen Hinrichtungsstätten in Wien und Graz. Insgesamt vollstreckte
        er seit 1924 während der Weimarer Republik und der Zeit des
        Nationalsozialismus 2.951 Todesurteile mit der Guillotine und 59 mit dem
        Galgen. Unter den Verurteilten waren 250 Frauen. Er richtete auch Hans
        und Sophie Scholl hin († 22. Februar 1943), die bekanntesten Mitglieder
        der Widerstandsgruppe Weiße Rose. Reichhart äußerte später, er habe noch
        nie jemanden so tapfer sterben sehen wie Sophie Scholl.
      - >-
        2012 war Frentzen in Melbourne im Rahmenprogramm der Formel 1
        Gaststarter im Porsche Carrera Cup Australien.
      - >-
        Im Juli 1932 veröffentlichten mehrere niederländische Zeitungen Artikel
        über Reichharts andere Tätigkeit und lüfteten damit sein Inkognito.
        Seine Geschäfte florierten nicht mehr; im Frühjahr 1933 kehrte er nach
        München zurück. Er erwog, seine Scharfrichtertätigkeit aufzugeben.
  - source_sentence: >-
      Wann empfahl das RKI der Bevölkerung in Deutschland, einfachen Mundschutz
      zusätzlich zu anderen Schutzmaßnahmen zu tragen?
    sentences:
      - >-
        Trotz des Festhaltens an ägyptischer Tradition war das Land auch großen
        Veränderungen unterworfen. So verlor Theben seine Bedeutung als
        kultureller und administrativer Mittelpunkt an Saïs. Weiterhin lässt
        sich bei allen Herrschern der 26. Dynastie eine starke Anlehnung an die
        griechischen Stadtstaaten feststellen, wenn auch unter Pharao Apries der
        Versuch einer Loslösung von den Griechen erkennbar ist, die das Heer
        dominierten. Amasis eroberte Zypern im ersten Jahrzehnt seiner
        Herrschaft und schloss ein Bündnis mit Kyrene, das sein Vorgänger noch
        bekämpft hatte. Dazu heiratete er eine kyrenische Prinzessin. Dieses
        Bündnis war noch intakt, als 525 v. Chr. die Perser Ägypten
        attackierten.
      - >-
        Das RKI bewertete das Risiko für die Bevölkerung in Deutschland am 28.
        Februar 2020 als „gering bis mäßig“, seit dem 17. März als „hoch“ und
        für Risikogruppen seit dem 26. März als „sehr hoch“. Die Gefahr variiere
        regional; schwere Krankheitsverläufe seien „mit zunehmendem Alter und
        bestehenden Vorerkrankungen“ wahrscheinlicher. Das RKI empfahl zum
        Infektionsschutz, genügend Abstand zu anderen Menschen einzuhalten (zum
        Eigen- und Fremdschutz), sich regelmäßig die Hände mit Seife zu waschen
        und sich nicht ins Gesicht zu fassen, um nicht das Virus auf die
        Schleimhäute von Mund, Nase oder Augen zu bringen. Nachdem am 26. März
        2020 der Präsident der Bundesärztekammer die Bevölkerung aufgerufen
        hatte, zusätzlich einfachen Mundschutz zu tragen, erklärte das RKI am 2.
        April, das Tragen von einfachem Mundschutz könne zusätzlich mithelfen,
        andere Menschen nicht anzustecken. Es sei aber kein Ersatz für andere
        Maßnahmen wie das Abstandhalten.
      - >-
        Nach dem Tod Kochs am 27. Mai 1910 wurde im Institutsgebäude eine
        Grabstätte für ihn eingerichtet. Im Erdgeschoss des Südwestflügels wurde
        dafür ein großer Raum gegenüber dem Hörsaal ausgewählt und mit Marmor in
        verschiedenen Farbtönen ausgekleidet. In diesem Zimmer war zu Lebzeiten
        Kochs die photographische Abteilung untergebracht. Die Adaptierung des
        Raums als Mausoleum erfolgte nach Plänen des Architekten Paul Mebes. Am
        4. Dezember 1910 wurde in Anwesenheit von Familienangehörigen Kochs die
        kupferne Urne mit seiner Asche dort beigesetzt. Die offizielle
        Einweihung des Mausoleums fand am 10. Dezember 1910 statt. Das Mausoleum
        des Institutsgebäudes enthält an seiner westlichen Schmalseite das von
        dem Berliner Künstler Walter Schmarje ausgeführte Epitaph mit dem
        Reliefbild Kochs. Darunter befindet sich in einer durch eine weiße
        Marmorplatte verschlossenen Nische die Urne mit der Asche Kochs. An der
        Ostseite des Raumes sind unter der Überschrift „Robert Koch – Werke und
        Wirken“ wesentliche Daten zu den Ergebnissen seiner Forschungsarbeit
        dargestellt. Die Bestattung Kochs im Institutsgebäude war möglich, da es
        zu der Zeit in Preußen noch kein Gesetz über die Urnenbeisetzung gab.
  - source_sentence: >-
      Wieso verklagte die Familie von Ritter die behandelnden Ärzte auf 67
      Millionen US-Dollar Schadensersatz?
    sentences:
      - >-
        Während Proben zu einer Folge von "Meine wilden Töchter" traten bei
        Ritter im September 2003 starke Brustschmerzen auf, und er begab sich in
        das nahegelegene "Providence Saint Joseph Medical Center", in dem er am
        11. September 2003 im Alter von 54 Jahren – eine Woche vor seinem 55.
        Geburtstag – an einer Aortendissektion starb. Seine Familie verklagte
        Anfang 2008 die behandelnden Ärzte auf einen Schadensersatz von 67
        Millionen US-Dollar. Die Klage wurde im März 2008 abgewiesen.
      - >-
        Nach der Einstellung der Fernsehserie "Herzbube mit zwei Damen" nach
        acht Staffeln im Jahr 1984 machte er mit dem Spin-off "Three’s A Crowd"
        weiter, jedoch wurde die Serie nach einer Staffel eingestellt. Weitere
        Fernsehrollen hatte er in "Inspektor Hooperman" (1987), die ihm eine
        Nominierung sowohl für den Golden Globe als auch für den Emmy
        einbrachte, "Küß’ mich, John" (1992), "Ally McBeal" (1997), "Buffy – Im
        Bann der Dämonen" (1997), "Clifford the Big Red Dog" (2000), "Scrubs –
        Die Anfänger" oder "Meine wilden Töchter" (2002).
      - >-
        In Taiwan wurde im April 2014 der Bau des Kernkraftwerks Lungmen nach
        heftigen Protesten bis zu einem Referendum ausgesetzt.
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
  - cosine_accuracy@1
  - cosine_accuracy@3
  - cosine_accuracy@5
  - cosine_accuracy@10
  - cosine_precision@1
  - cosine_precision@3
  - cosine_precision@5
  - cosine_precision@10
  - cosine_recall@1
  - cosine_recall@3
  - cosine_recall@5
  - cosine_recall@10
  - cosine_ndcg@10
  - cosine_mrr@10
  - cosine_map@100
model-index:
  - name: BGE base Financial Matryoshka
    results:
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 768
          type: dim_768
        metrics:
          - type: cosine_accuracy@1
            value: 0.5817699836867863
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.9327759651984774
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.952215878194671
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.9681552474170745
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.5817699836867863
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.3109253217328258
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.1904431756389342
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.09681552474170746
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.5817699836867863
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.9327759651984774
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.952215878194671
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.9681552474170745
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.8140491092898914
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.7608257917087448
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.7617714980276816
            name: Cosine Map@100
datasets:
  - avemio/GRAG-EMBEDDING-TRIPLES-HESSIAN-AI

BGE base Financial Matryoshka

This is a sentence-transformers model finetuned from answerdotai/ModernBERT-base on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: answerdotai/ModernBERT-base
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • json
  • Language: en
  • License: apache-2.0

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("avemio-digital/ModernBERT_base_triples_embedding")
# Run inference
sentences = [
    'Wieso verklagte die Familie von Ritter die behandelnden Ärzte auf 67 Millionen US-Dollar Schadensersatz?',
    'Während Proben zu einer Folge von "Meine wilden Töchter" traten bei Ritter im September 2003 starke Brustschmerzen auf, und er begab sich in das nahegelegene "Providence Saint Joseph Medical Center", in dem er am 11. September 2003 im Alter von 54 Jahren – eine Woche vor seinem 55. Geburtstag – an einer Aortendissektion starb. Seine Familie verklagte Anfang 2008 die behandelnden Ärzte auf einen Schadensersatz von 67 Millionen US-Dollar. Die Klage wurde im März 2008 abgewiesen.',
    'Nach der Einstellung der Fernsehserie "Herzbube mit zwei Damen" nach acht Staffeln im Jahr 1984 machte er mit dem Spin-off "Three’s A Crowd" weiter, jedoch wurde die Serie nach einer Staffel eingestellt. Weitere Fernsehrollen hatte er in "Inspektor Hooperman" (1987), die ihm eine Nominierung sowohl für den Golden Globe als auch für den Emmy einbrachte, "Küß’ mich, John" (1992), "Ally McBeal" (1997), "Buffy – Im Bann der Dämonen" (1997), "Clifford the Big Red Dog" (2000), "Scrubs – Die Anfänger" oder "Meine wilden Töchter" (2002).',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.5818
cosine_accuracy@3 0.9328
cosine_accuracy@5 0.9522
cosine_accuracy@10 0.9682
cosine_precision@1 0.5818
cosine_precision@3 0.3109
cosine_precision@5 0.1904
cosine_precision@10 0.0968
cosine_recall@1 0.5818
cosine_recall@3 0.9328
cosine_recall@5 0.9522
cosine_recall@10 0.9682
cosine_ndcg@10 0.814
cosine_mrr@10 0.7608
cosine_map@100 0.7618

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 264,810 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 28 tokens
    • mean: 54.52 tokens
    • max: 307 tokens
    • min: 30 tokens
    • mean: 184.58 tokens
    • max: 1293 tokens
    • min: 33 tokens
    • mean: 151.69 tokens
    • max: 1297 tokens
  • Samples:
    anchor positive negative
    Was passiert, als die Haeduer sich gegen Caesar erheben und die Römer die Schlacht um Gergovia führen? Während er Titus Labienus mit vier Legionen in die Gebiete der Senonen und Parisier verlegt, macht sich Caesar auf nach Gergovia ins Gebiet der Arverner und die Heimat des Vercingetorix. Die Haeduer erheben sich jedoch schon bald gegen Caesar. Während die Schlacht um Gergovia tobt, rücken die Haeduer auf die römischen Truppen zu. Die Römer verlieren an diesem Tag fast siebenhundert Männer, können die Stadt aber nicht einnehmen. Caesar zieht weiter zur Stadt Noviodunum, die von den Haeduern zerstört wurde, während Labienus gegen die Stadt Lutetia zieht. Dort kommt es für Labienus zur siegreichen Schlacht. Die Gallier fliehen. Nach drei Tagen vereinigen sich seine Truppen mit denen Caesars. Unterdessen hält Vercingetorix gallischen Landtag in Bibracte. Fast alle gallischen Stämme nehmen teil und bestätigen Vercingetorix als Feldherrn. Es kommt zur Schlacht, in deren Verlauf die gallischen Reiter am Fluss Armançon vernichtet werden. Vercingetorix zieht mit seinen Fußtruppen zur Festung Alesia ab. Dort kommt es erneut zum Kampf, den Caesar dank germanischer Hilfstruppen für sich entscheiden kann. Ihm gelingt es, die Gallier einzuschließen und ein ausgeklügeltes Befestigungssystem rund um die Stadt zu errichten. Die eingeschlossenen Gallier warten jetzt dringend auf heranziehende gallische Hilfstruppen, denn ihre Lebensmittelvorräte sind fast aufgebraucht. Die Gallier diskutieren die Möglichkeit, sich zu ergeben. In der flammenden Rede des Arverners Critognatus spricht sich dieser gegen eine Kapitulation aus und überzeugt die Übrigen. Reitergefechte eröffnen die nächsten Kampfhandlungen, bis zum Abend bahnt sich aber keine Entscheidung an. Auch in den kommenden Tagen gelingt...
    Wo war die Geburtsstätte der Hip-Hop-Musik und welches Label spielte eine bedeutende Rolle in den 1990er Jahren an der US-Ostküste? Hip-Hop-Musik entstand in New York City, an der US-Ostküste. Obwohl es inzwischen auch andere wichtige Zentren wie zum Beispiel Philadelphia und Los Angeles gibt, ist die Stadt bis heute das Zentrum der Szene. 1992 begann sich die Musikszene zu verändern. Hip-Hop-Musik wurde immer mehr und schließlich endgültig vom Mainstream übernommen und versprach, kommerziell sehr lukrativ zu werden. Ein wichtiges Label an der Ostküste war zu dieser Zeit Bad Boy Entertainment von Puff Daddy, dort veröffentlichten Craig Mack, Mase und The Notorious B.I.G. East Coast vs. West Coast ("Ostküste gegen Westküste") ist die gängigste Bezeichnung für den bekanntesten "Beef" – eine Fehde im Hip-Hop. Bei der in der Mitte der 1990er-Jahre stattfindenden Auseinandersetzung handelte es sich um eine Rivalität zwischen den Plattenfirmen Bad Boy Entertainment aus New York City und Death Row Records aus Los Angeles sowie den dazugehörigen Rappern und Produzenten, die gewaltsam eskalierte. In ihrer Folge wurden unter anderem die Rapper Tupac Shakur und Notorious B.I.G. erschossen, wobei die Täter und der jeweilige Zusammenhang mit der Fehde ungeklärt blieben. Benannt ist der Konflikt nach den Szenen des Eastcoast-Hip-Hops und des Westcoast-Hip-Hops.
    Die Annäherung zwischen Nord- und Südkorea in Bezug auf die Olympischen Spiele von 2018 beinhaltete gemeinsame Gespräche, die Einigung auf die Teilnahme nordkoreanischer Athleten sowie das gemeinsame Eintreten bei der Eröffnungsfeier und im Frauen-Eishockey. Am 1. Januar 2018 sagte der nordkoreanische Machthaber Kim Jong-un in seiner Neujahrsansprache, dass die beiden Länder wieder gemeinsame Gespräche führen sollten. Am 9. Januar 2018 trafen sich Regierungsvertreter beider Länder und einigten sich unter anderem auf Athleten aus Nordkorea bei den Wettkämpfen in Südkorea. Am 17. Januar 2018 sagte ein Sprecher des südkoreanischen Vereinigungsministeriums, dass die beiden Länder unter dem Namen „Korea“ bei der Eröffnungsfeier gemeinsam einlaufen und im Frauen-Eishockey gemeinsam antreten würden. Während der XXIII. Olympischen Winterspiele gab es vier Dopingfälle. So wurde der japanische Shorttracker Kei Saito positiv auf das Diuretikum Acetazolamid, der slowenische Eishockeyspieler Žiga Jeglič positiv auf das Asthmamittel Fenoterol, der russische Curler Alexander Alexandrowitsch Kruschelnizki positiv auf das Herzmittel Meldonium und die russische Bobfahrerin Nadeschda Wiktorowna Sergejewa positiv auf das Herzmittel Trimetazidin getestet. Alle vier Athleten wurden von der Veranstaltung ausgeschlossen. Außerdem wurden dem russischen Curler und seiner Partnerin die zuvor gewonnene Bronzemedaille bei den Mixed Doubles aberkannt und dem norwegischen Team Kristin Skaslien/Magnus Nedregotten zugesprochen.
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768
        ],
        "matryoshka_weights": [
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • gradient_accumulation_steps: 16
  • learning_rate: 2e-05
  • num_train_epochs: 1
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • bf16: True
  • tf32: True
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 8
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 16
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: True
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss dim_768_cosine_ndcg@10
0.0048 10 39.6025 -
0.0097 20 37.9613 -
0.0145 30 34.1056 -
0.0193 40 27.0495 -
0.0242 50 17.7033 -
0.0290 60 11.5513 -
0.0338 70 8.059 -
0.0387 80 5.7182 -
0.0435 90 4.1844 -
0.0483 100 3.5612 -
0.0532 110 2.7178 -
0.0580 120 2.4993 -
0.0628 130 2.0754 -
0.0677 140 1.9418 -
0.0725 150 1.4704 -
0.0773 160 1.3959 -
0.0822 170 1.4232 -
0.0870 180 1.5266 -
0.0918 190 1.2147 -
0.0967 200 1.3711 -
0.1015 210 1.0753 -
0.1063 220 1.156 -
0.1112 230 1.3619 -
0.1160 240 1.1122 -
0.1208 250 1.0742 -
0.1257 260 1.136 -
0.1305 270 0.858 -
0.1353 280 1.068 -
0.1402 290 0.6717 -
0.1450 300 0.8825 -
0.1498 310 0.7441 -
0.1547 320 0.8464 -
0.1595 330 0.7714 -
0.1643 340 0.8174 -
0.1692 350 0.7368 -
0.1740 360 0.741 -
0.1788 370 0.6764 -
0.1837 380 0.7638 -
0.1885 390 0.7172 -
0.1933 400 0.7113 -
0.1982 410 0.7091 -
0.2030 420 0.5405 -
0.2078 430 0.5891 -
0.2127 440 0.6461 -
0.2175 450 0.781 -
0.2223 460 0.6744 -
0.2272 470 0.5077 -
0.2320 480 0.7061 -
0.2368 490 0.5176 -
0.2417 500 0.4864 -
0.2465 510 0.5373 -
0.2513 520 0.5507 -
0.2562 530 0.6507 -
0.2610 540 0.5708 -
0.2658 550 0.4801 -
0.2707 560 0.3825 -
0.2755 570 0.5892 -
0.2803 580 0.5823 -
0.2852 590 0.51 -
0.2900 600 0.5337 -
0.2948 610 0.5187 -
0.2997 620 0.471 -
0.3045 630 0.5821 -
0.3093 640 0.3278 -
0.3142 650 0.5094 -
0.3190 660 0.4114 -
0.3238 670 0.4379 -
0.3287 680 0.5234 -
0.3335 690 0.5318 -
0.3383 700 0.4787 -
0.3432 710 0.3483 -
0.3480 720 0.465 -
0.3528 730 0.4302 -
0.3577 740 0.3866 -
0.3625 750 0.453 -
0.3673 760 0.3842 -
0.3722 770 0.4903 -
0.3770 780 0.33 -
0.3819 790 0.4736 -
0.3867 800 0.3975 -
0.3915 810 0.3676 -
0.3964 820 0.2913 -
0.4012 830 0.4038 -
0.4060 840 0.4749 -
0.4109 850 0.4103 -
0.4157 860 0.4588 -
0.4205 870 0.3013 -
0.4254 880 0.4855 -
0.4302 890 0.3959 -
0.4350 900 0.3933 -
0.4399 910 0.3598 -
0.4447 920 0.4467 -
0.4495 930 0.4035 -
0.4544 940 0.4247 -
0.4592 950 0.4468 -
0.4640 960 0.3264 -
0.4689 970 0.3445 -
0.4737 980 0.363 -
0.4785 990 0.3709 -
0.4834 1000 0.4586 -
0.4882 1010 0.3139 -
0.4930 1020 0.567 -
0.4979 1030 0.3755 -
0.5027 1040 0.2952 -
0.5075 1050 0.3576 -
0.5124 1060 0.311 -
0.5172 1070 0.381 -
0.5220 1080 0.3554 -
0.5269 1090 0.3065 -
0.5317 1100 0.4087 -
0.5365 1110 0.2437 -
0.5414 1120 0.4124 -
0.5462 1130 0.435 -
0.5510 1140 0.2396 -
0.5559 1150 0.3464 -
0.5607 1160 0.3872 -
0.5655 1170 0.4872 -
0.5704 1180 0.351 -
0.5752 1190 0.2864 -
0.5800 1200 0.4254 -
0.5849 1210 0.3073 -
0.5897 1220 0.3146 -
0.5945 1230 0.268 -
0.5994 1240 0.3106 -
0.6042 1250 0.426 -
0.6090 1260 0.4197 -
0.6139 1270 0.3648 -
0.6187 1280 0.272 -
0.6235 1290 0.3805 -
0.6284 1300 0.3631 -
0.6332 1310 0.265 -
0.6380 1320 0.288 -
0.6429 1330 0.2716 -
0.6477 1340 0.3444 -
0.6525 1350 0.2418 -
0.6574 1360 0.3825 -
0.6622 1370 0.2237 -
0.6670 1380 0.2659 -
0.6719 1390 0.244 -
0.6767 1400 0.2628 -
0.6815 1410 0.3385 -
0.6864 1420 0.3503 -
0.6912 1430 0.3228 -
0.6960 1440 0.3461 -
0.7009 1450 0.3283 -
0.7057 1460 0.3345 -
0.7105 1470 0.429 -
0.7154 1480 0.254 -
0.7202 1490 0.196 -
0.7250 1500 0.3695 -
0.7299 1510 0.2672 -
0.7347 1520 0.3063 -
0.7395 1530 0.3582 -
0.7444 1540 0.3276 -
0.7492 1550 0.3168 -
0.7540 1560 0.3315 -
0.7589 1570 0.3494 -
0.7637 1580 0.3574 -
0.7685 1590 0.2926 -
0.7734 1600 0.3158 -
0.7782 1610 0.2219 -
0.7830 1620 0.2301 -
0.7879 1630 0.3057 -
0.7927 1640 0.2204 -
0.7975 1650 0.2708 -
0.8024 1660 0.2864 -
0.8072 1670 0.3662 -
0.8120 1680 0.2674 -
0.8169 1690 0.284 -
0.8217 1700 0.2438 -
0.8265 1710 0.3772 -
0.8314 1720 0.3122 -
0.8362 1730 0.2474 -
0.8410 1740 0.2981 -
0.8459 1750 0.2331 -
0.8507 1760 0.2858 -
0.8555 1770 0.2362 -
0.8604 1780 0.254 -
0.8652 1790 0.2155 -
0.8700 1800 0.2614 -
0.8749 1810 0.2149 -
0.8797 1820 0.2774 -
0.8845 1830 0.3404 -
0.8894 1840 0.2184 -
0.8942 1850 0.2138 -
0.8990 1860 0.3272 -
0.9039 1870 0.3183 -
0.9087 1880 0.2401 -
0.9135 1890 0.2773 -
0.9184 1900 0.2353 -
0.9232 1910 0.2686 -
0.9280 1920 0.3028 -
0.9329 1930 0.2799 -
0.9377 1940 0.4128 -
0.9425 1950 0.1866 -
0.9474 1960 0.2149 -
0.9522 1970 0.2565 -
0.9570 1980 0.3198 -
0.9619 1990 0.2368 -
0.9667 2000 0.1715 -
0.9715 2010 0.2219 -
0.9764 2020 0.2335 -
0.9812 2030 0.2485 -
0.9860 2040 0.2966 -
0.9909 2050 0.2007 -
0.9957 2060 0.2383 -
0.9996 2068 - 0.8064
0.0048 10 0.2327 -
0.0097 20 0.2529 -
0.0145 30 0.2527 -
0.0193 40 0.2244 -
0.0242 50 0.4014 -
0.0290 60 0.3844 -
0.0338 70 0.2978 -
0.0387 80 0.3432 -
0.0435 90 0.184 -
0.0483 100 0.3491 -
0.0532 110 0.2435 -
0.0580 120 0.2032 -
0.0628 130 0.257 -
0.0677 140 0.3178 -
0.0725 150 0.2575 -
0.0773 160 0.2099 -
0.0822 170 0.232 -
0.0870 180 0.2196 -
0.0918 190 0.2303 -
0.0967 200 0.271 -
0.1015 210 0.1831 -
0.1063 220 0.1815 -
0.1112 230 0.2543 -
0.1160 240 0.2217 -
0.1208 250 0.2435 -
0.1257 260 0.247 -
0.1305 270 0.2078 -
0.1353 280 0.1966 -
0.1402 290 0.13 -
0.1450 300 0.1588 -
0.1498 310 0.1402 -
0.1547 320 0.1944 -
0.1595 330 0.1297 -
0.1643 340 0.2317 -
0.1692 350 0.137 -
0.1740 360 0.1501 -
0.1788 370 0.1475 -
0.1837 380 0.1325 -
0.1885 390 0.1457 -
0.1933 400 0.1415 -
0.1982 410 0.1256 -
0.2030 420 0.1201 -
0.2078 430 0.0994 -
0.2127 440 0.1208 -
0.2175 450 0.158 -
0.2223 460 0.1329 -
0.2272 470 0.1148 -
0.2320 480 0.1643 -
0.2368 490 0.1067 -
0.2417 500 0.089 -
0.2465 510 0.1037 -
0.2513 520 0.1159 -
0.2562 530 0.102 -
0.2610 540 0.1189 -
0.2658 550 0.0932 -
0.2707 560 0.0655 -
0.2755 570 0.1196 -
0.2803 580 0.1225 -
0.2852 590 0.1129 -
0.2900 600 0.098 -
0.2948 610 0.1093 -
0.2997 620 0.094 -
0.3045 630 0.1147 -
0.3093 640 0.0661 -
0.3142 650 0.1133 -
0.3190 660 0.0813 -
0.3238 670 0.0922 -
0.3287 680 0.1496 -
0.3335 690 0.113 -
0.3383 700 0.1132 -
0.3432 710 0.0712 -
0.3480 720 0.1276 -
0.3528 730 0.1022 -
0.3577 740 0.0779 -
0.3625 750 0.1139 -
0.3673 760 0.0753 -
0.3722 770 0.1194 -
0.3770 780 0.0701 -
0.3819 790 0.1178 -
0.3867 800 0.0992 -
0.3915 810 0.0906 -
0.3964 820 0.0699 -
0.4012 830 0.1325 -
0.4060 840 0.1236 -
0.4109 850 0.1026 -
0.4157 860 0.1389 -
0.4205 870 0.087 -
0.4254 880 0.134 -
0.4302 890 0.1171 -
0.4350 900 0.1081 -
0.4399 910 0.1205 -
0.4447 920 0.0975 -
0.4495 930 0.1331 -
0.4544 940 0.1272 -
0.4592 950 0.1445 -
0.4640 960 0.0818 -
0.4689 970 0.0996 -
0.4737 980 0.1063 -
0.4785 990 0.1124 -
0.4834 1000 0.168 -
0.4882 1010 0.0961 -
0.4930 1020 0.1498 -
0.4979 1030 0.1202 -
0.5027 1040 0.1063 -
0.5075 1050 0.1772 -
0.5124 1060 0.1073 -
0.5172 1070 0.1248 -
0.5220 1080 0.1265 -
0.5269 1090 0.1239 -
0.5317 1100 0.1154 -
0.5365 1110 0.0984 -
0.5414 1120 0.1572 -
0.5462 1130 0.149 -
0.5510 1140 0.0775 -
0.5559 1150 0.1215 -
0.5607 1160 0.1423 -
0.5655 1170 0.2041 -
0.5704 1180 0.1489 -
0.5752 1190 0.1116 -
0.5800 1200 0.1711 -
0.5849 1210 0.1188 -
0.5897 1220 0.1028 -
0.5945 1230 0.0867 -
0.5994 1240 0.1198 -
0.6042 1250 0.1741 -
0.6090 1260 0.1689 -
0.6139 1270 0.1622 -
0.6187 1280 0.1141 -
0.6235 1290 0.161 -
0.6284 1300 0.1321 -
0.6332 1310 0.092 -
0.6380 1320 0.1303 -
0.6429 1330 0.1126 -
0.6477 1340 0.1341 -
0.6525 1350 0.0947 -
0.6574 1360 0.2087 -
0.6622 1370 0.1157 -
0.6670 1380 0.1085 -
0.6719 1390 0.0938 -
0.6767 1400 0.125 -
0.6815 1410 0.163 -
0.6864 1420 0.1575 -
0.6912 1430 0.1585 -
0.6960 1440 0.1875 -
0.7009 1450 0.1624 -
0.7057 1460 0.1535 -
0.7105 1470 0.2075 -
0.7154 1480 0.1321 -
0.7202 1490 0.0914 -
0.7250 1500 0.1906 -
0.7299 1510 0.1301 -
0.7347 1520 0.1832 -
0.7395 1530 0.1919 -
0.7444 1540 0.1693 -
0.7492 1550 0.193 -
0.7540 1560 0.1707 -
0.7589 1570 0.1851 -
0.7637 1580 0.1886 -
0.7685 1590 0.1727 -
0.7734 1600 0.1654 -
0.7782 1610 0.1279 -
0.7830 1620 0.1506 -
0.7879 1630 0.1939 -
0.7927 1640 0.148 -
0.7975 1650 0.1656 -
0.8024 1660 0.1648 -
0.8072 1670 0.2508 -
0.8120 1680 0.1731 -
0.8169 1690 0.1835 -
0.8217 1700 0.1428 -
0.8265 1710 0.231 -
0.8314 1720 0.1976 -
0.8362 1730 0.1659 -
0.8410 1740 0.2064 -
0.8459 1750 0.1229 -
0.8507 1760 0.1709 -
0.8555 1770 0.1506 -
0.8604 1780 0.173 -
0.8652 1790 0.1587 -
0.8700 1800 0.1733 -
0.8749 1810 0.1407 -
0.8797 1820 0.187 -
0.8845 1830 0.2365 -
0.8894 1840 0.1434 -
0.8942 1850 0.1547 -
0.8990 1860 0.2597 -
0.9039 1870 0.2158 -
0.9087 1880 0.1674 -
0.9135 1890 0.196 -
0.9184 1900 0.2011 -
0.9232 1910 0.2137 -
0.9280 1920 0.2141 -
0.9329 1930 0.2114 -
0.9377 1940 0.2817 -
0.9425 1950 0.1285 -
0.9474 1960 0.1401 -
0.9522 1970 0.2044 -
0.9570 1980 0.2434 -
0.9619 1990 0.1693 -
0.9667 2000 0.1225 -
0.9715 2010 0.1716 -
0.9764 2020 0.1703 -
0.9812 2030 0.1686 -
0.9860 2040 0.242 -
0.9909 2050 0.1553 -
0.9957 2060 0.1721 -
0.9996 2068 - 0.8140

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 3.3.1
  • Transformers: 4.48.1
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.2.1
  • Datasets: 2.19.1
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}