Sami92's picture
Update README.md
506bc27 verified
metadata
base_model: intfloat/multilingual-e5-large-instruct
license: cc-by-4.0
language:
  - de
library_name: sentence-transformers
metrics:
  - cosine_accuracy
  - cosine_accuracy_threshold
  - cosine_f1
  - cosine_f1_threshold
  - cosine_precision
  - cosine_recall
  - cosine_ap
  - dot_accuracy
  - dot_accuracy_threshold
  - dot_f1
  - dot_f1_threshold
  - dot_precision
  - dot_recall
  - dot_ap
  - manhattan_accuracy
  - manhattan_accuracy_threshold
  - manhattan_f1
  - manhattan_f1_threshold
  - manhattan_precision
  - manhattan_recall
  - manhattan_ap
  - euclidean_accuracy
  - euclidean_accuracy_threshold
  - euclidean_f1
  - euclidean_f1_threshold
  - euclidean_precision
  - euclidean_recall
  - euclidean_ap
  - max_accuracy
  - max_accuracy_threshold
  - max_f1
  - max_f1_threshold
  - max_precision
  - max_recall
  - max_ap
pipeline_tag: sentence-similarity
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:51106
  - loss:AnglELoss
widget:
  - source_sentence: >-
      Instruct: Retrieve semantically similar text.

      Query: Medwedew über die Entsendung von NATO-Truppen in die Ukraine: „Die
      Entsendung von NATO-Truppen auf das Territorium der Ukraine wird den
      direkten Eintritt dieser Länder in den Krieg bedeuten, worauf wir
      (Russland) mit (...) reagieren müssen. Es wird eine Weltkatastrophe
      werden.“
    sentences:
      - >-
        Dipl.-Pol. Udo Walendy (1927-2022) spricht klare Worte über die
        machtpolitischen Hintergründe der gegen Deutschland gerichteten
        Greuelpropaganda und Geschichtsfälschung... Anmerkung: In dem konkreten
        Fall verbreitete Kohl (alias Henoch Kohn) die Mär vom
        Zigeuner-Massenmord. Während Walendy noch ungestraft nachfragen konnte,
        woher denn die angeblichen Opferzahlen stammten, hat man ja bspw. Ursula
        Haverbeck direkt vor Gericht gezerrt... Der Unterschied war bloß: Es
        waren ein paar Jahrzehnte dazwischen. Die Geschichtslügen wurden ja
        zwischenzeitlich strafrechtlich abgesichert und quasi manifestiert.
        (§130) Beachtenswert ist natürlich der Umstand, daß vermeintlich
        "deutsche" Politiker von Brandt bis Scholz diese (Sieger-Propaganda-)
        Lügen gebetsmühlenartig wiederholen... EIGENE Politiker?!... MITNICHTEN!
      - >-
        Der Pharmamafia !!! Um Umsatz und Gewinne für die Zunkunft nicht nur zu
        sichern, sondern exorbitant zu steigern, gilt es alle gesunden Kinder
        weltweit, direkt nach der Geburt krank zu spritzen. ‼ HIER WIR IMPFEN
        NICHT ! Dokumentarfilm ‼ Denn Impfen wirkt, nur halt anders als
        behauptet. Ganz wichtig ist dabei ist es nach Möglichkeit die Spritzen
        zur allgemeinen Pflicht zu erklären, denn nur so können die verhindern,
        daß dieses abschäuliche Treiben, wegen einer ungeimpften Kontrollgruppe,
        augenscheinlich ist. <URL> <URL>
      - >-
        UPDATE Nach Angaben des Militärministeriums werden Einheiten des
        südlichen Militärbezirks, der Luftstreitkräfte und der Marine an den
        Übungen teilnehmen. Der Zweck der Übungen wird als Reaktion auf
        Provokationen und Bedrohungen durch westliche Länder bezeichnet. Das
        bedeutet, dass der südliche Militärbezirk, der ziemlich direkt an der
        Spezialoperation beteiligt ist, umfassende Übungen zum Einsatz
        taktischer Atomwaffen als Reaktion auf bestimmte Pläne westlicher Länder
        durchführen wird. Damit sind natürlich die kürzlich geäußerten
        Überlegungen zur Entsendung von NATO-Truppen in die Ukraine gemeint.
        Diese Aussage ist eine ernstzunehmende Steigerung sowohl dessen, was
        offiziell rhetorisch akzeptabel ist, als auch dessen, was bei den
        Übungen demonstriert wird. Ebenso wie das, was während dieser Übungen
        praktiziert wird. Quelle: 136 BRIGADE Abonniere: Übersicht Ukraine
        ©Ansichten der Kanalbetreiber
  - source_sentence: >-
      Instruct: Retrieve semantically similar text.

      Query: Die 1,5h Rede (statt 15min) von Muammar Al Gaddafi bei der
      vollbesetzten Generalversammlung der UNO 23.09.2009 - Deutsch Diese
      hochbrisante Rede war Gaddafis Todesurteil. 01:18:00 - 01:20:11
      interessant! Gaddafis gelöschte Reden <URL> t.me/swd_hardcore
    sentences:
      - >-
        "Lasst uns die aufgeflogenen frechen Mörder ans Licht reißen und deren
        Schandtaten ins Bewusstsein der Völker einhämmern. So lange, bis
        entweder die Justiz sie ahndet – und zwar bis zur obersten Etage – oder
        bis sich Millionen ehrwürdige Volksgenossen versammeln, um Tribunale
        auszurufen, die dann legal, in echt abrechnen mit diesen
        Schwerstverbrechern." Laden Sie diese Videos auf Ihre
        Social-Media-Kanäle wie TikTok, Facebook, YouTube, VK, Odysee, Telegram
        ... Video in voller Länge: <URL> - Folge uns auf Telegram!
      - >-
        Профессор Соловей заявил, что Джо Байден умер и был заменен двойником,
        контролируемым руководством Секретной службы США. На это указывает ряд
        внешних признаков. Тело настоящего президента США помещено в холодильник
        бункера под Белым домом до президентских выборов.
      - >-
        Foreign Minister Sergey Lavrov and Foreign Minister of Tajikistan
        Sirojiddin Muhriddin hold talks on the sidelines of the Third Antalya
        Diplomacy Forum Antalya, March 2, 2024
  - source_sentence: >-
      Instruct: Retrieve semantically similar text.

      Query: Und so ist es auch heute noch! Im großen wie im kleinen. Das was
      man selber macht, wird der Gegenseite angelastet und zugeschrieben. Danke
      an die wunderbare Seele für diese ans Licht bringenden Worte
    sentences:
      - >-
        Die NATO sind Faschisten In Belgrad findet am 25. Jahrestag des Beginns
        der Bombardierung Jugoslawiens eine Aktion statt, deren Teilnehmer ein
        Ende der Zusammenarbeit mit dem Nordatlantischen Bündnis fordern.
        Während des Marsches skandieren sie: „Die NATO sind Faschisten.“
        Russländer & Friends
      - >-
        Übersterblichkeit in Deutschland. Eine der schlimmsten Konsequenzen der
        Verbrechen der letzten Jahre. Wer angesichts solcher Katastrophen – ohne
        dass überhaupt irgendeine juristische Aufarbeitung stattgefunden hat –
        von „Versöhnung“ mit den Täterkreisen spricht, der sollte besser nie
        mehr öffentlich das Wort ergreifen. Diese Täterkreise sind bis heute
        dafür verantwortlich, dass die Existenz von Kritikern der Verbrechen der
        letzten Jahre bis auf den heutigen Tag zerstört wird. Der Bevölkerung
        wird der Zugang zum Recht verweigert, womit diese Täterkreise geschützt
        werden. Aber jetzt soll mit diesen Täterkreisen wegen einem Datenleak
        die „Versöhnung“ gesucht werden? Was wir von solchen Äußerungen halten,
        mit denen alle Opfer förmlich für dumm verkauft werden sollen, das kann
        kaum noch sachlich formuliert werden.
      - >-
        Von ganzem Herzen ein riesen großes Dankeschön. Lasst uns weiterhin
        gemeinsam Aufklären und die Menschen über Hintergründe informieren. Das
        geht aber nur mit euch und eurer Hilfe, Zuversicht und Schöpferkraft.
        Wahrheit macht frei und Freiheit macht wahr <URL> Denk selbst und
        informiere Dich
  - source_sentence: >-
      Instruct: Retrieve semantically similar text.

      Query: Es ist und bleibt eine unfassbare BARBAREI! Aber wo sind auf einmal
      all die Tierliebhaber? Traut sich wieder keiner dazu was zu sagen? Oder
      ist es in diesem Fall akzeptabel? Ist das Blut der geschächteten Tiere
      „bunt“ und „weltoffen“ genug? Es widert mich so dermaßen an. Ich gedenke
      all der unschuldigen Wesen, die brutal gefoltert und abgeschlachtet
      werden. So etwas kann und darf niemals zu einer zivilisierten Gesellschaft
      gehören und dürfte nirgendwo auf der Welt akzeptiert werden! Tim K.
    sentences:
      - >-
        EU-Botschafter ignorieren geschlossene eine Gesprächseinladung von
        Lawrow Hier den Artikel lesen Das russische Außenministerium hat die
        Botschafter der EU-Staaten zu einem Gespräch mit Außenminister Lawrow
        eingeladen, aber die EU-Botschafter haben ihre Teilnahme geschlossen
        abgesagt. Russland spricht davon, das werde "schreckliche Konsequenzen"
        haben. • Thomas Röper
      - >-
        "Schließlich können wir auch gerade jetzt bei den Demonstrationen
        feststellen, dass auch Demokratien manchmal Merkmale des Totalitarismus
        haben können.“ Das ist mal ein interessanter Artikel <URL> Hier findest
        Du wie gewohnt alle Themen rund um die grosse Agenda, m auf dem
        Laufenden zu bleiben: <URL> Und hier findest du alles zum Thema geistige
        und körperliche Gesundheit, und um spirituelles Wachstum‍: <URL> Und
        ganz neu: !!!! Für unsere französischsprachigen Freunde findet Ihr hier
        unseren französischen Gesundheitskanal.‍ Pour nos amis francophones,
        rendez-vous sur notre chaîne santé française ici <URL>
      - >-
        Dem ist nichts hinzuzufügen, außer, dass man den Hannibal für seine
        Verbrechen bestraft hat. Und die anderen zwangsfinanziert werden.
        Merkste was? Wahrheit macht frei und Freiheit macht wahr <URL> Denk
        selbst und informiere Dich
  - source_sentence: >-
      Instruct: Retrieve semantically similar text.

      Query: Die Pentagon-Mitarbeiter wechseln zum Überstundenmodus
      Internetnutzer stellten fest, dass es in der Gegend, in der sich die
      Abteilung befindet, einen starken Anstieg der Bestellungen für
      Pizzalieferungen gab und gleichzeitig die örtlichen Bars leer waren.
      Zuletzt geschah dies im April, kurz vor und nach dem iranischen Angriff
      auf Israel. Dann bemerkte The Sun die hohe Auslastung der Pizzerien von
      Papa Johns mit Bestellungen vom Pentagon. Unsere Website <URL> Unser Kanal
      auf Englisch <URL>
    sentences:
      - >-
        Das hatte ich auch schon mal geschrieben. Ich war zuerst so wütend, dass
        Russland ausgeschlossen wurde. Aber nach der ekelhaften Eröffnung war
        ich dankbar dafür. Dieses kotztheater, was da abgeht, ist diesem stolzen
        Land nicht zumutbar und nicht würdig
      - >-
        Heute sind offensichtlich ältere Flugzeuge am Himmel die entweder
        Turbinen Probleme haben oder schon elektrisch Fliegen... Die ganzen
        Lügen sind sooo offensichtlich das es schon weh tut sie bewusst zu
        ignorieren bzw nicht zu erkennen... Ihr wollt die Wahrheit <URL>
      - >-
        Erinnern Sie sich an meinen Beitrag von vorhin über die massiven
        Cyberausfälle. Verbinden Sie das alles mit dem, was wir seit „Shot Heard
        Round the World“ am Samstag gesagt haben. BQQM BQQM BQQM BQQM 1776 1776
        BRICS
model-index:
  - name: SentenceTransformer based on intfloat/multilingual-e5-large-instruct
    results:
      - task:
          type: binary-classification
          name: Binary Classification
        dataset:
          name: FineTuned 8
          type: FineTuned_8
        metrics:
          - type: cosine_accuracy
            value: 0.9758104058839553
            name: Cosine Accuracy
          - type: cosine_accuracy_threshold
            value: 0.9067002534866333
            name: Cosine Accuracy Threshold
          - type: cosine_f1
            value: 0.48869752421959095
            name: Cosine F1
          - type: cosine_f1_threshold
            value: 0.9034577012062073
            name: Cosine F1 Threshold
          - type: cosine_precision
            value: 0.6735905044510386
            name: Cosine Precision
          - type: cosine_recall
            value: 0.38344594594594594
            name: Cosine Recall
          - type: cosine_ap
            value: 0.5012063718756087
            name: Cosine Ap
          - type: dot_accuracy
            value: 0.9758104058839553
            name: Dot Accuracy
          - type: dot_accuracy_threshold
            value: 0.9067002534866333
            name: Dot Accuracy Threshold
          - type: dot_f1
            value: 0.48869752421959095
            name: Dot F1
          - type: dot_f1_threshold
            value: 0.903457760810852
            name: Dot F1 Threshold
          - type: dot_precision
            value: 0.6735905044510386
            name: Dot Precision
          - type: dot_recall
            value: 0.38344594594594594
            name: Dot Recall
          - type: dot_ap
            value: 0.501205944378431
            name: Dot Ap
          - type: manhattan_accuracy
            value: 0.9749931898665214
            name: Manhattan Accuracy
          - type: manhattan_accuracy_threshold
            value: 11.01162338256836
            name: Manhattan Accuracy Threshold
          - type: manhattan_f1
            value: 0.4920802534318901
            name: Manhattan F1
          - type: manhattan_f1_threshold
            value: 11.218721389770508
            name: Manhattan F1 Threshold
          - type: manhattan_precision
            value: 0.6563380281690141
            name: Manhattan Precision
          - type: manhattan_recall
            value: 0.3935810810810811
            name: Manhattan Recall
          - type: manhattan_ap
            value: 0.49364856616931857
            name: Manhattan Ap
          - type: euclidean_accuracy
            value: 0.9758104058839553
            name: Euclidean Accuracy
          - type: euclidean_accuracy_threshold
            value: 0.4319716691970825
            name: Euclidean Accuracy Threshold
          - type: euclidean_f1
            value: 0.48869752421959095
            name: Euclidean F1
          - type: euclidean_f1_threshold
            value: 0.439413845539093
            name: Euclidean F1 Threshold
          - type: euclidean_precision
            value: 0.6735905044510386
            name: Euclidean Precision
          - type: euclidean_recall
            value: 0.38344594594594594
            name: Euclidean Recall
          - type: euclidean_ap
            value: 0.5012064992979081
            name: Euclidean Ap
          - type: max_accuracy
            value: 0.9758104058839553
            name: Max Accuracy
          - type: max_accuracy_threshold
            value: 11.01162338256836
            name: Max Accuracy Threshold
          - type: max_f1
            value: 0.4920802534318901
            name: Max F1
          - type: max_f1_threshold
            value: 11.218721389770508
            name: Max F1 Threshold
          - type: max_precision
            value: 0.6735905044510386
            name: Max Precision
          - type: max_recall
            value: 0.3935810810810811
            name: Max Recall
          - type: max_ap
            value: 0.5012064992979081
            name: Max Ap

SentenceTransformer based on intfloat/multilingual-e5-large-instruct

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-large-instruct. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for claim matching. Claim matching is the task of finding semantically identical texts for a given query-text. It finds application in the context of automated fact-checking for which it is important to identify copies of the same (misinformation) claim or previously checked claims.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-large-instruct
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 1024 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

def embed_query(texts:list, model):
    return model.encode(sentences=texts, 
                prompt="Instruct: Retrieve semantically similar text.\nQuery: ",
                batch_size=32,
                show_progress_bar=True,
                normalize_embeddings=False,
                convert_to_numpy=True,
                device="cuda")
def embed_documents(texts:list, model):
    return model.encode(sentences=texts, 
                batch_size=1024,
                show_progress_bar=True,
                normalize_embeddings=False,
                convert_to_numpy=True,
                device="cuda")

# Download from the 🤗 Hub
model = SentenceTransformer("Sami92/multiling-e5-large-instruct-claim-matching")
# Run inference

queries = ['Die Pentagon-Mitarbeiter wechseln zum Überstundenmodus Internetnutzer stellten fest, dass es in der Gegend, in der sich die Abteilung befindet, einen starken Anstieg der Bestellungen für Pizzalieferungen gab und gleichzeitig die örtlichen Bars leer waren. Zuletzt geschah dies im April, kurz vor und nach dem iranischen Angriff auf Israel. Dann bemerkte The Sun die hohe Auslastung der Pizzerien von Papa Johns mit Bestellungen vom Pentagon. Unsere Website <URL> Unser Kanal auf Englisch <URL>',]
documents = [
    'Erinnern Sie sich an meinen Beitrag von vorhin über die massiven Cyberausfälle. Verbinden Sie das alles mit dem, was wir seit „Shot Heard Round the World“ am Samstag gesagt haben. BQQM BQQM BQQM BQQM 1776 1776 BRICS',
    'Heute sind offensichtlich ältere Flugzeuge am Himmel die entweder Turbinen Probleme haben oder schon elektrisch Fliegen... Die ganzen Lügen sind sooo offensichtlich das es schon weh tut sie bewusst zu ignorieren bzw nicht zu erkennen... Ihr wollt die Wahrheit <URL>',
]
query_embeddings = embed_documents(texts=queries, model=model)
doc_embeddings = embed_query(texts=documents, model=model)

# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, doc_embeddings)

Evaluation

Metrics

Binary Classification

Metric Value
cosine_accuracy 0.9758
cosine_accuracy_threshold 0.9067
cosine_f1 0.4887
cosine_f1_threshold 0.9035
cosine_precision 0.6736
cosine_recall 0.3834
cosine_ap 0.5012
dot_accuracy 0.9758
dot_accuracy_threshold 0.9067
dot_f1 0.4887
dot_f1_threshold 0.9035
dot_precision 0.6736
dot_recall 0.3834
dot_ap 0.5012
manhattan_accuracy 0.975
manhattan_accuracy_threshold 11.0116
manhattan_f1 0.4921
manhattan_f1_threshold 11.2187
manhattan_precision 0.6563
manhattan_recall 0.3936
manhattan_ap 0.4936
euclidean_accuracy 0.9758
euclidean_accuracy_threshold 0.432
euclidean_f1 0.4887
euclidean_f1_threshold 0.4394
euclidean_precision 0.6736
euclidean_recall 0.3834
euclidean_ap 0.5012
max_accuracy 0.9758
max_accuracy_threshold 11.0116
max_f1 0.4921
max_f1_threshold 11.2187
max_precision 0.6736
max_recall 0.3936
max_ap 0.5012

The following figure depicts f1, recall, and precision on the test data for different thresholds.

The following figure depicts how well matches and mismatches in the test data are separated by the model. For results with a minimum of false positives, a threshold higher than 0.91 is recommended. For the optimal F1 score, the right treshold is 0.9050.

Training Details

Training Dataset

The model was trained on a weakly annotated dataset. The data was taken from Telegram. More specifically from a set of about 200 channels that have been subject to a fact-check from either Correctiv, dpa, Faktenfuchs or AFP.

Weak annotation was performed using GPT-4o. The model was prompted to find semantically identical posts using this prompt. For non-matches the cosine similarity was reduced by 1.2 for training and for matches it was frozen to 0.98.

Unnamed Dataset

  • Size: 51,106 training samples
  • Columns: sentence1, sentence2, and score
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 score
    type string string float
    details
    • min: 41 tokens
    • mean: 154.84 tokens
    • max: 322 tokens
    • min: 32 tokens
    • mean: 133.5 tokens
    • max: 339 tokens
    • min: -1.65
    • mean: nan
    • max: 1.0
  • Samples:
    sentence1 sentence2 score
    Instruct: Retrieve semantically similar text.
    Query: AfD-Chefin Weidel verurteilt Verbot von COMPACT-Magazin NICHT (!) Was ist das für eine Stellungnahme? Der Angriff auf COMPACT ist ein Frontalangriff auf die Presse- und Meinungsfreiheit in diesem Land. Und muss entschieden verurteilt werden. Doch ausgerechnet AfD-Frontfrau Alice Weidel kommt mit einer handzahmen Alibi-Erklärung daher, spricht von einem „unguten Zeichen“ und will „kritisch begleiten“. Was es jetzt von der Bundestags-AfD braucht, ist parlamentarischer Druck, z.B. mit einer Sondersitzung des Innenausschusses. Faeser muss sich dafür verantworten, COMPACT verboten zu haben. Und dafür braucht es keine Alibi-Erklärungen, sondern knallharte Offensive. Schließlich plakatiert die AfD - ebenso, wie es der COMPACT-Leitspruch war - "Mut zur Wahrheit." Und nicht "Wir kuschen vor Faeser und Haldenwang". Übrigens: Björn Höcke hat das Verbot mit deutlichen Worten scharf verurteilt und geht zum Gegenangriff über. Dieser Mann hat es verstanden. FREIE SACHSEN: Folgt uns!
    Paul Klemm: „COMPACT-Verbot ist Anschlag auf den gesamten Widerstand“ Die Journalisten des Compact Magazins betrachten das Verbot ihrer Zeitschrift nicht nur als Attacke gegen sich selbst. Im Gegenteil: Nancy Faeser ziele mit ihrem Versuch auf die gesamte Systemopposition in Deutschland. Das sagt jedenfalls der bisherige TV-Chef von Compact, Paul Klemm, gegenüber AUF1. Die AUF1-Sondersendung „Tag 2 COMPACT-Verbot: So kann es jeden treffen!“ von gestern sehen Sie hier: -1.518102343739742
    Instruct: Retrieve semantically similar text.
    Query: vier Monate vor der allerersten Impfung RKI-Protokoll vom 17. August 2020 - mehr als 4 Monate bevor die erste Impfdosis gespritzt wurde "...wichtiger offener Punkt" RKI-LEAK Pressekonferenz 23.07.2024 🫵 Möge die gesamte Republik mit dem Finger auf Regierungs-Journalisten zeigen! ‼ Karl Lauterbach hat geringes Risiko von Covid absichtlich vor Impfpflicht-Abstimmung nicht kommuniziert Zwei Tage nach erstem Lockdown konnte man Massnahmen schon nicht mehr begründen Komplette Pressekonferenz Österreich: ÖRR berichtet über RKI-Files! "Die Pandemie der Ungeimpften" - Österreich Edition RKI-Files zum Download: Server 1 / Server 2 / Server 3 / Server 4 / Server 5 / Server 6 Danke Bernd Reiser auf telegram auf substack auf youtube auf odyssee auf Twitter .
    ‼ Corona: Nächste Impf-Lüge von Lauterbach aufgedeckt Gegen den Rat des Robert-Koch-Institutes (RKI) hat Bundesgesundheitsminister Karl Lauterbach (SPD) die Deutschen über die Wirkung der Corona-Impfung in Bezug auf Long Covid belogen. Wie aus den jetzt von der Journalistin Aya Velázquez veröffentlichten E-Mails des RKI hervorgeht, hatte der Experten-Rat keine verläßliche Wirkung der Vakzine gegen Long Covid erkannt. Vielmehr hatte er auf Bitten Lauterbachs, diese These wissenschaftlich zu untermauern, im Juli ausdrücklich davon abgeraten, eine solche Behauptung aufzustellen. Zunächst hieß es noch zurückhaltend, aber eindeutig, »die Evidenzlage ist bislang nicht klar«. Link zum Artikel 0.998
    Instruct: Retrieve semantically similar text.
    Query: "Kommunen und Sozialverbände fordern Hilfen für Hitzeschutz Hitzewellen werden durch den Klimawandel immer wahrscheinlicher. Kommunen müssen sich deshalb besser gegen extreme Temperaturen schützen. Es fehlt aber das Geld dafür." ------- Es fehlt mittlerweile das Geld für Hitzeschutz... Quelle
    Heute in Großweitzschen: Die Zukunft unserer Kinder sollte nicht von einer wirtschaftlichen Entwicklung abhängig sein. Die Gemeindeverwaltung Großweitzschen planen die Kindertagesstätte ,,Wirbelwind"in Westewitz zu schließen. Wir müssen die kleinen Dorf-Kitas erhalten. Daher braucht es mehr Flexibilität im starren Kita-System und Geld vom Land, um die Dorf-Kitas zu erhalten. So entlasten wir unsere Gemeinden und schaffen es, dass junge Familien aufs Land ziehen. Mehr Infos gibt es auch hier: Kommt alle heute, den 16.07.2024 in den Versammlungsraum Gallschütz Nr. 13! Gemeinsam versuchen wir diese Entscheidung abzuwenden. Folgt uns bei Telegram, denn wir vernetzen und informieren den Widerstand! Hier geht's zum Kanal: ₂, ! Übersicht Termine einsenden Ländergruppen Alle Spazis Der Kanal, der den Regierenden und Mitmach-Tätern Beine macht ! -0.5582272769313432
  • Loss: AnglELoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "pairwise_angle_sim"
    }
    

Evaluation Dataset

Evaluation was performed on a dataset from the same Telegram channels as the training data. Again, GPT-4o was used to identify matching claims. However, for the test data, trained annotators validated the results and mismatches that were classified as matches by GPT-4o were removed. A ratio of 1:30 was chosen. In other words, for 1 match there are 30 mismatches. This is supposed to reflect a realistic scenario in which there are much more posts that are not identical to a query-post.

Manually checked Telegram Dataset

  • Size: 18,355 evaluation samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 label
    type string string int
    details
    • min: 41 tokens
    • mean: 129.21 tokens
    • max: 391 tokens
    • min: 30 tokens
    • mean: 123.46 tokens
    • max: 379 tokens
    • 0: ~96.50%
    • 1: ~3.50%
  • Samples:
    sentence1 sentence2 label
    Instruct: Retrieve semantically similar text.
    Query: Дорогие подписчики и гости канала! У человека назначенного президентом России и похожего на Владимира Путина обострилось хроническое заболевание почек. В связи с этим под угрозой планы проведения и посещения "Путиным" мероприятий, и совещаний в ближайшие дни.
    Ядерную дубину попова показали на канале Россия 1 Качественная графика , современный дизайн. Да и попов внушительно устрашающий . Подпишись сегодня и узнаешь, что будет завтра В ЧАТ СЮДА🪓 0
    Instruct: Retrieve semantically similar text.
    Query: An alle Maskenbefürworter Schaut Euch dieses Video an, und entscheidet selbst wie Ihr mit Eurer Gesundheit umgehen wollt ! Hier wird die CO2 Konzentration unter der Maske gemessen.
    Das mit den Masken, sozusagen wie einfach es ist Double hinzustellen und die Leute zu verarschen, zu belügen und zu betrügen, zeigte uns schon Stefan Raab. Wahrheit macht frei und Freiheit macht wahr Denk selbst und informiere Dich 0
    Instruct: Retrieve semantically similar text.
    Query: Elementares Bor in flüssiger und ionischer Form ~ hochdosiert mit 3 mg~ Elementares Bor enthält konzentrierte Mineraltropfen (CMD), ein besonderes Meerwasserkonzentrat mit vollem Spektrum an Mineralstoffen und Spurenelementen. Fast vollständig von Natrium befreit, wird es durch Sonnenenergie natürlich konzentriert und mit zusätzlichem Bor in Form von Natriumborat ergänzt. leicht resorbierbar durch die gelöste, ionische Form Meerwasserkonzentrat aus dem Großen Salzsee in Utah, Vereinigte Staaten ideal dosierbar mit Opti-Dose-Tropfer Besonderheiten des Herstellers Vitals: erfüllt höchste Qualitätsanforderungen (ISO 22000) verwendet hochwertige Rohstoffe Nahrungsergänzungsmittel seit 1988 Die bio-apo lebt die ganzheitliche Philosophie schon seit über 25 Jahren. Elementares Bor empfehle ich dir hier Mit dem Code "vital15" schenken wir dir 15% Rabatt.
    Beitrag zu 10 : 05 Ich esse sehr viele Früchte und Zucker , wie meine Grosseltern auch getan haben . Trotzdem hatte Niemand von uns Diabetes . Meine Schwester ist allergisch auf Fruchtzucker und isst auch sonst selten Süsses . Trotzdem hat sie Probleme mit zu hohen Zuckerwerten ! Impfungen und Fertignahrung sind die Hauptursache . Denkt immer daran , dass wir in jedem Bereich angelogen werden . Vitamine wurden auch nie isoliert und diese "Vitaminpräparate" sind Chemie und sehr schädlich , was sich erst Jahre später bemerkbar macht . Übrigens war die Pharmalobby , die schrieb , dass zu wenig Vitamine in Früchte und Gemüse enthalten sei . Damit "Vitaminmittel" überhaupt verkauft werden , muss man ja ein Mangel haben . 0
  • Loss: AnglELoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "pairwise_angle_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_eval_batch_size: 16
  • gradient_accumulation_steps: 8
  • learning_rate: 2e-05
  • num_train_epochs: 2
  • warmup_ratio: 0.1
  • fp16: True
  • push_to_hub: True
  • hub_model_id: Sami92/multiling-e5-large-instruct-claim-matching
  • push_to_hub_model_id: multiling-e5-large-instruct-claim-matching

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 8
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 8
  • eval_accumulation_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 2
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: True
  • resume_from_checkpoint: None
  • hub_model_id: Sami92/multiling-e5-large-instruct-claim-matching
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: multiling-e5-large-instruct-claim-matching
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss loss FineTuned_8_max_ap
0 0 - - 0.4155
0.1252 100 3.1911 0.3698 0.4095
0.2504 200 3.0285 0.3700 0.4180
0.3756 300 2.9879 0.3623 0.3774
0.5009 400 2.9907 0.3641 0.4271
0.6261 500 2.9632 0.3441 0.4599
0.7513 600 2.9207 0.3323 0.4447
0.8765 700 2.9043 0.3271 0.5012

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.0.1
  • Transformers: 4.41.2
  • PyTorch: 2.3.1+cu121
  • Accelerate: 0.32.0
  • Datasets: 2.20.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

AnglELoss

@misc{li2023angleoptimized,
    title={AnglE-optimized Text Embeddings}, 
    author={Xianming Li and Jing Li},
    year={2023},
    eprint={2309.12871},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}