sdadas
/

mmlw-retrieval-roberta-large-v2

@@ -1,446 +1,92 @@
 ---
-datasets: []
-language: []
-library_name: sentence-transformers
 pipeline_tag: sentence-similarity
 tags:
 - sentence-transformers
-- sentence-similarity
 - feature-extraction
-- generated_from_trainer
-- dataset_size:4748781
-- loss:CachedMultipleNegativesRankingLoss
 widget:
-- source_sentence: '[query]: Czy trudniej zajść w ciążę, jeśli pijesz alkohol?'
-  sentences:
-  - Tak, ważne jest, aby nie pić zbyt dużo żadnego płynu, w tym wody lub alkoholu,
-    przed wykonaniem testu ciążowego. Lepiej jest poczekać, aż naturalnie będziesz
-    musiała oddać mocz. W ten sposób unikniesz rozcieńczenia poziomu hormonu ciążowego
-    i otrzymania fałszywego wyniku "Nie w ciąży".
-  - 'Głównym celem szklarni jest podniesienie temperatury wewnątrz: światło słoneczne
-    dostaje się przez okna, ale nie może wydostać się promieniowanie cieplne, dlatego
-    robi się cieplej. Dzięki temu wydłuża się okres wegetacyjny - wiele rodzajów warzyw,
-    takich jak pomidory i papryka, nie przetrwa przymrozków, dlatego nie można ich
-    sadzić w kwietniu, jeśli ostatnie przymrozki występują w maju. Szklarnia pozwala
-    sadzić te rośliny znacznie wcześniej, a nawet przez cały rok w ciepłych krajach.
-    Innym efektem szklarni jest podwyższenie wilgotności wewnątrz. Kiedy na zewnątrz
-    jest gorąco i sucho, rośliny reagują poprzez zamknięcie niektórych porów, którymi
-    oddychają, lub tracą dużo wody przez parowanie. Wysoka, ale kontrolowana wilgotność
-    pozwala roślinom szybko rosnąć, nie marnując przy tym zbyt dużej ilości wody.'
-  - Spożywanie alkoholu wiąże się z problemami płodności zarówno u mężczyzn, jak i
-    u kobiet. Jeśli pijesz dużo i często, możesz mieć trudności z zajściem w ciążę.
-    Dla kobiet nadmierne picie może również przyczynić się do problemów z miesiączką,
-    takich jak obfite, nieregularne lub brak miesiączki.
-- source_sentence: '[query]: jakie trzy cząstki subatomowe tworzą podstawową strukturę?'
-  sentences:
-  - Szybki czas. Potężna technologia multimedialna z wbudowanym odtwarzaczem multimedialnym
-    QuickTime umożliwia oglądanie filmów internetowych, zwiastunów filmów HD i osobistych
-    multimediów w wielu różnych formatach plików. I pozwala cieszyć się nimi w niezwykle
-    wysokiej jakości.uickTime pozwala zrobić więcej z mediami cyfrowymi. Dzięki QuickTime
-    7 Pro możesz konwertować pliki do różnych formatów oraz nagrywać i edytować swoją
-    pracę. Wtyczki innych firm rozszerzają technologię QuickTime w wielu różnych kierunkach.
-  - Jest klasyfikowany jako lepton. Podobnie jak inne leptony, muon nie jest znany
-    z posiadania jakiejkolwiek podstruktury - to znaczy, nie sądzi się, że jest złożony
-    z jakichkolwiek prostszych cząstek. Muon jest nietrwałą cząstką subatomową o średnim
-    czasie życia wynoszącym 2,2 μs, znacznie dłuższym niż wiele innych cząstek subatomowych.
-  - Trzy podstawowe cząstki subatomowe to proton, neutron i elektron.
-- source_sentence: '[query]: jakie są różne rodzaje płyt tektonicznych?'
   sentences:
-  - 'Istnieje wiele różnych rodzajów trzęsień ziemi: tektoniczne, wulkaniczne i wybuchowe.
-    Rodzaj trzęsienia ziemi zależy od regionu, w którym występuje, oraz od geologicznej
-    budowy tego regionu. Najczęstsze są trzęsienia tektoniczne.'
-  - 'Istnieją trzy rodzaje granic płyt tektonicznych: granice dywergentne, granice
-    konwergentne i granice transformacyjne płyt. Ten obraz przedstawia trzy główne
-    rodzaje granic płyt: dywergentne, konwergentne i transformacyjne.'
-  - 'Chad Fuller, aktor: Hell''s Half Acre. Chad Fuller jest aktorem, producentem,
-    filmowcem i nagradzanym fotografem. Dorastał grając w teatrze na żywo na Ranczu
-    Copper Canyon Ranch, gdzie nakręcono wiele filmów. z siedzibą w Western Kentucky.
-    Jest również współwłaścicielem Fuller & Green Productions. Chad jest także kierownikiem
-    produkcji wielu nagradzanych filmów krótkometrażowych. Był w ...'
-- source_sentence: '[query]: Jaką medyczną nazwą określa się ból kolana z tyłu?'
-  sentences:
-  - Leki do leczenia bólu kolana i zapalenia stawów. Odkryj opcje leczenia i środki
-    zaradcze, aby złagodzić ból kolana. Dowiedz się, jakie leki są dostępne, aby złagodzić
-    ból kolana. Czytaj więcej >>
-  - Co powoduje ból za kolanem? Dlaczego boli mnie z tyłu kolana lub nakolannika?
-    Ból pleców kolana, znany również jako ból tylnej części kolana, może przybierać
-    różne formy, od lekkiego do ostrego bólu za kolanem do bólu w tylnej części kolana
-    przy zginaniu do bólu pleców po siedzeniu.
-  - Mleko skondensowane to produkt mleczny w puszce, trwały w temperaturze pokojowej,
-    zawierający około 60% mniej wody niż zwykłe mleko. ... Mleko skondensowane najlepiej
-    nadaje się do przepisów, w których śmietana kremówka jest składnikiem płynnym,
-    na przykład w wypiekach, ponieważ nie zapewni takiej samej gęstości jak śmietana
-    kremówka i nie ubije się tak dobrze.
-- source_sentence: '[query]: Mam problem ze ścieraniem się jedynek i dwójek - z roku
-    na rok są coraz krótsze, mają poszarpane krawędzie. Podczas swobodnego zacisku
-    szczęki zęby przednie nie ocierają o siebie, problem może wynikać z nieświadomego
-    zgrzytania zębami (którego nigdy nie zauważyłam). Jak wygląda diagnostyka i leczenie
-    takiej ,,przypadłości''''? Zależy mi na zidentyfikowaniu i usunięciu problemu,
-    a następnie na poprawieniu estetyki skróconych zębów. Z góry dziękuję za odpowiedź.'
-  sentences:
-  - Jeżeli ząb przez 10 lat po leczeniu kanałowym nie dawał dolegliwości to możemy
-    mówić o sukcesie. W ciągu tych 10 lat endodoncja, czyli nauka i dziedzina stomatologii
-    zajmująca się leczeniem kanałowym, znacznie rozwinęła. Może zmieniły się także
-    warunki zgryzowe-wystarczy, ze sąsiedni ząb został usunięty i ząb o którym Pani
-    pisze zaczął być mocniej obciążany. Warto rozważyć wykonanie odcinkowe tomografii-mogło
-    dojść do pęknięcia w obrębie korzenia stad ból podczas nagryzania. Przy tak silnych
-    i gwałtownych dolegliwościach ze strony martwego zęba obawiam się, ze przyczyn
-    może być więcej. Bol w okolicach brwi to bardzo nietypowe miejsce promiowania
-    bólu zęba. Warto rozważyć konsultacje z neurologiem, bo zapalnie nerwu trójdzielnego
-    może być niezależnym problemem, na który nałożył się dyskomfort podczas nagryzania.
-    Mam nadzieje, ze dolegliwości szybko ustąpią.
-  - Jeśli możesz, wcześniej oszczędź sobie snu. Spanie przez cały dzień nie jest czymś,
-    do czego normalnie zaprojektowano organizm. Jako bardzo przybliżona średnia, dorośli
-    zwykle wymagają około 7,5 godziny snu na dobę, chociaż indywidualne potrzeby snu
-    mogą się znacznie różnić w zależności od osoby.
-  - Takie przypadki wymagają indywidualnego podjęcia i nie ma złotej metody. Prawdopodobną
-    przyczyną ścierania zębów jest ich nieprawidłowe ustawienie, w związku z tym leczenie
-    ortodontyczne jest zapewne niezbędne. Osobna kwestia to pytanie, co spowodowało
-    niewłaściwe ustawienie szczęki i żuchwy względem siebie - to wymaga konsultacji,
-    najlepiej zespołu dentysta- fizoterapeuta w celu dokładnego postawienia diagnozy
-    i wyeliminowania czynnika, w przeciwnym razie efekty uzyskane leczeniem ortodontyczny
-    mogą być nietrwałe i wada może nawracać. Powinien być to fizjoterapeuta specjalizujący
-    się w leczeniu schorzeń stawu skroniowo-zuchwowego. Dalsze postępowanie może uwzględniać
-    odbudowy kompozytowe w celu uzyskania stabilnych kontaktów zębowych.
----
-# SentenceTransformer
-This is a [sentence-transformers](https://www.SBERT.net) model trained. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
-## Model Details
-### Model Description
-- **Model Type:** Sentence Transformer
-<!-- - **Base model:** [Unknown](https://huggingface.co/unknown) -->
-- **Maximum Sequence Length:** 512 tokens
-- **Output Dimensionality:** 1024 tokens
-- **Similarity Function:** Cosine Similarity
-<!-- - **Training Dataset:** Unknown -->
-<!-- - **Language:** Unknown -->
-<!-- - **License:** Unknown -->
-### Model Sources
-- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
-- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
-- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
-### Full Model Architecture
-```
-SentenceTransformer(
-  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel
-  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
-)
-```
-## Usage
-### Direct Usage (Sentence Transformers)
-First install the Sentence Transformers library:
-```bash
-pip install -U sentence-transformers
-```
-Then you can load this model and run inference.
 ```python
 from sentence_transformers import SentenceTransformer
-# Download from the 🤗 Hub
-model = SentenceTransformer("sentence_transformers_model_id")
-# Run inference
 sentences = [
-    "[query]: Mam problem ze ścieraniem się jedynek i dwójek - z roku na rok są coraz krótsze, mają poszarpane krawędzie. Podczas swobodnego zacisku szczęki zęby przednie nie ocierają o siebie, problem może wynikać z nieświadomego zgrzytania zębami (którego nigdy nie zauważyłam). Jak wygląda diagnostyka i leczenie takiej ,,przypadłości''? Zależy mi na zidentyfikowaniu i usunięciu problemu, a następnie na poprawieniu estetyki skróconych zębów. Z góry dziękuję za odpowiedź.",
-    'Takie przypadki wymagają indywidualnego podjęcia i nie ma złotej metody. Prawdopodobną przyczyną ścierania zębów jest ich nieprawidłowe ustawienie, w związku z tym leczenie ortodontyczne jest zapewne niezbędne. Osobna kwestia to pytanie, co spowodowało niewłaściwe ustawienie szczęki i żuchwy względem siebie - to wymaga konsultacji, najlepiej zespołu dentysta- fizoterapeuta w celu dokładnego postawienia diagnozy i wyeliminowania czynnika, w przeciwnym razie efekty uzyskane leczeniem ortodontyczny mogą być nietrwałe i wada może nawracać. Powinien być to fizjoterapeuta specjalizujący się w leczeniu schorzeń stawu skroniowo-zuchwowego. Dalsze postępowanie może uwzględniać odbudowy kompozytowe w celu uzyskania stabilnych kontaktów zębowych.',
-    'Jeżeli ząb przez 10 lat po leczeniu kanałowym nie dawał dolegliwości to możemy mówić o sukcesie. W ciągu tych 10 lat endodoncja, czyli nauka i dziedzina stomatologii zajmująca się leczeniem kanałowym, znacznie rozwinęła. Może zmieniły się także warunki zgryzowe-wystarczy, ze sąsiedni ząb został usunięty i ząb o którym Pani pisze zaczął być mocniej obciążany. Warto rozważyć wykonanie odcinkowe tomografii-mogło dojść do pęknięcia w obrębie korzenia stad ból podczas nagryzania. Przy tak silnych i gwałtownych dolegliwościach ze strony martwego zęba obawiam się, ze przyczyn może być więcej. Bol w okolicach brwi to bardzo nietypowe miejsce promiowania bólu zęba. Warto rozważyć konsultacje z neurologiem, bo zapalnie nerwu trójdzielnego może być niezależnym problemem, na który nałożył się dyskomfort podczas nagryzania. Mam nadzieje, ze dolegliwości szybko ustąpią.',
 ]
-embeddings = model.encode(sentences)
-print(embeddings.shape)
-# [3, 1024]
-# Get the similarity scores for the embeddings
-similarities = model.similarity(embeddings, embeddings)
-print(similarities.shape)
-# [3, 3]
 ```
-<!--
-### Direct Usage (Transformers)
-<details><summary>Click to see the direct usage in Transformers</summary>
-</details>
--->
-<!--
-### Downstream Usage (Sentence Transformers)
-You can finetune this model on your own dataset.
-<details><summary>Click to expand</summary>
-</details>
--->
-<!--
-### Out-of-Scope Use
-*List how the model may foreseeably be misused and address what users ought not to do with the model.*
--->
-<!--
-## Bias, Risks and Limitations
-*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
--->
-<!--
-### Recommendations
-*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
--->
-## Training Details
-### Training Dataset
-#### Unnamed Dataset
-* Size: 4,748,781 training samples
-* Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>sentence_2</code>
-* Approximate statistics based on the first 1000 samples:
-  |         | sentence_0                                                                         | sentence_1                                                                          | sentence_2                                                                          |
-  |:--------|:-----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
-  | type    | string                                                                             | string                                                                              | string                                                                              |
-  | details | <ul><li>min: 9 tokens</li><li>mean: 23.64 tokens</li><li>max: 341 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 72.39 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 85.93 tokens</li><li>max: 512 tokens</li></ul> |
-* Samples:
-  | sentence_0                                                                                            | sentence_1                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     | sentence_2                                                                                                                                                                                                                                                                                                                                                            |
-  |:------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
-  | <code>[query]: Jak szybko po zapłodnieniu można zobaczyć ciążę na badaniu ultrasonograficznym?</code> | <code>Dopiero 3-4 tygodnie po zapłodnieniu można zobaczyć p��cherzyk ciążowy w macicy. Wewnątrz pęcherzyka ciążowego znajduje się pęcherzyk żółtkowy, który dostarcza odżywienie dla maleńkiego dziecka. 5 tygodni po zapłodnieniu: Dziecko można zobaczyć na badaniu ultrasonograficznym z płynem owodniowym wokół niego.</code>                                                                                                                                                                               | <code>Jak odpowiedzieć na "Mam nadzieję, że wkrótce się spotkamy"? Jeśli chcesz odpowiedzieć, możesz po prostu powiedzieć "Ja też" lub "Super, do usłyszenia". Lub dowolne z kilkudziesięciu zwrotów, które sygnalizują koniec rozmowy. Ale "mam nadzieję, że wkrótce się spotkamy" jest samo w sobie jednym z tych zwrotów, więc wcale nie musisz odpowiadać.</code> |
-  | <code>[query]: Kiedy odbędzie się festiwal piwa w Burlington?</code>                                  | <code>Dziękuję Snape Burlington za przybycie i wsparcie naszego wydarzenia! Przeczytaj, co mieli do powiedzenia, obejrzyj film i poszukaj siebie na zdjęciach! https://burlington.snapd.com/event/820161#/. Burlington Summer Beer FestivalDrugi doroczny Burlington Beer Festival odbył się 17-19 lipca w Spencer Smith Park. Impreza odbyła się w deszcz i blask w weekend. Było wiele możliwości przyjęcia. Wstęp ogólny obejmował jednodniowy wstęp na wydarzenie, festiwal muburlington.snapd.com.</code> | <code>Ośrodek Swaina. Swain Resort jest obecnie zamknięty w sezonie 2016/17. Dziękujemy za nieustanną lojalność wobec naszego ośrodka i czekamy na Was w przyszłym roku w naszym 70. sezonie!!! W międzyczasie wypatrujcie naszych nadchodzących Gravel Grinder, Swamp Stomp, Archery Fest i Beer Fest w nadchodzących miesiącach.</code>                             |
-  | <code>[sts]: Ludzie wychodzą na okno z góry Empire State Building.</code>                             | <code>[sts]: Ludzie patrzący na Empire State Building.</code>                                                                                                                                                                                                                                                                                                                                                                                                                                                  | <code>[sts]: Ludzie patrzący na Wieżę Eiffla z balonu powietrznego.</code>                                                                                                                                                                                                                                                                                            |
-* Loss: [<code>CachedMultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters:
-  ```json
-  {
-      "scale": 100.0,
-      "similarity_fct": "cos_sim"
-  }
-  ```
-### Training Hyperparameters
-#### Non-Default Hyperparameters
-- `eval_strategy`: steps
-- `per_device_train_batch_size`: 2048
-- `per_device_eval_batch_size`: 2048
-- `num_train_epochs`: 10
-- `fp16`: True
-- `disable_tqdm`: True
-- `multi_dataset_batch_sampler`: round_robin
-#### All Hyperparameters
-<details><summary>Click to expand</summary>
-- `overwrite_output_dir`: False
-- `do_predict`: False
-- `eval_strategy`: steps
-- `prediction_loss_only`: True
-- `per_device_train_batch_size`: 2048
-- `per_device_eval_batch_size`: 2048
-- `per_gpu_train_batch_size`: None
-- `per_gpu_eval_batch_size`: None
-- `gradient_accumulation_steps`: 1
-- `eval_accumulation_steps`: None
-- `torch_empty_cache_steps`: None
-- `learning_rate`: 5e-05
-- `weight_decay`: 0.0
-- `adam_beta1`: 0.9
-- `adam_beta2`: 0.999
-- `adam_epsilon`: 1e-08
-- `max_grad_norm`: 1
-- `num_train_epochs`: 10
-- `max_steps`: -1
-- `lr_scheduler_type`: linear
-- `lr_scheduler_kwargs`: {}
-- `warmup_ratio`: 0.0
-- `warmup_steps`: 0
-- `log_level`: passive
-- `log_level_replica`: warning
-- `log_on_each_node`: True
-- `logging_nan_inf_filter`: True
-- `save_safetensors`: True
-- `save_on_each_node`: False
-- `save_only_model`: False
-- `restore_callback_states_from_checkpoint`: False
-- `no_cuda`: False
-- `use_cpu`: False
-- `use_mps_device`: False
-- `seed`: 42
-- `data_seed`: None
-- `jit_mode_eval`: False
-- `use_ipex`: False
-- `bf16`: False
-- `fp16`: True
-- `fp16_opt_level`: O1
-- `half_precision_backend`: auto
-- `bf16_full_eval`: False
-- `fp16_full_eval`: False
-- `tf32`: None
-- `local_rank`: 0
-- `ddp_backend`: None
-- `tpu_num_cores`: None
-- `tpu_metrics_debug`: False
-- `debug`: []
-- `dataloader_drop_last`: False
-- `dataloader_num_workers`: 0
-- `dataloader_prefetch_factor`: None
-- `past_index`: -1
-- `disable_tqdm`: True
-- `remove_unused_columns`: True
-- `label_names`: None
-- `load_best_model_at_end`: False
-- `ignore_data_skip`: False
-- `fsdp`: []
-- `fsdp_min_num_params`: 0
-- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
-- `fsdp_transformer_layer_cls_to_wrap`: None
-- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
-- `deepspeed`: None
-- `label_smoothing_factor`: 0.0
-- `optim`: adamw_torch
-- `optim_args`: None
-- `adafactor`: False
-- `group_by_length`: False
-- `length_column_name`: length
-- `ddp_find_unused_parameters`: None
-- `ddp_bucket_cap_mb`: None
-- `ddp_broadcast_buffers`: False
-- `dataloader_pin_memory`: True
-- `dataloader_persistent_workers`: False
-- `skip_memory_metrics`: True
-- `use_legacy_prediction_loop`: False
-- `push_to_hub`: False
-- `resume_from_checkpoint`: None
-- `hub_model_id`: None
-- `hub_strategy`: every_save
-- `hub_private_repo`: False
-- `hub_always_push`: False
-- `gradient_checkpointing`: False
-- `gradient_checkpointing_kwargs`: None
-- `include_inputs_for_metrics`: False
-- `eval_do_concat_batches`: True
-- `fp16_backend`: auto
-- `push_to_hub_model_id`: None
-- `push_to_hub_organization`: None
-- `mp_parameters`:
-- `auto_find_batch_size`: False
-- `full_determinism`: False
-- `torchdynamo`: None
-- `ray_scope`: last
-- `ddp_timeout`: 1800
-- `torch_compile`: False
-- `torch_compile_backend`: None
-- `torch_compile_mode`: None
-- `dispatch_batches`: None
-- `split_batches`: None
-- `include_tokens_per_second`: False
-- `include_num_input_tokens_seen`: False
-- `neftune_noise_alpha`: None
-- `optim_target_modules`: None
-- `batch_eval_metrics`: False
-- `eval_on_start`: False
-- `eval_use_gather_object`: False
-- `batch_sampler`: batch_sampler
-- `multi_dataset_batch_sampler`: round_robin
-</details>
-### Training Logs
-| Epoch  | Step | Training Loss |
-|:------:|:----:|:-------------:|
-| 0.0862 | 200  | -             |
-| 0.1725 | 400  | -             |
-| 0.2156 | 500  | 0.1704        |
-| 0.2587 | 600  | -             |
-| 0.3450 | 800  | -             |
-| 0.4312 | 1000 | 0.1233        |
-| 0.5175 | 1200 | -             |
-| 0.6037 | 1400 | -             |
-| 0.6468 | 1500 | 0.1169        |
-| 0.6900 | 1600 | -             |
-| 0.7762 | 1800 | -             |
-| 0.8624 | 2000 | 0.1116        |
-| 0.9487 | 2200 | -             |
-| 1.0    | 2319 | -             |
-| 1.0349 | 2400 | -             |
-| 1.0781 | 2500 | 0.1095        |
-| 1.1212 | 2600 | -             |
-| 1.2074 | 2800 | -             |
-| 1.2937 | 3000 | 0.1034        |
-| 1.3799 | 3200 | -             |
-| 1.4661 | 3400 | -             |
-| 1.5093 | 3500 | 0.1016        |
-| 1.5524 | 3600 | -             |
-| 1.6386 | 3800 | -             |
-| 1.7249 | 4000 | 0.1008        |
-### Framework Versions
-- Python: 3.10.12
-- Sentence Transformers: 3.0.1
-- Transformers: 4.44.0
-- PyTorch: 2.4.0a0+3bcc3cddb5.nv24.07
-- Accelerate: 0.33.0
-- Datasets: 2.21.0
-- Tokenizers: 0.19.1
 ## Citation
-### BibTeX
-#### Sentence Transformers
 ```bibtex
-@inproceedings{reimers-2019-sentence-bert,
-    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
-    author = "Reimers, Nils and Gurevych, Iryna",
-    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
-    month = "11",
-    year = "2019",
-    publisher = "Association for Computational Linguistics",
-    url = "https://arxiv.org/abs/1908.10084",
 }
-```
-#### CachedMultipleNegativesRankingLoss
-```bibtex
-@misc{gao2021scaling,
-    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
-    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
-    year={2021},
-    eprint={2101.06983},
-    archivePrefix={arXiv},
-    primaryClass={cs.LG}
-}
-```
-<!--
-## Glossary
-*Clearly define terms in order to be accessible across audiences.*
--->
-<!--
-## Model Card Authors
-*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
--->
-<!--
-## Model Card Contact
-*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
--->

 ---
 pipeline_tag: sentence-similarity
 tags:
 - sentence-transformers
 - feature-extraction
+- sentence-similarity
+- transformers
+- information-retrieval
+language: pl
+license: gemma
 widget:
+- source_sentence: "[query]: Jak dożyć 100 lat?"
   sentences:
+    - "Trzeba zdrowo się odżywiać i uprawiać sport."
+    - "Trzeba pić alkohol, imprezować i jeździć szybkimi autami."
+    - "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
+---
+<h1 align="center">MMLW-retrieval-roberta-large-v2</h1>
+MMLW (muszę mieć lepszą wiadomość) are neural text encoders for Polish. The second version is based on the same foundational model ([polish-roberta-large-v2](https://huggingface.co/sdadas/polish-roberta-large-v2)), but the training process incorporated modern LLM-based English retrievers and rerankers, which led to improved results.
+This model is optimized for information retrieval tasks. It can transform queries and passages to 1024 dimensional vectors.
+The model was developed using a two-step procedure:
+- In the first step, we adapted the model for Polish with [multilingual knowledge distillation method](https://aclanthology.org/2020.emnlp-main.365/) using a diverse corpus of 20 million Polish-English text pairs. We utilised [stella_en_1.5B_v5](https://huggingface.co/NovaSearch/stella_en_1.5B_v5) as the teacher models for distillation.
+- The second step involved fine-tuning the model with contrastrive loss using a dataset consisting of over 4 million queries. Positive and negative passages for each query have been selected with the help of [BAAI/bge-reranker-v2.5-gemma2-lightweight](https://huggingface.co/BAAI/bge-reranker-v2.5-gemma2-lightweight) reranker.
+## Usage (Sentence-Transformers)
+The model supports both information retrieval and semantic textual similarity. For retrieval, queries should be prefixed with **"[query]: "**. For symmetric tasks such as semantic similarity, both texts should be prefixed with **"[sts]: "**.
+Please note that the model uses a custom implementation, so you should add `trust_remote_code=True` argument when loading it.
+It is also recommended to use Flash Attention 2, which can be enabled with `attn_implementation` argument.
+You can use the model like this with [sentence-transformers](https://www.SBERT.net):
 ```python
 from sentence_transformers import SentenceTransformer
+from sentence_transformers.util import cos_sim
+model = SentenceTransformer(
+    "sdadas/mmlw-retrieval-roberta-large-v2",
+    trust_remote_code=True,
+    device="cuda",
+    model_kwargs={"attn_implementation": "flash_attention_2", "trust_remote_code": True}
+)
+# Flash-Attention works only in 16-bit mode, so we need to cast the model to float16 or bfloat16
+model.bfloat16()
+# Retrieval example
+query_prefix = "[query]: "
+queries = [query_prefix + "Jak dożyć 100 lat?"]
+answers = [
+    "Trzeba zdrowo się odżywiać i uprawiać sport.",
+    "Trzeba pić alkohol, imprezować i jeździć szybkimi autami.",
+    "Gdy trwała kampania politycy zapewniali, że rozprawią się z zakazem niedzielnego handlu."
+]
+queries_emb = model.encode(queries, convert_to_tensor=True, show_progress_bar=False)
+answers_emb = model.encode(answers, convert_to_tensor=True, show_progress_bar=False)
+best_answer = cos_sim(queries_emb, answers_emb).argmax().item()
+print(answers[best_answer])
+# Semantic similarity example
+sim_prefix = "[sts]: "
 sentences = [
+    sim_prefix + "Trzeba zdrowo się odżywiać i uprawiać sport.",
+    sim_prefix + "Warto jest prowadzić zdrowy tryb życia, uwzględniający aktywność fizyczną i dietę.",
+    sim_prefix + "One should eat healthy and engage in sports.",
+    sim_prefix + "Zakupy potwierdzasz PINem, który bezpiecznie ustalisz podczas aktywacji."
 ]
+emb = model.encode(sentences, convert_to_tensor=True, show_progress_bar=False)
+print(cos_sim(emb, emb))
 ```
+## Evaluation Results
+The model achieves **NDCG@10** of **60.71** on the Polish Information Retrieval Benchmark. See [PIRB Leaderboard](https://huggingface.co/spaces/sdadas/pirb) for detailed results.
 ## Citation
 ```bibtex
+@inproceedings{dadas2024pirb,
+  title={PIRB: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods},
+  author={Dadas, Slawomir and Pere{\l}kiewicz, Micha{\l} and Po{\'s}wiata, Rafa{\l}},
+  booktitle={Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
+  pages={12761--12774},
+  year={2024}
 }
+```