SentenceTransformer based on alina0195/ro-modernBERT-phase3

This is a sentence-transformers model finetuned from alina0195/ro-modernBERT-phase3. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: alina0195/ro-modernBERT-phase3
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'BertModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("alina0195/ro-modernBERT-phase3-retriever")
# Run inference
sentences = [
    'La ce folosește testarea genotipică a microsateliților?',
    'Genotiparea micro-satelitilor se referă la genotiparea repetitiilor tandem, precum repetitiile scurte în tandem (STR) sau repetitiile nucleotidice variabile în tandem (VNTR), care sunt loci de ADN polimorfice prezente pe tot genomul. Genotiparea micro-satelitilor este un instrument larg acceptat pentru o varietate de aplicații, inclusiv studii de cartografiere a legaturilor, studii de asociere și identificarea organismelor. Chimia cu cinci coloranți a companiei Applied Biosystems crește numărul de markeri micro-satelit pe care îi poate procesa un singur capilar, permițând o productivitate sporită. Figura 1 prezintă un exemplu de 18 loci micro-satelit co-electroforezați într-un singur capilar. Chimia cu cinci coloranți a companiei Applied Biosystems crește numărul de markeri micro-satelit pe care îi poate procesa un singur capilar, permițând o productivitate sporită. Figura 1 prezintă un exemplu de 18 loci micro-satelit co-electroforezați într-un singur capilar.',
    'Microsateliții sunt adesea numiți repetiții tandem scurte (STR) de către geneticații medico-legiști sau repetiții de secvență simple (SSR) de către geneticații de plante. Aceștia sunt folosiți pe scară largă pentru profilarea ADN-ului în analiza de rudenie și identificarea medico-legală. Microsatelitul este o secvență de ADN repetitiv în care anumite motive de ADN (cu o lungime cuprinsă între 2 și 5 perechi de baze) sunt repetate de obicei de 5-50 de ori.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.6133, 0.4626],
#         [0.6133, 1.0000, 0.6448],
#         [0.4626, 0.6448, 1.0000]])

Evaluation

Metrics

Triplet

Metric Value
cosine_accuracy 0.961

Training Details

Training Dataset

Unnamed Dataset

  • Size: 11,661,069 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 5 tokens
    • mean: 11.59 tokens
    • max: 57 tokens
    • min: 20 tokens
    • mean: 87.15 tokens
    • max: 512 tokens
    • min: 22 tokens
    • mean: 87.01 tokens
    • max: 302 tokens
  • Samples:
    anchor positive negative
    Adresa ipotecii bancare americane US BANK HOME MORTGAGE se află în comitatul Daviess, la adresa 4801 Frederica St., Owensboro, KY 42301-7441. Ne puteți contacta la numărul de telefon (270) 689-7000. Sucursala Pueblo a U.S. Bank este una dintre cele 3086 de sucursale ale băncii și deservește nevoile financiare ale clienților din Pueblo, comitatul Pueblo, Colorado de peste 45 de ani. Sucursala Pueblo se află la adresa 3330 North Elizabeth Street, Pueblo. De asemenea, puteți contacta banca sunând la numărul de telefon al sucursalei, care este 719-543-6257. Sucursala Pueblo a U.S. Bank operează ca un birou cu servicii complete. Pentru programul de lucru al biroului, programul de servicii drive-through și serviciile bancare online, vă rugăm să vizitați site-ul oficial al ...
    Ce sunt benzile de respirație Colgate? Ingrijire dentară. Sunteți în căutarea unui plus de albire a dinților? Pasta de dinți Colgate MaxWhite cu Mini-Bright Strips este o pastă de dinți pe care ar fi bine să o luați în considerare dacă vreți să vă albiți zâmbetul prin îndepărtarea petelor de cafea, ceai, tutun sau alți factori de pătare externi. Colgate are o nouă pastă de dinți spumantă. Pun pariu că are o concentrație mare de SLS pentru a produce spumă. Am folosit-o și acum am o rană persistentă pe vârful limbii. Am crezut că mănânc prea multe dulciuri, dar voi încerca să elimin această nouă pastă de dinți.
    Definiția grupului Michelin Michelin, liderul în producția de anvelope, se dedică sporirii mobilității clienților în mod sustenabil; proiectarea și distribuirea anvelopelor, serviciilor și soluțiilor cele mai potrivite pentru nevoile clienților; furnizarea de servicii digitale, hărți și ghiduri care să contribuie la îmbogățirea excursiilor și a călătoriei, transformându-le în experiențe unice; dezvoltarea de materiale de înaltă tehnologie, care să deserbească industria mobilității. Aceste stele sunt râvnite, deoarece marea majoritate a restaurantelor nu primesc nicio stea. De exemplu, ghidul Michelin pentru Chicago pe 2014 include aproape 500 de restaurante. Un singur restaurant a primit trei stele, patru restaurante au primit două stele, iar 20 de restaurante au primit o stea. Michelin nu folosește recenzii ale clienților pentru a determina clasamentul restaurantelor. Stelele Michelin sunt acordate de la 0 la 3 stele, în funcție de recenzii anonime. Recenzorii se concentrează pe calitate, măiestrie tehnică, personalitate și consecvență în ceea ce privește mâncarea.
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "CachedMultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 1,000 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 5 tokens
    • mean: 11.41 tokens
    • max: 31 tokens
    • min: 12 tokens
    • mean: 87.03 tokens
    • max: 236 tokens
    • min: 25 tokens
    • mean: 85.88 tokens
    • max: 512 tokens
  • Samples:
    anchor positive negative
    Cine a scris cântecul „Remember When” de Alan Jackson? „Remember When (cântecul lui Alan Jackson)” este o melodie compusă și înregistrată de artistul american de muzică country Alan Jackson. Lansată în octombrie 2003 ca al doilea și ultimul single de pe albumul său de compilații, Greatest Hits Volume II, a petrecut două săptămâni pe locul 1 în topul Billboard Hot Country Songs din SUA în februarie 2004 și a atins apogeul la locul 29 în topul Billboard Hot 100. Cântecul a fost compus de Bill Mack. Mack a compus cântecul 30 de ani mai devreme pentru a fi înregistrat de Patsy Cline, însă aceasta a decedat într-un accident de avion înainte să înregistreze cântecul.
    sinonim simultan al concurentului concomitent (adjectiv) co-activ, coincident, combinat, concert, cooperant, sincron, sinergic, unit. simultan (adjectiv) însoțitor, coeval, concomitent, contemporan, simultan. Alte sinonime: accesoriu, accidental, accidental, care au loc concomitent; care coincid în timp; contemporane; simultane. 2. care se desfășoară cu aceeași viteză și exact împreună; care se repetă împreună. 3. Fizică, electricitate. care au aceeași frecvență și o diferență de fază nulă.
    Comisioanele pentru cardurile de debit Visa NatWest în străinătate Consulteți ghidul nostru de cheltuire în străinătate pentru a afla care sunt cele mai bune opțiuni. Începând cu 1 iunie, clienții care folosesc cardurile de debit NatWest sau RBS în străinătate vor plăti 2,75% din valoarea tranzacției sau 1%, oricare dintre acestea este mai mare. În prezent, clienții plătesc o taxă de 1,25%, plus 2,75% din valoarea tranzacției de fiecare dată când fac plăți în străinătate. 1 Taxa de autorizare - Dacă cererea dumneavoastră este aprobată și primiți autorizația de a călători în Statele Unite în cadrul Programului de renunțare la viză, o taxă suplimentară de 10,00 USD va fi percepută pe cardul dumneavoastră de credit.
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "CachedMultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • gradient_accumulation_steps: 32
  • learning_rate: 8e-05
  • warmup_ratio: 0.1
  • bf16: True
  • dataloader_num_workers: 4
  • load_best_model_at_end: True
  • ddp_find_unused_parameters: False
  • dataloader_persistent_workers: True
  • gradient_checkpointing: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 32
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 8e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: True
  • dataloader_num_workers: 4
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: False
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: True
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: True
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: True
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss Validation Loss msmarco-ro-dev_cosine_accuracy
-1 -1 - - 0.6000
0.0176 100 16.644 - -
0.0351 200 14.7529 - -
0.0527 300 13.1433 - -
0.0703 400 12.183 - -
0.0878 500 11.3009 - -
0.1054 600 10.5326 - -
0.1229 700 9.767 - -
0.1405 800 9.0279 - -
0.1581 900 8.2913 - -
0.1756 1000 7.5721 5.7590 0.7570
0.1932 1100 6.892 - -
0.2108 1200 6.2673 - -
0.2283 1300 5.7311 - -
0.2459 1400 5.2106 - -
0.2634 1500 4.7958 - -
0.2810 1600 4.3965 - -
0.2986 1700 4.0437 - -
0.3161 1800 3.7438 - -
0.3337 1900 3.4451 - -
0.3513 2000 3.1976 2.3468 0.8550
0.3688 2100 2.9804 - -
0.3864 2200 2.8165 - -
0.4039 2300 2.6556 - -
0.4215 2400 2.4993 - -
0.4391 2500 2.3978 - -
0.4566 2600 2.2767 - -
0.4742 2700 2.1971 - -
0.4918 2800 2.1181 - -
0.5093 2900 2.0167 - -
0.5269 3000 1.9637 1.4216 0.9080
0.5444 3100 1.922 - -
0.5620 3200 1.8444 - -
0.5796 3300 1.7939 - -
0.5971 3400 1.7528 - -
0.6147 3500 1.713 - -
0.6323 3600 1.6624 - -
0.6498 3700 1.6253 - -
0.6674 3800 1.5997 - -
0.6849 3900 1.5641 - -
0.7025 4000 1.5235 1.0477 0.9360
0.7201 4100 1.4901 - -
0.7376 4200 1.4653 - -
0.7552 4300 1.4344 - -
0.7728 4400 1.4062 - -
0.7903 4500 1.3954 - -
0.8079 4600 1.3704 - -
0.8254 4700 1.3485 - -
0.8430 4800 1.329 - -
0.8606 4900 1.3106 - -
0.8781 5000 1.2884 0.8885 0.9440
0.8957 5100 1.2711 - -
0.9133 5200 1.261 - -
0.9308 5300 1.241 - -
0.9484 5400 1.2341 - -
0.9660 5500 1.212 - -
0.9835 5600 1.2056 - -
1.0011 5700 1.1939 - -
1.0186 5800 1.1808 - -
1.0362 5900 1.1663 - -
1.0537 6000 1.1458 0.7563 0.9530
1.0713 6100 1.1473 - -
1.0889 6200 1.1342 - -
1.1064 6300 1.1271 - -
1.1240 6400 1.1041 - -
1.1416 6500 1.1 - -
1.1591 6600 1.0801 - -
1.1767 6700 1.0749 - -
1.1942 6800 1.0656 - -
1.2118 6900 1.0448 - -
1.2294 7000 1.0307 0.6590 0.9610
1.2469 7100 1.0143 - -
1.2645 7200 0.9959 - -
1.2821 7300 0.9858 - -
1.2996 7400 0.9619 - -
1.3172 7500 0.9556 - -
1.3347 7600 0.9437 - -
1.3523 7700 0.9379 - -
1.3699 7800 0.9301 - -
1.3874 7900 0.9321 - -
1.4050 8000 0.9263 0.6200 0.9610

Framework Versions

  • Python: 3.11.13
  • Sentence Transformers: 5.1.1
  • Transformers: 4.56.2
  • PyTorch: 2.9.0+cu128
  • Accelerate: 1.12.0
  • Datasets: 4.4.1
  • Tokenizers: 0.22.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
Downloads last month
23
Safetensors
Model size
0.3B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for alina0195/ro-retriever

Finetuned
(1)
this model

Papers for alina0195/ro-retriever

Evaluation results