SentenceTransformer

This is a sentence-transformers model trained. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'ModernBertModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("cuadron11/jaunbert-parl-big-ft")
# Run inference
sentences = [
    'Zer esan nahi du bizitzaren sostengarritasunak zaintzaren testuinguruan?',
    '[TOPIC: Mozioa, Eukene Arana Varas Elkarrekin Podemos taldeko legebiltzarkideak aurkeztua, zaintza-lanei, gizarte berdintzaileagoari eta bizitzak erdigunean jartzeko tresnei buruz. Eztabaida eta behin betiko ebazpena]\n[ETXEBARRIETA LEGRAND, (EH Bildu)]:\nEserlekutik, bakarrik kontu pare bat aipatzeko. Zaintzaz hitz egiten ari garenean ez gabiltzalako hitz egiten soilik dependentzia-egoeran dauden pertsonen zaintzaz, Garrido anderea; hitz egiten ari gara pertsona guztiek momenturen batean edo bizitzako edozein momentutan, hobeto esanda, daukagun beharraz, bizitzaren sostengarritasunak hori esan nahi duelako, denok bizitzako edozein momentutan zainduak izateko beharra daukagulako, zaintzeko beharra daukagulako, pertsonak ere badauzkagulako gure inguruan. Beraz, ikuspuntualdaketa batez ari gara hitz egiten, (Date: 07.03.2019)',
    'Hau familietako zaintzaren desagerpenarekin parekatu zenuen eta, gainera, zuek sostengarritasunak kezkatzen zaituztela esan zenuen.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.7500, 0.9648],
#         [0.7500, 1.0000, 0.8008],
#         [0.9648, 0.8008, 0.9961]], dtype=torch.bfloat16)

Evaluation

Metrics

Triplet

Metric Value
cosine_accuracy 0.2274

Training Details

Training Dataset

Unnamed Dataset

  • Size: 8,703 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 9 tokens
    • mean: 20.94 tokens
    • max: 47 tokens
    • min: 137 tokens
    • mean: 185.89 tokens
    • max: 251 tokens
  • Samples:
    anchor positive
    Nork proposatu zuen mendekotasunari erantzuteko zerga berriak sortzea arbuiatzeari buruzko legez besteko proposamena? [TOPIC: MistoaUPyD legebiltzar-taldeak egindako legez besteko proposamena, mendekotasunari erantzuteko zerga berriak sortzea arbuiatzeari buruz. Eztabaida eta behin betiko ebazpena]
    [DAMBORENEA BASTERRECHEA, (PV-ETP)]:
    Bai, oso labur, eserlekutik. Soilik esan nahi dut Aburtok etorkizunera begira egingo zuela hausnarketa hori, baina herrialde honetan zerga-igoera bat onartu dela berriki hark aipatzen zituen gizarte-zerbitzuak bermatzeko. Eta guri berdin zaigu nola deitu: gainkarga, zerga berria… deitu nahi duzuen bezala. badakigu azkenean betikoek ordainduko dutela, herritarrek eta iruzurrik egiten ez dutenek. Eta herrialde honetako norbaitek edo herrialde honetatik kanpoko norbaitek gainkarga bat ezarri behar dela, aberatsenek (Date: 19.02.2015)
    Zein dira Eusko Jaurlaritzaren helburuak zerga-erreformaren bidez? [TOPIC: Galdera, Leire Pinedo Bustamante EH Bildu taldeko legebiltzarkideak lehendakariari egina, zerga-erreformari buruz]
    [OGASUN ETA FINANTZETAKO SAILBURUAK (GATZAGAETXEBARRIA BASTIDA), (EA-NV)]:
    hobetzen dugun, ekintzailetzaren programa hobetzen dugun, enpleguarena ere bai, bergizarteratzeko eta bergizarteratze horretan dauden diru-sarrera bermatzeko hobetu, familia eta lana partekatzea hobetzeko programa ere hobetu, etxebizitzako osagarrien programa ere hobetu egin dugu. Hori da erronka, alde batetik. Bigarrena, gure ongizate-estatua bermatu eta indartu. Osakidetzaren kontratu-programa, beharrezkoa dena eta asetu behar duguna gure herritarren beharrei erantzuteko, hobetu egin dugu. Gure hezkuntza publikoa eta hitzartutakoa, herri-ekimenen aldetik sortutako (Date: 14.11.2014)
    Zein da Euskadin langabeziak izan duen bilakaera azkenaldian? [TOPIC: Galdera, Ekain Rico Lezama Euskal Sozialistak taldeko legebiltzarkideak bigarren lehendakariorde eta Lan eta Enpleguko sailburuari egina, enplegu-datuen bilakaerari buruz]
    [BIGARREN LEHENDAKARIORDE ETA LAN ETA ENPLEGUKO SAILBURUAK (MENDIA CUEVA), (SV-ES)]:
    da euskal herritarrentzat gure 18 ordezkarietatik 17k Espainia osorako aurrekontuak ontzat eman dituztela. Eta berri bikaina da jakitea Euskadin Espainiakoekin koherenteak diren aurrekontuak izango ditugula; horiek sendotuko baitituzte, gaur ikusten ari garen bezala, arrakasta erakutsi duten politikak. Begirada luze hori erabili behar dugu, azaroa hilabete irregularra izaten baita enpleguan. Hala ere, oraingoan jaitsi egin da berriro langabezia lurralde guztietan, sektore guztietan, adin-tarte guztietan; baita gizonen artean ere, baina bereziki emakumeen (Date: 02.12.2022)
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 8,706 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 9 tokens
    • mean: 21.12 tokens
    • max: 45 tokens
    • min: 128 tokens
    • mean: 185.2 tokens
    • max: 261 tokens
    • min: 4 tokens
    • mean: 91.14 tokens
    • max: 232 tokens
  • Samples:
    anchor positive negative
    Zergatik ez du Euskal Sozialistak taldeko legebiltzarkideak onartzen hezkuntzaren kalitatea hobetzeko lege organikoaren aurreproiektua? [TOPIC: Galdera, María Isabel Celaá Diéguez Euskal Sozialistak taldeko legebiltzarkideak Hezkuntza, Hizkuntza Politika eta Kulturako sailburuari egina, hezkuntzaren kalitatea hobetzeko lege organikoari buruz]
    [CELAÁ DIÉGUEZ, (SV-ES)]:
    eta akordio guztiak hautsi baititu, erantzun bakarra eman dakioke: atzera egitea. Gainera, prozesuaren une hau da egokiena, aurreproiektuaren fasean baikaude oraindik. Ministroen Kontseilutik ere ez da sartu. Ezta hori ere. Ez dugu nahi Wert ministroak proposatzen duena, umeak bereizi egiten baititu 14 urte dituztenean, beren abileziak garatu ahal izan baino askoz lehenago. Ez dugu nahi irakasleak kentzen aurreztea, eta, aldiz, errebalidetan gastatzea. Ez dugu nahi, inola ere, errefortzu-tratamendua (Date: 22.02.2013)
    [TOPIC: Galdera, Julen Arzuaga Gumuzio EH Bildu taldeko legebiltzarkideak Segurtasuneko sailburuari egina, foam jaurtigaiek eragiten dituzten kalteei buruz]
    [SEGURTASUNEKO SAILBURUAK (BELTRÁN DE HEREDIA ARRONIZ), (EA-NV)]:
    Esan dizut, Arzuaga jauna, hasierahasieratik ari gara ikertzen egun hartan Bilbon Euskalduna Jauregiaren aurrean eman ziren gertakariak. Baina zuk, antza, dagoeneko egin duzu ikerketa guztia, azterketa zorrotz guztia, ondorioak badituzu, eta ez dizu ezertarako balio egiten ari garen lanak; lan zorrotza da, lan xehatua, inguruabarrak zeintzuk izan ziren zehazteko eta gertakariak zehazki nola izan ziren balioesteko. Zuk esaten duzu pertsona honek, neska honek, emakume gazte honek zauriak jasan (Date: 03.05.2019)
    Zein da EH Bilduren jarrera IRPH indizea erabiltzeari uztearen inguruan? [TOPIC: EH Bildu legebiltzar-taldeak egindako legez besteko proposamena, IRPH indizea erabiltzeari uztearen inguruan. Eztabaida eta behin betiko ebazpena]
    [BEITIALARRANGOITIA LIZARRALDE, (EH Bildu)]:
    Mila esker. Beno, PPren erantzuna espero zitekeena zen. Hala ere, nire hasierako parte hartzean esan dudana esaten ari zaio herritarrei: bakoitza defendatu dadila eta interes orokorra, hor konpon, jakitun epaileek zenbateko astindua eman dioten bai bere legeari eta baita ondoriozkoari ere. Baina uste dut denei, zuen jarrera zuritze nahi horretan, funtsezko zerbait ahaztu zaizuela, eta da epai bat dagoela eta epai horrek nulidadeaz hitz egiten duela. Ez duela hitz egiten ez (Date: 19.06.2014)
    [TOPIC: Galdera, Antonio Damborenea Basterrechea Euskal Talde Popularreko legebiltzarkideak Ekonomiaren Garapen eta Azpiegituretako sailburuari egina, La Navali buruz]
    [DAMBORENEA BASTERRECHEA, (PV-ETP)]:
    ez litzateke hori izango, baizik eta ea Jaurlaritza hau prest dagoen puntapuntako sektore ekonomikoa erortzen uzteko, Euskadin teknologikoki dugunaren modukoa, hain zuzen ere, eta bitxia bada ere, ontzigintzarako oparoa den garaian. Badakit ez gaudela munduko gasolioaren arazoa konpontzeko, ezta ontzigintzarena ere oro har munduan, baina gurea bai, gure enpresetan, hemen –ez zait argi geratu, bestalde, gasolioa igotzearen alde zauden ala ez–, baina jakin nahi nuke Jaurlaritzak –inbertitzaile baten (Date: 05.10.2018)
    Zein da euskal gizartearen iritzia euskal erakundeen inguruan, kontratazio publikoei eta esleipen zuzenei dagokienez? [TOPIC: Galdera, Josu Estarrona Elizondo EH Bildu taldeko legebiltzarkideak lehendakariari egina, kontratazio publikoetan, esleipen zuzenetan, enpresa eta ente publikoetako lanpostuetarako hautaketaprozesuetan… alderdi jakin baten parte edo gertukoa izateagatik abantaila izatearen inguruan]
    [JAURLARITZAKO LEHENDAKARIAK (URKULLU RENTERIA), (EA-NV)]:
    Legebiltzarburu andrea, legebiltzarkideok, sailburuok, jaun-andreok, egun on guztioi. Estarrona jauna, nik ez dakit, zuk diozun bezala, iritzi hori hain zabalduta edo txertatuta dagoen euskal gizartean. Zure iritzia izango da, eta zuk jakingo duzu zergatik diozun. Baina, ez dut uste baieztapen hori frogatu daitekeenik. Berez, alderantziz gertatzen ari da, eta hori erakusten dute euskal gizartearen iritzia ezagutzeko egiten diren ikerketa guztiek. Alde batetik, urtez urte, euskal erakundeen balorazioa, (Date: 07.02.2020)
    Funtsezkoa, berriro diot, gure asmo eta intentzioei dagokienez, eta, Ganbera honen gomendioei jarraiki, aurrera egiten jarraitzeko eta euskal herritarrek duten kalitateko sistema publikoa babesteko egin
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false,
        "directions": [
            "query_to_doc"
        ],
        "partition_mode": "joint",
        "hardness_mode": null,
        "hardness_strength": 0.0
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 64
  • num_train_epochs: 10
  • learning_rate: 1e-05
  • warmup_steps: 0.1
  • eval_strategy: steps
  • per_device_eval_batch_size: 64
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • per_device_train_batch_size: 64
  • num_train_epochs: 10
  • max_steps: -1
  • learning_rate: 1e-05
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: None
  • warmup_steps: 0.1
  • optim: adamw_torch_fused
  • optim_args: None
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • optim_target_modules: None
  • gradient_accumulation_steps: 1
  • average_tokens_across_devices: True
  • max_grad_norm: 1.0
  • label_smoothing_factor: 0.0
  • bf16: False
  • fp16: False
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • use_liger_kernel: False
  • liger_kernel_config: None
  • use_cache: False
  • neftune_noise_alpha: None
  • torch_empty_cache_steps: None
  • auto_find_batch_size: False
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • include_num_input_tokens_seen: no
  • log_level: passive
  • log_level_replica: warning
  • disable_tqdm: False
  • project: huggingface
  • trackio_space_id: trackio
  • eval_strategy: steps
  • per_device_eval_batch_size: 64
  • prediction_loss_only: True
  • eval_on_start: False
  • eval_do_concat_batches: True
  • eval_use_gather_object: False
  • eval_accumulation_steps: None
  • include_for_metrics: []
  • batch_eval_metrics: False
  • save_only_model: False
  • save_on_each_node: False
  • enable_jit_checkpoint: False
  • push_to_hub: False
  • hub_private_repo: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_always_push: False
  • hub_revision: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • restore_callback_states_from_checkpoint: False
  • full_determinism: False
  • seed: 42
  • data_seed: None
  • use_cpu: False
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • dataloader_prefetch_factor: None
  • remove_unused_columns: True
  • label_names: None
  • train_sampling_strategy: random
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • ddp_backend: None
  • ddp_timeout: 1800
  • fsdp: []
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • deepspeed: None
  • debug: []
  • skip_memory_metrics: True
  • do_predict: False
  • resume_from_checkpoint: None
  • warmup_ratio: None
  • local_rank: -1
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss Validation Loss jaunbert-parl-big-ft_cosine_accuracy
3.6765 500 4.2741 7.0580 0.2224
7.3529 1000 4.1527 6.8926 0.2274

Framework Versions

  • Python: 3.11.8
  • Sentence Transformers: 5.3.0
  • Transformers: 5.2.0
  • PyTorch: 2.11.0+cu130
  • Accelerate: 1.13.0
  • Datasets: 4.8.4
  • Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{oord2019representationlearningcontrastivepredictive,
      title={Representation Learning with Contrastive Predictive Coding},
      author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
      year={2019},
      eprint={1807.03748},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/1807.03748},
}
Downloads last month
16
Safetensors
Model size
0.3B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Papers for cuadron11/jaunbert-parl-big-ft

Evaluation results