SentenceTransformer
This is a sentence-transformers model trained. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Maximum Sequence Length: 8192 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'ModernBertModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("cuadron11/jaunbert-parl-big-ft")
sentences = [
'Zer esan nahi du bizitzaren sostengarritasunak zaintzaren testuinguruan?',
'[TOPIC: Mozioa, Eukene Arana Varas Elkarrekin Podemos taldeko legebiltzarkideak aurkeztua, zaintza-lanei, gizarte berdintzaileagoari eta bizitzak erdigunean jartzeko tresnei buruz. Eztabaida eta behin betiko ebazpena]\n[ETXEBARRIETA LEGRAND, (EH Bildu)]:\nEserlekutik, bakarrik kontu pare bat aipatzeko. Zaintzaz hitz egiten ari garenean ez gabiltzalako hitz egiten soilik dependentzia-egoeran dauden pertsonen zaintzaz, Garrido anderea; hitz egiten ari gara pertsona guztiek momenturen batean edo bizitzako edozein momentutan, hobeto esanda, daukagun beharraz, bizitzaren sostengarritasunak hori esan nahi duelako, denok bizitzako edozein momentutan zainduak izateko beharra daukagulako, zaintzeko beharra daukagulako, pertsonak ere badauzkagulako gure inguruan. Beraz, ikuspuntualdaketa batez ari gara hitz egiten, (Date: 07.03.2019)',
'Hau familietako zaintzaren desagerpenarekin parekatu zenuen eta, gainera, zuek sostengarritasunak kezkatzen zaituztela esan zenuen.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities)
Evaluation
Metrics
Triplet
| Metric |
Value |
| cosine_accuracy |
0.2274 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 8,703 training samples
- Columns:
anchor and positive
- Approximate statistics based on the first 1000 samples:
|
anchor |
positive |
| type |
string |
string |
| details |
- min: 9 tokens
- mean: 20.94 tokens
- max: 47 tokens
|
- min: 137 tokens
- mean: 185.89 tokens
- max: 251 tokens
|
- Samples:
| anchor |
positive |
Nork proposatu zuen mendekotasunari erantzuteko zerga berriak sortzea arbuiatzeari buruzko legez besteko proposamena? |
[TOPIC: MistoaUPyD legebiltzar-taldeak egindako legez besteko proposamena, mendekotasunari erantzuteko zerga berriak sortzea arbuiatzeari buruz. Eztabaida eta behin betiko ebazpena] [DAMBORENEA BASTERRECHEA, (PV-ETP)]: Bai, oso labur, eserlekutik. Soilik esan nahi dut Aburtok etorkizunera begira egingo zuela hausnarketa hori, baina herrialde honetan zerga-igoera bat onartu dela berriki hark aipatzen zituen gizarte-zerbitzuak bermatzeko. Eta guri berdin zaigu nola deitu: gainkarga, zerga berria… deitu nahi duzuen bezala. badakigu azkenean betikoek ordainduko dutela, herritarrek eta iruzurrik egiten ez dutenek. Eta herrialde honetako norbaitek edo herrialde honetatik kanpoko norbaitek gainkarga bat ezarri behar dela, aberatsenek (Date: 19.02.2015) |
Zein dira Eusko Jaurlaritzaren helburuak zerga-erreformaren bidez? |
[TOPIC: Galdera, Leire Pinedo Bustamante EH Bildu taldeko legebiltzarkideak lehendakariari egina, zerga-erreformari buruz] [OGASUN ETA FINANTZETAKO SAILBURUAK (GATZAGAETXEBARRIA BASTIDA), (EA-NV)]: hobetzen dugun, ekintzailetzaren programa hobetzen dugun, enpleguarena ere bai, bergizarteratzeko eta bergizarteratze horretan dauden diru-sarrera bermatzeko hobetu, familia eta lana partekatzea hobetzeko programa ere hobetu, etxebizitzako osagarrien programa ere hobetu egin dugu. Hori da erronka, alde batetik. Bigarrena, gure ongizate-estatua bermatu eta indartu. Osakidetzaren kontratu-programa, beharrezkoa dena eta asetu behar duguna gure herritarren beharrei erantzuteko, hobetu egin dugu. Gure hezkuntza publikoa eta hitzartutakoa, herri-ekimenen aldetik sortutako (Date: 14.11.2014) |
Zein da Euskadin langabeziak izan duen bilakaera azkenaldian? |
[TOPIC: Galdera, Ekain Rico Lezama Euskal Sozialistak taldeko legebiltzarkideak bigarren lehendakariorde eta Lan eta Enpleguko sailburuari egina, enplegu-datuen bilakaerari buruz] [BIGARREN LEHENDAKARIORDE ETA LAN ETA ENPLEGUKO SAILBURUAK (MENDIA CUEVA), (SV-ES)]: da euskal herritarrentzat gure 18 ordezkarietatik 17k Espainia osorako aurrekontuak ontzat eman dituztela. Eta berri bikaina da jakitea Euskadin Espainiakoekin koherenteak diren aurrekontuak izango ditugula; horiek sendotuko baitituzte, gaur ikusten ari garen bezala, arrakasta erakutsi duten politikak. Begirada luze hori erabili behar dugu, azaroa hilabete irregularra izaten baita enpleguan. Hala ere, oraingoan jaitsi egin da berriro langabezia lurralde guztietan, sektore guztietan, adin-tarte guztietan; baita gizonen artean ere, baina bereziki emakumeen (Date: 02.12.2022) |
- Loss:
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"gather_across_devices": false,
"directions": [
"query_to_doc"
],
"partition_mode": "joint",
"hardness_mode": null,
"hardness_strength": 0.0
}
Evaluation Dataset
Unnamed Dataset
- Size: 8,706 evaluation samples
- Columns:
anchor, positive, and negative
- Approximate statistics based on the first 1000 samples:
|
anchor |
positive |
negative |
| type |
string |
string |
string |
| details |
- min: 9 tokens
- mean: 21.12 tokens
- max: 45 tokens
|
- min: 128 tokens
- mean: 185.2 tokens
- max: 261 tokens
|
- min: 4 tokens
- mean: 91.14 tokens
- max: 232 tokens
|
- Samples:
| anchor |
positive |
negative |
Zergatik ez du Euskal Sozialistak taldeko legebiltzarkideak onartzen hezkuntzaren kalitatea hobetzeko lege organikoaren aurreproiektua? |
[TOPIC: Galdera, María Isabel Celaá Diéguez Euskal Sozialistak taldeko legebiltzarkideak Hezkuntza, Hizkuntza Politika eta Kulturako sailburuari egina, hezkuntzaren kalitatea hobetzeko lege organikoari buruz] [CELAÁ DIÉGUEZ, (SV-ES)]: eta akordio guztiak hautsi baititu, erantzun bakarra eman dakioke: atzera egitea. Gainera, prozesuaren une hau da egokiena, aurreproiektuaren fasean baikaude oraindik. Ministroen Kontseilutik ere ez da sartu. Ezta hori ere. Ez dugu nahi Wert ministroak proposatzen duena, umeak bereizi egiten baititu 14 urte dituztenean, beren abileziak garatu ahal izan baino askoz lehenago. Ez dugu nahi irakasleak kentzen aurreztea, eta, aldiz, errebalidetan gastatzea. Ez dugu nahi, inola ere, errefortzu-tratamendua (Date: 22.02.2013) |
[TOPIC: Galdera, Julen Arzuaga Gumuzio EH Bildu taldeko legebiltzarkideak Segurtasuneko sailburuari egina, foam jaurtigaiek eragiten dituzten kalteei buruz] [SEGURTASUNEKO SAILBURUAK (BELTRÁN DE HEREDIA ARRONIZ), (EA-NV)]: Esan dizut, Arzuaga jauna, hasierahasieratik ari gara ikertzen egun hartan Bilbon Euskalduna Jauregiaren aurrean eman ziren gertakariak. Baina zuk, antza, dagoeneko egin duzu ikerketa guztia, azterketa zorrotz guztia, ondorioak badituzu, eta ez dizu ezertarako balio egiten ari garen lanak; lan zorrotza da, lan xehatua, inguruabarrak zeintzuk izan ziren zehazteko eta gertakariak zehazki nola izan ziren balioesteko. Zuk esaten duzu pertsona honek, neska honek, emakume gazte honek zauriak jasan (Date: 03.05.2019) |
Zein da EH Bilduren jarrera IRPH indizea erabiltzeari uztearen inguruan? |
[TOPIC: EH Bildu legebiltzar-taldeak egindako legez besteko proposamena, IRPH indizea erabiltzeari uztearen inguruan. Eztabaida eta behin betiko ebazpena] [BEITIALARRANGOITIA LIZARRALDE, (EH Bildu)]: Mila esker. Beno, PPren erantzuna espero zitekeena zen. Hala ere, nire hasierako parte hartzean esan dudana esaten ari zaio herritarrei: bakoitza defendatu dadila eta interes orokorra, hor konpon, jakitun epaileek zenbateko astindua eman dioten bai bere legeari eta baita ondoriozkoari ere. Baina uste dut denei, zuen jarrera zuritze nahi horretan, funtsezko zerbait ahaztu zaizuela, eta da epai bat dagoela eta epai horrek nulidadeaz hitz egiten duela. Ez duela hitz egiten ez (Date: 19.06.2014) |
[TOPIC: Galdera, Antonio Damborenea Basterrechea Euskal Talde Popularreko legebiltzarkideak Ekonomiaren Garapen eta Azpiegituretako sailburuari egina, La Navali buruz] [DAMBORENEA BASTERRECHEA, (PV-ETP)]: ez litzateke hori izango, baizik eta ea Jaurlaritza hau prest dagoen puntapuntako sektore ekonomikoa erortzen uzteko, Euskadin teknologikoki dugunaren modukoa, hain zuzen ere, eta bitxia bada ere, ontzigintzarako oparoa den garaian. Badakit ez gaudela munduko gasolioaren arazoa konpontzeko, ezta ontzigintzarena ere oro har munduan, baina gurea bai, gure enpresetan, hemen –ez zait argi geratu, bestalde, gasolioa igotzearen alde zauden ala ez–, baina jakin nahi nuke Jaurlaritzak –inbertitzaile baten (Date: 05.10.2018) |
Zein da euskal gizartearen iritzia euskal erakundeen inguruan, kontratazio publikoei eta esleipen zuzenei dagokienez? |
[TOPIC: Galdera, Josu Estarrona Elizondo EH Bildu taldeko legebiltzarkideak lehendakariari egina, kontratazio publikoetan, esleipen zuzenetan, enpresa eta ente publikoetako lanpostuetarako hautaketaprozesuetan… alderdi jakin baten parte edo gertukoa izateagatik abantaila izatearen inguruan] [JAURLARITZAKO LEHENDAKARIAK (URKULLU RENTERIA), (EA-NV)]: Legebiltzarburu andrea, legebiltzarkideok, sailburuok, jaun-andreok, egun on guztioi. Estarrona jauna, nik ez dakit, zuk diozun bezala, iritzi hori hain zabalduta edo txertatuta dagoen euskal gizartean. Zure iritzia izango da, eta zuk jakingo duzu zergatik diozun. Baina, ez dut uste baieztapen hori frogatu daitekeenik. Berez, alderantziz gertatzen ari da, eta hori erakusten dute euskal gizartearen iritzia ezagutzeko egiten diren ikerketa guztiek. Alde batetik, urtez urte, euskal erakundeen balorazioa, (Date: 07.02.2020) |
Funtsezkoa, berriro diot, gure asmo eta intentzioei dagokienez, eta, Ganbera honen gomendioei jarraiki, aurrera egiten jarraitzeko eta euskal herritarrek duten kalitateko sistema publikoa babesteko egin |
- Loss:
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"gather_across_devices": false,
"directions": [
"query_to_doc"
],
"partition_mode": "joint",
"hardness_mode": null,
"hardness_strength": 0.0
}
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size: 64
num_train_epochs: 10
learning_rate: 1e-05
warmup_steps: 0.1
eval_strategy: steps
per_device_eval_batch_size: 64
batch_sampler: no_duplicates
All Hyperparameters
Click to expand
per_device_train_batch_size: 64
num_train_epochs: 10
max_steps: -1
learning_rate: 1e-05
lr_scheduler_type: linear
lr_scheduler_kwargs: None
warmup_steps: 0.1
optim: adamw_torch_fused
optim_args: None
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
optim_target_modules: None
gradient_accumulation_steps: 1
average_tokens_across_devices: True
max_grad_norm: 1.0
label_smoothing_factor: 0.0
bf16: False
fp16: False
bf16_full_eval: False
fp16_full_eval: False
tf32: None
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
use_liger_kernel: False
liger_kernel_config: None
use_cache: False
neftune_noise_alpha: None
torch_empty_cache_steps: None
auto_find_batch_size: False
log_on_each_node: True
logging_nan_inf_filter: True
include_num_input_tokens_seen: no
log_level: passive
log_level_replica: warning
disable_tqdm: False
project: huggingface
trackio_space_id: trackio
eval_strategy: steps
per_device_eval_batch_size: 64
prediction_loss_only: True
eval_on_start: False
eval_do_concat_batches: True
eval_use_gather_object: False
eval_accumulation_steps: None
include_for_metrics: []
batch_eval_metrics: False
save_only_model: False
save_on_each_node: False
enable_jit_checkpoint: False
push_to_hub: False
hub_private_repo: None
hub_model_id: None
hub_strategy: every_save
hub_always_push: False
hub_revision: None
load_best_model_at_end: False
ignore_data_skip: False
restore_callback_states_from_checkpoint: False
full_determinism: False
seed: 42
data_seed: None
use_cpu: False
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
parallelism_config: None
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_pin_memory: True
dataloader_persistent_workers: False
dataloader_prefetch_factor: None
remove_unused_columns: True
label_names: None
train_sampling_strategy: random
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
ddp_backend: None
ddp_timeout: 1800
fsdp: []
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
deepspeed: None
debug: []
skip_memory_metrics: True
do_predict: False
resume_from_checkpoint: None
warmup_ratio: None
local_rank: -1
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional
router_mapping: {}
learning_rate_mapping: {}
Training Logs
| Epoch |
Step |
Training Loss |
Validation Loss |
jaunbert-parl-big-ft_cosine_accuracy |
| 3.6765 |
500 |
4.2741 |
7.0580 |
0.2224 |
| 7.3529 |
1000 |
4.1527 |
6.8926 |
0.2274 |
Framework Versions
- Python: 3.11.8
- Sentence Transformers: 5.3.0
- Transformers: 5.2.0
- PyTorch: 2.11.0+cu130
- Accelerate: 1.13.0
- Datasets: 4.8.4
- Tokenizers: 0.22.2
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{oord2019representationlearningcontrastivepredictive,
title={Representation Learning with Contrastive Predictive Coding},
author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
year={2019},
eprint={1807.03748},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/1807.03748},
}