BGE large Legal Spanish
This is a sentence-transformers model finetuned from BAAI/bge-m3 on the boe_sintetic_question_context dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: BAAI/bge-m3
- Maximum Sequence Length: 8192 tokens
- Output Dimensionality: 1024 dimensions
- Similarity Function: Cosine Similarity
- Training Dataset:
- Language: es
- License: apache-2.0
Model Sources
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("pablosi/bge-m3-trained")
sentences = [
'¿Cuál es la disposición que se refiere a la hora de cierre de los establecimientos públicos en días laborables según el artículo 1.°?',
'n de las adscripciones o representaciones a que\nse refieren distintos apartados del artículo 11,2 del citado De\xad\n\n#### Art. 2:° Los sábados y vísperas de días festivos, los espec- creto orgánico del Consejo Nacional de Educación, táculos podrán terminar y los establecimientos públicos podrán Este Ministerio, haciendo uso de las atribuciones que le con\xad cerrar media hora más tarde de la que se determina en el fiere la disposición final segunda del citado Decreto orgánico, artículo l.° y de conformidad con el dictamen de la Asesoría Jurídica del\n Departamento, ha tenido a bien disponer lo siguiente:\n Art. 3.° La hora de cierre de los frontones podrá prorrogar\xad\nse excepcionalmente, en caso de empate de los partidos, hasta Primero.—Lo dispuesto en el artículo 14 del Decreto 2763/1971,\n\nde 21 de octubre, que organizó el Consejo Nacional de Educa\xad\n\n#### que sea necesaria, siempre que éstos hubieran comenzado a la hora establecida. ción, respecto de los Consejeros que lo fueran por razón de su\n cargo, debe entenderse no sólo respecto de los Consejeros natos,\n Art. 4.° Los bares interiores de los hoteles podrán retrasar sino también de los Consejeros designados por este Ministerio, su hora',
'o corrientes** 0330 ........................\n\n**TOTAL ACTIVO (A+B)** 0340 ........................\n\n**PASIVO Y PATRIMONIO NETO**\n\n\n**A) PASIVO CORRIENTE** 0350 ........................\n\n**I. Periodificaciones** 0360 ........................\n**II. Acreedores y cuentas a pagar** 0370 ........................\n**III. Deudas con empresas del grupo y asociadas a corto plazo** 0380 ........................\n**IV. Deudas a corto plazo** 0390 ........................\n**V. Provisiones a corto plazo** 0400 ........................\n**VI. Otros pasivos corrientes** 0410 ........................\n\n**B) PASIVO NO CORRIENTE** 0420 ........................\n\n**I. Periodificaciones** 0430 ........................\n**II. Pasivos por impuesto diferido** 0440 ........................\n**III. Deudas con empresas del grupo y asociadas a largo plazo** 0450 ........................\n**IV. Deudas a largo plazo** 0460 ........................\n**V. Provisiones a largo plazo** 0470 ........................\n**VI. Otros pasivos no corrientes** 0480 ........................\n**TOTAL PASIVO (A+B)** 0490 ........................\n\n**C) PATRIMONIO NETO** 0500 ........................\n\n**C-1) FONDOS REEMBOLSABLES** 0510 ....',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
Evaluation
Metrics
Information Retrieval
| Metric |
dim_1024 |
dim_768 |
| cosine_accuracy@1 |
0.2242 |
0.2361 |
| cosine_accuracy@3 |
0.7778 |
0.7778 |
| cosine_accuracy@5 |
0.8413 |
0.8373 |
| cosine_accuracy@10 |
0.9087 |
0.9127 |
| cosine_precision@1 |
0.2242 |
0.2361 |
| cosine_precision@3 |
0.2593 |
0.2593 |
| cosine_precision@5 |
0.1683 |
0.1675 |
| cosine_precision@10 |
0.0909 |
0.0913 |
| cosine_recall@1 |
0.2242 |
0.2361 |
| cosine_recall@3 |
0.7778 |
0.7778 |
| cosine_recall@5 |
0.8413 |
0.8373 |
| cosine_recall@10 |
0.9087 |
0.9127 |
| cosine_ndcg@10 |
0.6183 |
0.6243 |
| cosine_mrr@10 |
0.5204 |
0.5273 |
| cosine_map@100 |
0.5242 |
0.5306 |
Training Details
Training Dataset
boe_sintetic_question_context
- Dataset: boe_sintetic_question_context at 2391ba7
- Size: 5,036 training samples
- Columns:
question and context
- Approximate statistics based on the first 1000 samples:
|
question |
context |
| type |
string |
string |
| details |
- min: 3 tokens
- mean: 26.99 tokens
- max: 66 tokens
|
- min: 2 tokens
- mean: 279.97 tokens
- max: 964 tokens
|
- Samples:
| question |
context |
¿Cuáles son las funciones que corresponden a la Vicesecretaría General Técnica en relación con el régimen interior y económico? |
Explotación
###### Artículo octavo y de Señales Marítimas.
A la Vicesecretaría General Técnica corresponden las funcio~
nes relativas al régimen interior y económico, información, Artículo decimosexto iniciativas, derecho de petición, archivo, biblioteca, documen-
La Dirección General de Transportes Terrestres estará. inte-
tación, relaciones internacionales y demás que le encomiende
grada por las siguientes unidades:
el Secretario general Técnico.
- Subdirección General de Planificación y Obras.
###### Articulo noveno - Subdirección General de Explotación.
La Subdirección General de Programación Económica. tendrá Artículo decimoséptimo a. su 'cargo la realización de estudios económicos, elaboración de las estadisticas del Departamento, estudios y proyectos de A la Subdirección General de Planificación y Obras le, correS'" financiación e informes sobre inversiones y realizaciones del ponderá el examen de anteproye... |
¿Qué tipo de documentación oficial deben exhibir los funcionarios y agentes de las administraciones comunes del país limitrofe para acreditar su nacionalidad, identidad, calidad y naturaleza de sus funciones? |
ones conı neD!"'.! . bajo lOS :ıuspicios de la Comisi6n econ6mic:ı Europea petent,sdel pais limitrofe deberiıı llevar el uniforme ıiacional con el fin. de !'acilitar el paso de ıa. fronteras a l:l.'i memıncias o el signo discintivo prescl'ito por los reglamentos de dicho pais. transportadas POl' via .fcrrea. 3. 10s funcionarios y agentes de las administraciones com- aeuerdan 10 siguiente': petentes del pais limitrofe que tengaıı que dirigirse a La esıa
cl6n p:mi la reallzacl6n de la.> ln,pecciones previstas POl' ci pre-
TITULOI sente Convenio queoar:ın dispensados de las formalidades de
pasaportes. La exhibici6n de su documentaci6n cficial ser:i. su-
CreQon y regiınen de cstadorıt's de jronterQ con inspectiones ficiente para acreditar su nacionalidad. su jdenıidad. su ca.lidad
nC!dr...a.!rz ;:u.:::ta-p--.ıcsta:; y la naturaleza de sus funcia:ıes.
4. LCIlI lunciona.rios )' agent.>s mencıonad05 en 105 parra-
Artıculo primero fas 2 y 3 de! presente articulo recibiri... |
¿Cuál es el período máximo de vinculación provisional o a prueba que pueden establecer los estatutos de una sociedad cooperativa de segundo grado? |
ría en los estatutos, que también podrá regular un período de vinculación provisional o a prueba de hasta dos años.
3. El socio persona jurídica que pretenda darse de baja habrá de cursar un preaviso de al menos un año. Trascurrido el periodo de preaviso y antes de su efectiva separación estará obligado a cumplir las obligaciones contraídas con la sociedad cooperativa de segundo grado o a resarcirla económicamente, si así lo decide el consejo rector de esta. Asimismo, salvo previsión estatutaria en contra, la entidad separada deberá continuar desarrollando, durante un plazo no inferior a dos años, aquellos compromisos adquiridos que hubiera asumido con anterioridad a la fecha de la baja.
Artículo 132. Régimen económico.
Las aportaciones obligatorias al capital social de una sociedad cooperativa de segundo grado se realizarán en función de la actividad cooperativizada comprometida con aquella por cada socio.
Artículo 133. Órganos sociales.
1. La asamblea general estará formada po... |
- Loss:
MatryoshkaLoss with these parameters:{
"loss": "MultipleNegativesRankingLoss",
"matryoshka_dims": [
1024,
768
],
"matryoshka_weights": [
1,
1
],
"n_dims_per_step": -1
}
Evaluation Dataset
boe_sintetic_question_context
- Dataset: boe_sintetic_question_context at 2391ba7
- Size: 5,036 evaluation samples
- Columns:
question and context
- Approximate statistics based on the first 1000 samples:
|
question |
context |
| type |
string |
string |
| details |
- min: 4 tokens
- mean: 27.32 tokens
- max: 64 tokens
|
- min: 20 tokens
- mean: 269.89 tokens
- max: 787 tokens
|
- Samples:
| question |
context |
¿Qué tipo de productos están excluidos de la aplicación del Real Decreto 1801/2003, de 26 de diciembre, sobre seguridad general de los productos? |
1801/2003, de 26 de diciembre, sobre seguridad general de los productos, para aquellos productos afectados por este real decreto, a excepción de los productos de renovación del acabado de vehículos. b) Las previstas en la Ley 21/1992, de 16 de julio, de Industria, para los productos de renovación del acabado de vehículos afectados por este real decreto.
2. Los productos objeto de este real decreto serán considerados seguros cuando cumplan, además de los requisitos que les sean exigibles por la legislación vigente, lo dispuesto en este real decreto.
Artículo 6. Información al Ministerio de Medio Ambiente.
Las comunidades autónomas remitirán al Ministerio de Medio Ambiente un informe que contenga los resultados de las medidas del programa de control al que se refiere el artículo 5 y una relación de las categorías y cantidades de producto para cuya compraventa hayan concedido permisos, según lo dispuesto en la disposición adicional segunda, a efectos de su comunicación a l... |
¿En qué artículo de la Constitución se basa el Estado para dictar la legislación procesal mencionada en el texto? |
tencia estatal.
Esta Ley Orgánica se dicta en ejercicio de las competencias atribuidas al Estado en materia de legislación procesal por el artículo 149.1.6.ª de la Constitución.
Disposición final segunda. Entrada en vigor.
La presente Ley Orgánica entrará en vigor el día siguiente al de su publicación en el «Boletín Oficial del Estado».
Por tanto, Mando a todos los españoles, particulares y autoridades, que guarden y hagan guardar esta Ley Orgánica.
Madrid, 5 de junio de 2006.
JUAN CARLOS R.
El Presidente del Gobierno,
JOSÉ LUIS RODRÍGUEZ ZAPATERO
### 9958 LEY 17/2006, de 5 de junio, de la radio y la tele_visión de titularidad estatal.
JUAN CARLOS I
REY DE ESPAÑA
A todos los que la presente vieren y entendieren. Sabed: Que las Cortes Generales han aprobado y Yo vengo en sancionar la siguiente Ley.
EXPOSICIÓN DE MOTIVOS
La Constitución en su artículo 20 garantiza valores de pluralismo, veracidad y accesibilidad con el fin de contribuir a la formación de una opinión pú... |
¿Cuál es el propósito principal de la Comisión Mixta establecida en el Artículo 30? |
Organismos de Enlace de ambas Partes intercambiarán los datos estadísticos relativos a los pagos de prestaciones efectuados a los beneficiarios de una Parte que residan en el territorio de la otra Parte. Dichos datos contendrán el número de beneficiarios y el importe total de las prestaciones abonadas durante cada año civil. 2. Las Autoridades y los Organismos de Enlace de ambas Partes estarán obligados a facilitar, cuando les sean requeridos por la otra Parte, toda la información y datos sobre los sistemas de cálculo de los costes de las prestaciones sanitarias.
Artículo 30. Comisión Mixta.
Con el fin de resolver cuantos problemas puedan surgir en aplicación del Convenio y el presente Acuerdo Administrativo, así como para el seguimiento de los mismos, las Autoridades Competentes de ambas Partes podrán reunirse en Comisión Mixta, asistidas por representantes de sus respectivas Instituciones Competentes.
Artículo 31. Pago de prestaciones.
Las prestaciones que, conforme a la leg... |
- Loss:
MatryoshkaLoss with these parameters:{
"loss": "MultipleNegativesRankingLoss",
"matryoshka_dims": [
1024,
768
],
"matryoshka_weights": [
1,
1
],
"n_dims_per_step": -1
}
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: steps
per_device_train_batch_size: 32
per_device_eval_batch_size: 32
gradient_accumulation_steps: 8
learning_rate: 2e-05
num_train_epochs: 6
lr_scheduler_type: cosine
warmup_ratio: 0.1
bf16: True
tf32: True
dataloader_num_workers: 4
load_best_model_at_end: True
optim: adamw_torch_fused
gradient_checkpointing: True
batch_sampler: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 32
per_device_eval_batch_size: 32
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 8
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 2e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 6
max_steps: -1
lr_scheduler_type: cosine
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: True
fp16: False
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: True
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 4
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: True
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch_fused
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: False
hub_always_push: False
gradient_checkpointing: True
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
dispatch_batches: None
split_batches: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional
Training Logs
| Epoch |
Step |
Training Loss |
Validation Loss |
dim_1024_cosine_ndcg@10 |
dim_768_cosine_ndcg@10 |
| 1.4225 |
25 |
0.1228 |
- |
- |
- |
| 2.8451 |
50 |
0.0449 |
- |
- |
- |
| 4.2817 |
75 |
0.0261 |
- |
- |
- |
| 5.7042 |
100 |
0.0165 |
0.1640 |
0.6183 |
0.6243 |
Framework Versions
- Python: 3.10.14
- Sentence Transformers: 3.3.0
- Transformers: 4.46.2
- PyTorch: 2.2.2
- Accelerate: 1.1.1
- Datasets: 3.1.0
- Tokenizers: 0.20.3
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MatryoshkaLoss
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}