SentenceTransformer based on BSC-LT/mRoBERTa
This is a sentence-transformers model finetuned from BSC-LT/mRoBERTa on the trilingual_query_relevance dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: BSC-LT/mRoBERTa
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
- Training Dataset:
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("langtech-innovation/mRoBERTA_retrieval")
# Run inference
query ="Com ha dit Juncker que havia sigut Georgieva com a vicepresidenta?"
sentences = ["La vicepresidenta de la Comissió Europea i responsable de Pressupostos i Recursos Humans, Kristalina Georgieva, ha presentat aquest divendres la seva dimissió i deixarà el càrrec a finals d'any per treballar al Banc Mundial. El president de la CE, Jean-Claude Juncker, ha anunciat en un comunicat que el comissari alemany Günther H. Oettinger assumirà la carpeta de Georgieva, a qui ha definit com una 'excel·lent vicepresidenta'. Amb la vacant de Georgieva, s'iniciarà el procés per nomenar un nou comissari búlgar, que haurà de ser avalat pel Parlament Europeu.",\
"El infierno del Atlético en Segunda División es especialmente duro para Kiko, precisamente el jugador que prestó su imagen a la campaña publicitaria con la que el club madrileño buscó el respaldo de su afición. El más carismático jugador rojiblanco hasta hace unos meses fue objeto el sábado por la noche de un intento de agresión a la salida del estadio, después de la humillante derrota ante el Murcia. Un grupo de los más radicales miembros del Frente Atlético le acusó de ser el principal responsable del descenso y le reprochó con suma dureza no colaborar económicamente con la peña para sufragar sus desplazamientos.",\
"Tras el infructuoso intento de realizar la marcha del domingo, los organizadores lanzaron un comunicado diciendo que 'no estamos asustados, estamos aquí, no cambiaremos (...) Ustedes están asustados, cambiarán y se acostumbrarán'. El İstanbul Onur Yürüyüşü, nombre local de la marcha del orgullo gay, fue organizado por primera vez en 2003, atrayendo según los reportes, entre decenas de miles y cien mil personas en 2014, año en que se celebró el último desfile y se toparía con una serie de bloqueos en los tres años siguientes. El año pasado, a los organizadores no se les brindó permiso para hacer la marcha tras los ataques militares que enfrentó Estambul, y en 2015 la marcha fue detenida cuando iba a comenzar, y la policía empleó chorros de agua y gas lacrimógeno para dispersar a los manifestantes."]
embeddings_sentences = model.encode(sentences)
embeddings_query = model.encode(query)
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings_sentences, embeddings_query)
similarities
tensor([[0.9194],
[0.5663],
[0.4800]])
Evaluation
Metrics
Binary Classification
- Dataset:
trilingual_query_relevance_dev
- Evaluated with
BinaryClassificationEvaluator
Metric | Value |
---|---|
cosine_accuracy | 0.9214 |
cosine_accuracy_threshold | 0.7342 |
cosine_f1 | 0.9215 |
cosine_f1_threshold | 0.7342 |
cosine_precision | 0.9202 |
cosine_recall | 0.9229 |
cosine_ap | 0.9763 |
cosine_mcc | 0.8428 |
Training Details
Training Dataset
- Dataset: trilingual_query_relevance at 32b70c9
- Size: 61,231 training samples
- Columns:
sentence1
,sentence2
, andlabel
- Approximate statistics based on the first 1000 samples:
sentence1 sentence2 label type string string int details - min: 5 tokens
- mean: 14.02 tokens
- max: 81 tokens
- min: 9 tokens
- mean: 88.54 tokens
- max: 391 tokens
- 1: 100.00%
- Samples:
sentence1 sentence2 label Olvidé que tenía un bono e hice una nueva reserva. ¿Se puede aplicar mi bono y obtener un reembolso?
No, no puede aplicar el bono a una reserva que ya se ha pagado.
1
De quina època és típic el clarobscur naturalista en l'obra de Velázquez?
La llum principal, com es dedueix per les ombres que s'aprecien, ve de davant de l'escena. En aquest quadre, ja s'observa l'inici de l'abandonament del clarobscur naturalista de la seva època sevillana. Els focus de llum que més destaquen formen una composició entre la corona d'Apol·lo, la llum de les flames del foc i els reflexos de l'armadura.
1
How Much is The Distance from Nathia Gali to Murree?
The distance from Nathia Gali to Murree is approximately 35 kilometers.
1
- Loss:
ContrastiveLoss
with these parameters:{ "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE", "margin": 0.5, "size_average": true }
Evaluation Dataset
trilingual_query_relevance
- Dataset: trilingual_query_relevance at 32b70c9
- Size: 15,348 evaluation samples
- Columns:
sentence1
,sentence2
, andlabel
- Approximate statistics based on the first 1000 samples:
sentence1 sentence2 label type string string int details - min: 5 tokens
- mean: 14.15 tokens
- max: 170 tokens
- min: 8 tokens
- mean: 91.45 tokens
- max: 483 tokens
- 1: 100.00%
- Samples:
sentence1 sentence2 label ¿Cómo se cancela Diri?
Diri no es un servicio que requiere de un contrato forzoso, así que para cancelarlo solo se debe dejar de pagar. Al dejar de usar la línea por un tiempo de 12 meses, el servicio pasará a inactivo de forma automática.
1
How did whitehead define "experience"?
He also argued that the most basic elements of reality can all be regarded as experiential, indeed that everything is constituted by its experience. He used the term "experience" very broadly, so that even inanimate processes such as electron collisions are said to manifest some degree of experience. In this, he went against Descartes' separation of two different kinds of real existence, either exclusively material or else exclusively mental.
1
¿Cómo te llaman?
Y tú con tus caras y tus nombres, nos dejaste tutearte. Fran, Bebeto, Aldana, Nando, Djukic, Mauro Silva...
1
- Loss:
ContrastiveLoss
with these parameters:{ "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE", "margin": 0.5, "size_average": true }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 2per_device_eval_batch_size
: 2num_train_epochs
: 4warmup_ratio
: 0.1fp16
: Trueload_best_model_at_end
: Truegradient_checkpointing
: True
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 2per_device_eval_batch_size
: 2per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 4max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Truefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Trueignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Truegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: proportional
Framework Versions
- Python: 3.10.16
- Sentence Transformers: 3.4.1
- Transformers: 4.49.0
- PyTorch: 2.5.1+cu124
- Accelerate: 1.2.1
- Datasets: 3.2.0
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
ContrastiveLoss
@inproceedings{hadsell2006dimensionality,
author={Hadsell, R. and Chopra, S. and LeCun, Y.},
booktitle={2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06)},
title={Dimensionality Reduction by Learning an Invariant Mapping},
year={2006},
volume={2},
number={},
pages={1735-1742},
doi={10.1109/CVPR.2006.100}
}
- Downloads last month
- 97
Inference Providers
NEW
This model is not currently available via any of the supported Inference Providers.
Model tree for langtech-innovation/mRoBERTA_retrieval
Base model
BSC-LT/mRoBERTaDataset used to train langtech-innovation/mRoBERTA_retrieval
Evaluation results
- Cosine Accuracy on trilingual query relevance devself-reported0.921
- Cosine Accuracy Threshold on trilingual query relevance devself-reported0.734
- Cosine F1 on trilingual query relevance devself-reported0.922
- Cosine F1 Threshold on trilingual query relevance devself-reported0.734
- Cosine Precision on trilingual query relevance devself-reported0.920
- Cosine Recall on trilingual query relevance devself-reported0.923
- Cosine Ap on trilingual query relevance devself-reported0.976
- Cosine Mcc on trilingual query relevance devself-reported0.843