SentenceTransformer based on hiiamsid/sentence_similarity_spanish_es
This is a sentence-transformers model finetuned from hiiamsid/sentence_similarity_spanish_es. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: hiiamsid/sentence_similarity_spanish_es
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 tokens
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("igmochang/CR-biodiversity-sentence-similarity-es")
# Run inference
sentences = [
'Explica la importancia ecológica y médica de la especie mencionada en el contexto de la serpiente que tiene un sistema inmunológico capaz de soportar veneno de Bothrops.',
'El cuerpo es cilíndrico con la cola medianamente larga. La escamación cefálica comprende una rostral, dos internasales, dos prefrontales, una frontal, dos parietales, una loreal, una nasal, una preocular y dos postoculares; presenta 2-2 6 2-3 temporales; 8 ó 9 supralabiales y 8 infralabiales; presenta dos pares de geneiales. Tiene 19 hileras de escamas dorsales (la diferencia más importante con su congénere C. scytalina), con reducción, lisas y con fosetas apicales; las ventrales son redondeadas; Ia placa anal se presenta entera y las subcaudales están divididas. La coloración es uniforme con o sin banda transversal cefálica (nucal). Los juveniles tienen una coloración completamente diferente, que consiste en un color de fondo rojo en todo el cuerpo, una banda nucal amarilla o clara y la cabeza negra.. Ciclo anual: . Distribución regional: Desde Yucatán, México, hasta el norte de Argentina.. Fenología: . Usos: Su sistema inmunológico es capaz de soportar varios cc de veneno de Bothrops lo que la hace de potencial interés médico. Es una especie que sirve como controlador de serpientes venenosas vipéridas..\n2687 | Nombre científico: Euphoria candezei. Nombres comunes: Escarabajo de las frutas. | Descripcion: Cuerpo: de 17,5 a 23,2 mm de longitud y de 9,2 a 12,2 mm de ancho. La coloración dorsal y ventral del cuerpo, incluyendo el pigidio y las patas, es verde vidrioso, pero raramente aparecen individuos con tonalidad rojiza bastante llamativa. El pronoto y los élitros son lisos, presentando puntuaciones poco llamativas en la parte superior, mientras que en la parte posterior de los élitros y pigidio se presentan rugosidades onduladas bastante características. Se presentan sedas blanquecinas, especialmente evidentes en el área ventral. El borde anterior del clípeo presenta un par de dientes dirigidos hacia arriba y dorsalmente la cabeza es cóncava en el área correspondiente a la frente y el clípeo, con una muy leve elevación longitudinal en la parte central. Las antenas de los machos presentan una maza antenal más voluminosa que la de las hembras. El pronoto presenta una carina lateral bien marcada y completa, y el borde posterior presenta una escotadura correspondiente al borde anterior del escutelo, el cual es grande y está expuesto. Las tibias anteriores presentan tres dientes externos evidentes. Las tibias anteriores de los machos tienden a ser más estilizadas que las de las hembras. Los fémures medios y posteriores presentan ventralmente una carina longitudinal claramente definida cerca del borde posterior y de la cual sale una hilera de sedas. Las tibias medias y posteriores presentan una evidente hilera de sedas muy juntas y relativamente largas en el borde interno dorsal. Las coxas medias están bien separadas por el tubérculo mesosternal, el cual es relativamente ancho y de forma pentagonal en vista ventral (fig ). Propleura con una quilla pronunciada cercana y paralela a la sutura que la separa del preproesterno. Diferenciación de sexos: Los machos presentan antenas con maza más voluminosa que las hembras (figs ) y el abdomen de ellos, vista de perfil, tiende a ser cóncavo, mientras que el de las hembras tiende a ser más recto o convexo. Además las tibias anteriores de los machos tienden a ser más estilizadas que las de las hembras.. Ciclo anual: . Distribución regional: Especie de distribución amplia hacia el norte, mientras que en el sur sólo ha sido hallada en Panamá.',
'Usos: .\n3528 | Nombre científico: Physcia alba. Nombres comunes: Liquen | Descripcion: Talo folioso, ligeramente unido al sustrato, mide hasta 5 cm de diámetro; tiene lóbulos de planos a casi cóncavos, de 1,5 mm de ancho, pero generalmente más angostos, distintamente separados o algunas veces traslapados. La superficie superior es de gris blanquecina a amarillo tenue, sin gránulos de oxalato de calcio (pruina), ésta superficie reacciona ante el hidróxido de potasio tornándose amarillo (K+). No hay soredios, isidios ni máculas. Médula blanca. La superficie inferior es pálida y presenta rizinas. Los apotecios son abundantes, miden de 1 a 2 mm de diámetro; tiene un disco de color marrón sin gránulos de oxalato de calcio (pruina).. Ciclo anual: . Distribución regional: Desde el suroeste de Norteamérica hasta el noroeste de Suramérica.. Fenología: . Usos: .\n1210 | Nombre científico: Aythya affinis. Nombres comunes: Porrón menor | Descripcion: Mide 43 cm. y pesa 800 grs. La lista alar blanca es corta y diagnóstica; el iris es amarillo. En el adulto macho la cabeza es negra con un lustre purpúreo y la coronilla notoriamente elevada. El pecho, las coberteras caudales y la cola son de color negro. El resto del plumaje del cuerpo es blanco, burdamente vermiculado con negro en el manto y los flancos. El pico es azulado claro con la punta negra. La hembra es casi toda café opaco oscuro, con la cabeza más oscura. El manto y el costado presentan un escamado más claro y poco marcado. El parche blanco que rodea la base del pico es gris oscuro y el abdomen es blanco.. Ciclo anual: Es una especie migratoria neártica (ver Distribución en Costa Rica). Asimismo. efectúa movimientos estacionales pronunciados, relacionados con cambios en el nivel del agua de su hábitat.. Distribución regional: Se reproduce desde la parte central de Alaska y de Canadá hasta el noroeste y la parte central de E.U.A. Invierna hasta el norte de Suramérica, Antillas y Hawaii.. Fenología: . Usos: Es una especie apreciada por los cazadores como cacería deportiva y también para aprovechar su carne..\n1586 | Nombre científico: Cymbilaimus lineatus. Nombres comunes: Batará lineado | Descripcion: Mide 18 cm. y pesa 41 grs. Son de cuerpo grueso y cresta despelucada, y de pico muy robusto, fuertemente ganchudo; el plumaje luce un barreteado fino por encima y por debajo. Los machos adultos son negros por encima, con un barreteado blanco muy angosto en todas partes excepto en la coronilla y la parte posterior del cuello. La región inferior presenta un barreteado fino y uniforme de color blanco y negro. La hembra muestra la coronilla rufo castaño, y la frente y el resto de la región superior de color negro, con un barreteado ante grueso. Por debajo exhibe un ante más claro, especialmente en la garganta, y un barreteado negro abundante en los lados del pecho y menos denso en la garganta, centro del pecho y el abdomen. El iris es rojo, la maxila es negra, y la mandíbula y patas gris azulado pálido. Los especímenes juveniles son semejantes a la hembra adulta, pero con un barreteado negro en la coronilla y marcas blancuzcas en el ala y la cola.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Information Retrieval
- Evaluated with
InformationRetrievalEvaluator
Metric | Value |
---|---|
cosine_accuracy@1 | 0.6918 |
cosine_accuracy@3 | 0.7831 |
cosine_accuracy@5 | 0.818 |
cosine_accuracy@10 | 0.8501 |
cosine_precision@1 | 0.6918 |
cosine_precision@3 | 0.261 |
cosine_precision@5 | 0.1636 |
cosine_precision@10 | 0.085 |
cosine_recall@1 | 0.6918 |
cosine_recall@3 | 0.7831 |
cosine_recall@5 | 0.818 |
cosine_recall@10 | 0.8501 |
cosine_ndcg@10 | 0.7702 |
cosine_mrr@10 | 0.7447 |
cosine_map@100 | 0.7489 |
dot_accuracy@1 | 0.6401 |
dot_accuracy@3 | 0.7602 |
dot_accuracy@5 | 0.8002 |
dot_accuracy@10 | 0.8384 |
dot_precision@1 | 0.6401 |
dot_precision@3 | 0.2534 |
dot_precision@5 | 0.16 |
dot_precision@10 | 0.0838 |
dot_recall@1 | 0.6401 |
dot_recall@3 | 0.7602 |
dot_recall@5 | 0.8002 |
dot_recall@10 | 0.8384 |
dot_ndcg@10 | 0.7404 |
dot_mrr@10 | 0.7089 |
dot_map@100 | 0.7134 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 2,748 training samples
- Columns:
sentence_0
andsentence_1
- Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1 type string string details - min: 18 tokens
- mean: 33.11 tokens
- max: 52 tokens
- min: 498 tokens
- mean: 511.97 tokens
- max: 512 tokens
- Samples:
sentence_0 sentence_1 ¿Cuáles son las características distintivas del esmerejón en términos de tamaño, coloración y morfología, y cómo se diferencian los machos de las hembras?
1407
Describe la morfología y distribución geográfica de Tillandsia subulifera, incluyendo detalles sobre su inflorescencia y el ciclo de floración.
1407
¿Cuáles son las características distintivas de la especie Alzatea verticillata en cuanto a su ramificación y hojas?
Color café parduzco pálido. La parte dorsal siempre es de un gris sombreado o café parduzco con pelos rizados de color café amarillento o crema, tenuemente interpuesto entre las espinas oscuras. No tiene línea anaranjada sobre los costados. La parte ventral y las patas son de color crema o blanco. La cola es bicolor, casi de igual tamaño que la longitud de la cabeza y el cuerpo (LC); es ligeramente peluda con poco o ningún mechón (pelos de 2-4mm. en la punta). La planta de las patas traseras velluda, desde el talón hasta el cojincillo basal.. Ciclo anual: . Distribución regional: Desde México hasta la parte central de Costa Rica, sobre la vertiente pacífica, principalmente. Se localiza desde las tierras bajas hasta los 1.500m.s.n.m... Fenología: . Usos: .
3032 - Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 10per_device_eval_batch_size
: 10num_train_epochs
: 2multi_dataset_batch_sampler
: round_robin
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 10per_device_eval_batch_size
: 10per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1num_train_epochs
: 2max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.0warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Falsehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseeval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseeval_use_gather_object
: Falsebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: round_robin
Training Logs
Epoch | Step | cosine_map@100 |
---|---|---|
0.1818 | 50 | 0.6222 |
0.3636 | 100 | 0.6259 |
0.5455 | 150 | 0.6573 |
0.7273 | 200 | 0.6544 |
0.9091 | 250 | 0.6943 |
1.0 | 275 | 0.7087 |
1.0909 | 300 | 0.7089 |
1.2727 | 350 | 0.7489 |
Framework Versions
- Python: 3.10.12
- Sentence Transformers: 3.1.1
- Transformers: 4.44.2
- PyTorch: 2.4.1+cu121
- Accelerate: 0.34.2
- Datasets: 3.0.0
- Tokenizers: 0.19.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Downloads last month
- 5
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.
Model tree for igmochang/CR-biodiversity-sentence-similarity-es
Base model
hiiamsid/sentence_similarity_spanish_esEvaluation results
- Cosine Accuracy@1 on Unknownself-reported0.692
- Cosine Accuracy@3 on Unknownself-reported0.783
- Cosine Accuracy@5 on Unknownself-reported0.818
- Cosine Accuracy@10 on Unknownself-reported0.850
- Cosine Precision@1 on Unknownself-reported0.692
- Cosine Precision@3 on Unknownself-reported0.261
- Cosine Precision@5 on Unknownself-reported0.164
- Cosine Precision@10 on Unknownself-reported0.085
- Cosine Recall@1 on Unknownself-reported0.692
- Cosine Recall@3 on Unknownself-reported0.783