Edit model card

SentenceTransformer based on hiiamsid/sentence_similarity_spanish_es

This is a sentence-transformers model finetuned from hiiamsid/sentence_similarity_spanish_es. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: hiiamsid/sentence_similarity_spanish_es
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("igmochang/CR-biodiversity-sentence-similarity-es")
# Run inference
sentences = [
    'Explica la importancia ecológica y médica de la especie mencionada en el contexto de la serpiente que tiene un sistema inmunológico capaz de soportar veneno de Bothrops.',
    'El cuerpo es cilíndrico con la cola medianamente larga.  La escamación cefálica comprende una rostral, dos internasales, dos prefrontales, una frontal, dos parietales, una loreal, una nasal, una preocular y dos postoculares; presenta  2-2 6 2-3 temporales; 8 ó 9 supralabiales y 8 infralabiales; presenta dos pares de geneiales.  Tiene 19 hileras de escamas dorsales (la diferencia más importante con su congénere C. scytalina), con reducción, lisas y con fosetas apicales; las ventrales son redondeadas; Ia placa anal se presenta entera y las subcaudales están divididas.  La coloración es uniforme con o sin banda transversal cefálica (nucal).  Los juveniles tienen una coloración completamente diferente, que consiste en un color de fondo rojo en todo el cuerpo, una banda nucal amarilla o clara y la cabeza negra.. Ciclo anual: . Distribución regional: Desde Yucatán, México, hasta el norte de Argentina.. Fenología: . Usos: Su sistema inmunológico es capaz de soportar varios cc de veneno de Bothrops lo que la hace de potencial interés médico. Es una especie que sirve como controlador de serpientes venenosas vipéridas..\n2687 | Nombre científico: Euphoria candezei. Nombres comunes: Escarabajo de las frutas. | Descripcion: Cuerpo: de 17,5 a 23,2 mm de longitud y de 9,2 a 12,2 mm de ancho.  La coloración dorsal y ventral del cuerpo, incluyendo el pigidio y las patas, es verde vidrioso, pero raramente aparecen individuos con tonalidad rojiza bastante llamativa.  El pronoto y los élitros son lisos, presentando puntuaciones poco llamativas en la parte superior, mientras que en la parte posterior de los élitros y pigidio se presentan rugosidades onduladas bastante características.  Se presentan sedas blanquecinas, especialmente evidentes en el área ventral. El borde anterior del clípeo presenta un par de dientes dirigidos hacia arriba y dorsalmente la cabeza es cóncava en el área correspondiente a la frente y el clípeo, con una muy leve elevación longitudinal en la parte central.  Las antenas de los machos presentan una maza antenal más voluminosa que la de las hembras.  El pronoto presenta una carina lateral bien marcada y completa, y el borde posterior presenta una escotadura correspondiente al borde anterior del escutelo, el cual  es grande y está expuesto.  Las tibias anteriores presentan tres dientes externos evidentes.  Las tibias anteriores de los machos tienden a ser más estilizadas que las de las hembras.  Los fémures medios y posteriores presentan  ventralmente una carina longitudinal claramente definida cerca del borde posterior y de la cual sale una hilera de sedas.  Las tibias medias y posteriores presentan una evidente hilera de sedas muy juntas y relativamente largas en el borde interno dorsal.  Las coxas medias están bien separadas por el tubérculo mesosternal, el cual es relativamente ancho y de forma pentagonal en vista ventral (fig ). Propleura con una quilla pronunciada cercana y paralela a la sutura que la separa del preproesterno. Diferenciación de sexos:  Los machos presentan antenas con maza más voluminosa que las hembras (figs ) y el abdomen de ellos, vista de perfil, tiende a ser cóncavo, mientras que el de las hembras tiende a ser más recto o convexo.  Además las tibias anteriores de los machos tienden a ser más estilizadas que las de las hembras.. Ciclo anual: . Distribución regional: Especie de distribución amplia hacia el norte, mientras que en el sur sólo ha sido hallada en Panamá.',
    'Usos: .\n3528 | Nombre científico: Physcia alba. Nombres comunes: Liquen | Descripcion: Talo folioso, ligeramente unido al sustrato, mide hasta 5 cm de diámetro; tiene lóbulos de planos a casi cóncavos, de 1,5 mm de ancho, pero generalmente más angostos, distintamente separados o algunas veces traslapados. La superficie superior es de gris blanquecina a amarillo tenue, sin gránulos de oxalato de calcio (pruina), ésta superficie reacciona ante el hidróxido de potasio tornándose amarillo (K+). No hay soredios, isidios ni máculas. Médula blanca. La superficie inferior es pálida y presenta rizinas. Los apotecios son abundantes, miden de 1 a 2 mm de diámetro; tiene un disco de color marrón sin gránulos de oxalato de calcio (pruina).. Ciclo anual: . Distribución regional: Desde el suroeste de Norteamérica hasta el noroeste de Suramérica.. Fenología: . Usos: .\n1210 | Nombre científico: Aythya affinis. Nombres comunes: Porrón menor | Descripcion: Mide 43 cm. y pesa 800 grs. La lista alar blanca es corta y diagnóstica; el iris es amarillo.  En el adulto macho la cabeza es negra con un lustre purpúreo y la coronilla notoriamente elevada. El pecho, las coberteras caudales y la cola son de color negro. El resto del plumaje del cuerpo es blanco, burdamente vermiculado con negro en el manto y los flancos. El pico es azulado claro con la punta negra.  La hembra es casi toda café opaco oscuro, con la cabeza más oscura. El manto y el costado presentan un escamado más claro y poco marcado. El parche blanco que rodea la base del pico es gris oscuro y el abdomen es blanco.. Ciclo anual: Es una especie migratoria neártica (ver Distribución en Costa Rica). Asimismo. efectúa movimientos estacionales pronunciados, relacionados con cambios en el nivel del agua de su hábitat.. Distribución regional: Se reproduce desde la parte central de Alaska y de Canadá hasta el noroeste y la parte central de E.U.A. Invierna hasta el norte de Suramérica, Antillas y Hawaii.. Fenología: . Usos: Es una especie apreciada por los cazadores como cacería deportiva y también para aprovechar su carne..\n1586 | Nombre científico: Cymbilaimus lineatus. Nombres comunes: Batará lineado | Descripcion: Mide 18 cm. y pesa 41 grs. Son de cuerpo grueso y cresta despelucada, y de pico muy robusto, fuertemente ganchudo; el plumaje luce un barreteado fino por encima y por debajo.  Los machos adultos son negros por encima, con un barreteado blanco muy angosto en todas partes excepto en la coronilla y la parte posterior del cuello. La región inferior presenta un barreteado fino y uniforme de color blanco y negro.  La hembra muestra la coronilla rufo castaño, y la frente y el resto de la región superior de color negro, con un barreteado ante grueso. Por debajo exhibe un ante más claro, especialmente en la garganta, y un barreteado negro abundante en los lados del pecho y menos denso en la garganta, centro del pecho y el abdomen. El iris es rojo, la maxila es negra, y la mandíbula y patas gris azulado pálido.  Los especímenes juveniles son semejantes a la hembra adulta, pero con un barreteado negro en la coronilla y marcas blancuzcas en el ala y la cola.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.6918
cosine_accuracy@3 0.7831
cosine_accuracy@5 0.818
cosine_accuracy@10 0.8501
cosine_precision@1 0.6918
cosine_precision@3 0.261
cosine_precision@5 0.1636
cosine_precision@10 0.085
cosine_recall@1 0.6918
cosine_recall@3 0.7831
cosine_recall@5 0.818
cosine_recall@10 0.8501
cosine_ndcg@10 0.7702
cosine_mrr@10 0.7447
cosine_map@100 0.7489
dot_accuracy@1 0.6401
dot_accuracy@3 0.7602
dot_accuracy@5 0.8002
dot_accuracy@10 0.8384
dot_precision@1 0.6401
dot_precision@3 0.2534
dot_precision@5 0.16
dot_precision@10 0.0838
dot_recall@1 0.6401
dot_recall@3 0.7602
dot_recall@5 0.8002
dot_recall@10 0.8384
dot_ndcg@10 0.7404
dot_mrr@10 0.7089
dot_map@100 0.7134

Training Details

Training Dataset

Unnamed Dataset

  • Size: 2,748 training samples
  • Columns: sentence_0 and sentence_1
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1
    type string string
    details
    • min: 18 tokens
    • mean: 33.11 tokens
    • max: 52 tokens
    • min: 498 tokens
    • mean: 511.97 tokens
    • max: 512 tokens
  • Samples:
    sentence_0 sentence_1
    ¿Cuáles son las características distintivas del esmerejón en términos de tamaño, coloración y morfología, y cómo se diferencian los machos de las hembras? 1407
    Describe la morfología y distribución geográfica de Tillandsia subulifera, incluyendo detalles sobre su inflorescencia y el ciclo de floración. 1407
    ¿Cuáles son las características distintivas de la especie Alzatea verticillata en cuanto a su ramificación y hojas? Color café parduzco pálido. La parte dorsal siempre es de un gris sombreado o café parduzco con pelos rizados de color café amarillento o crema, tenuemente interpuesto entre las espinas oscuras. No tiene línea anaranjada sobre los costados. La parte ventral y las patas son de color crema o blanco. La cola es bicolor, casi de igual tamaño que la longitud de la cabeza y el cuerpo (LC); es ligeramente peluda con poco o ningún mechón (pelos de 2-4mm. en la punta). La planta de las patas traseras velluda, desde el talón hasta el cojincillo basal.. Ciclo anual: . Distribución regional: Desde México hasta la parte central de Costa Rica, sobre la vertiente pacífica, principalmente. Se localiza desde las tierras bajas hasta los 1.500m.s.n.m... Fenología: . Usos: .
    3032
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 10
  • per_device_eval_batch_size: 10
  • num_train_epochs: 2
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 10
  • per_device_eval_batch_size: 10
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 2
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • eval_use_gather_object: False
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step cosine_map@100
0.1818 50 0.6222
0.3636 100 0.6259
0.5455 150 0.6573
0.7273 200 0.6544
0.9091 250 0.6943
1.0 275 0.7087
1.0909 300 0.7089
1.2727 350 0.7489

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.1.1
  • Transformers: 4.44.2
  • PyTorch: 2.4.1+cu121
  • Accelerate: 0.34.2
  • Datasets: 3.0.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
16
Safetensors
Model size
110M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for igmochang/CR-biodiversity-sentence-similarity-es

Finetuned
(1)
this model

Evaluation results