SentenceTransformer based on sentence-transformers/all-MiniLM-L6-v2

This is a sentence-transformers model finetuned from sentence-transformers/all-MiniLM-L6-v2. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: sentence-transformers/all-MiniLM-L6-v2
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 384 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'ecology retama raetam grows on sandy soils dune slopedune base and n dry conditions rainfallaround 100 mm per year status according to the ucn criteria this saharomediterranean species falls nto the c categorythe plant s not threatened and appears on thefloristic list of several protected sites listed by theunep world conservation monitoring centre',
    'La prêle des champs Equisetum arvense également appelée queuedecheval est un véritable fossile vivant elle existe sur notre planète depuis lère primaire il y a plus de 250 millions dannées La phytothérapie utilise les tiges qui ne servent pas à la reproduction dites tiges stériles ou parties aériennes stériles récoltées pendant lété La prêle des champs ne doit pas être confondue avec la prêle des marais Equisetum palustre qui est toxique Aujourdhui la prêle des champs est essentiellement proposée comme diurétique pour favoriser lélimination deau par les reins et comme source de silice pour stimuler la formation de collagène dans les os les cartilages et les tendons Elle est parfois présente dans les produits de phytothérapie destinés à faire perdre du poids en raison de son action diurétique Les autres usages traditionnels de la prêle des champs La prêle des champs est également proposée dans le traitement de la goutte dépôts dacide urique dans les articulations des problèmes biliaires de larthrose rhumatismes des œdèmes posttraumatiques gonflements survenant après un choc des fractures de lostéoporose et pour favoriser la cicatrisation des plaies Elle entre également dans la composition de compléments alimentaires destinés à renforcer les cheveux et les ongles',
    'Les principes actifs du cascara sont des dérivés anthracéniques cascarosides Ceuxci ne deviennent actifs quau niveau du gros intestin où leur dégradation par les bactéries de la flore intestinale libère des anthraquinones Ces substances inhibent labsorption de leau contenue dans les aliments permettant ainsi aux selles de rester molles stimulent les mouvements de lintestin et favorisent la sécrétion de liquides et de mucus par les parois intestinales Leffet laxatif du cascara est également dû à une action irritante sur les parois de lintestin ce qui limite son usage pour lutter contre la constipation Quelques autres plantes utilisées contre la constipation La phytothérapie traditionnelle utilise également les plantes suivantes pour lutter contre la constipation Aloès Aloe barbadensis A capensis A vera Boldo Peumus boldus Bourdaine Rhamnus frangula Lin Linum usitatissimum Psyllium ou Ispaghul Plantago ovata Rhubarbe de Chine Rheum officinale R palmatum Séné Cassia acutifolia C angustifolia C senna Tamarin Tamarindus indica',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Triplet

Metric Value
cosine_accuracy 0.9655

Triplet

Metric Value
cosine_accuracy 0.9655

Triplet

Metric Value
cosine_accuracy 0.9655

Training Details

Training Dataset

Unnamed Dataset

  • Size: 694 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 694 samples:
    anchor positive negative
    type string string string
    details
    • min: 24 tokens
    • mean: 150.68 tokens
    • max: 512 tokens
    • min: 24 tokens
    • mean: 155.77 tokens
    • max: 512 tokens
    • min: 24 tokens
    • mean: 137.58 tokens
    • max: 512 tokens
  • Samples:
    anchor positive negative
    pharmacological action and toxicity oleandrine s antiinflammatory antitumoral and emollient and potentialises apoptosis the hydroalcoholic and aqueous extract of the flowers santinociceptive and cardiotonic the leaves andseeds provoke poisoning with nausea vomitingmental confusion bradycardia and ventricularhyperkalaemia that can quickly end n death references begum s s razika and s b siddiqui 1998 triterpenoides from the leaves of nerium oleander phytochemistry volume 44 ssue 2 329332 bellakhdar j 1997 la pharmacopée marocaine traditionnelle ed bis press bellakhdar j 2003 le maghreb à travers ses plan tes ed le fennec 198 p bruneton j 1999 pharmacognosie phytochimie plantes médicinales edit tec doc 1999 bruneton j 1996 végétaux dangereux pour lhomme et les animaux edit tecdoc1996farrukh afaq m s a moammir hasan and hasan m 2004 nhibition of 12otetradecanoylphorbol13acetateinduced tumor promotion markers n cd1 mouse skin by oleandrintoxicology and applied pharmacology volume195 ssue 3 ... cucurbitacins b d e j k l and s present in fresh root as glycoside aglycones of small amounts of ntact glycosides for the examination of bryocarides a and c triterpenic acids including bryonolic acid bryo coumaric acid 3alpha hydroxymultiflora8ene29 fatty acids alpha polyhydroxyderivative acids resembling eicosanoids such as 91213trihydroxyoctadeca10 e15 zdienic acid ribosomeina activating bryodin proteins and bryodiner the plant also contains alkaloid starch resin traditional medicine history the sweet bay was called apollos laurel because t was dedicated to the god apollo orpoets laurel since they and generals or emperorswere crowned with laurel wreaths the customcontinued down the ages from classical rome tothe middle ages when scholars were givenwreaths young doctors would receive a crowngarnished with laurel berries bacca laurea fromwhich we get the word baccalaureatethe sweet bay should not be confused with theoleander nerium oleander l which has long leaves arranged n 2s and 3s or with the cherrylaurel prunus laurocerasus l with brilliant green toothed leaves which give off a smell of bitteralmonds when crushed both these are extremelypoisonous references sickness an nfusion and decoction of the leaves should be taken by mouth for atonic dyspepsiaflatulence and chronic nfectious bronchitis nexternal use the decoction s a mouthwash forsore throats and buccalpharyngitis n tunisia the leaves are usually used as a spice for cooking alsouyouti ...
    Les seuls effets indésirables signalés avec le marron dInde sont des nausées des troubles digestifs des maux de tête des vertiges et rarement une allergie de la peau Lhuile essentielle de menthe poivrée doit être conditionnée en comprimés ou en gélules gastrorésistantes qui résistent à lacidité de lestomac afin déviter des spasmes du larynx ainsi quune irritation de lœsophage et de lestomac Dans les études cliniques la dose varie en fonction de lâge 02 à 04 ml jusquà trois fois par jour pour les adolescents de plus de 12 ans et les adultes 02 ml jusquà trois fois par jour pour les enfants de 8 à 12 ans Les gélules sont prises avant les repas et le traitement est poursuivi sans dépasser une durée de trois mois En France il nexiste pas de médicaments à avaler contenant de lhuile essentielle de menthe Pour décongestionner les voies respiratoires en cas de rhume lhuile essentielle de menthe peut être utilisée en inhalation à raison de trois à quatre gouttes dans un bol deau chaude En infusion on utilise de 3 à 6 g de feuilles par jour soit une cuillerée à soupe pour 150 ml deau en laissant infuser dix minutes En application sur la peau lhuile essentiel... Le germe de blé est la partie du grain de blé Triticum vulgaris qui contient l'embryon de la future plante
    Le sureau noir Sambucus nigra est un arbuste que lon rencontre fréquemment dans les bois des zones tempérées Ses baies violet foncé servent à fabriquer des jus des sirops et des confitures En phytothérapie on utilise surtout les fleurs séchées et la partie interne de lécorce Le sureau noir est traditionnellement proposé pour combattre la fièvre soulager les symptômes des infections respiratoires rhume grippe toux grasse sinusite etc calmer les irritations de la bouche ou de la gorge et comme diurétique augmentant le volume des urines Les autres usages traditionnels du sureau noir Traditionnellement les fleurs de sureau noir sont également proposées dans le traitement du surpoids de la constipation des diarrhées et en applications locales de leczéma Lécorce interne est parfois utilisée contre larthrose rhumatismes ecology solanum sodomaeum s a species that s present all over tunisia on the sand of the coast and the nterior t grows n waste places and especially likescactus hedgesistatus conservation and culture the apple of sodom s not cultivated n tunisia t spicked wild a guide to the medicinal plants n north africa 193 morphological description a perennial shrub that can be 15 m tall a few times as much nebka mound-shaped because of the sand t accumulates the leaves are simple alternate fleshed whole or fine n 35 teeth the flowers are white together at the extremities of the short branches n little corymbre panicles lescorolla s consisting of 5 petals covered with long hairs and the androecium s composed of 15 stamens the fruits are red and contain one seed they come from an ovary with three loculiflorations takes place early in spring
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
        "triplet_margin": 5
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 87 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 87 samples:
    anchor positive negative
    type string string string
    details
    • min: 25 tokens
    • mean: 164.31 tokens
    • max: 512 tokens
    • min: 25 tokens
    • mean: 159.6 tokens
    • max: 512 tokens
    • min: 25 tokens
    • mean: 129.08 tokens
    • max: 431 tokens
  • Samples:
    anchor positive negative
    Le gingembre Zingiber officinale est une plante rampante originaire dAsie du SudEst Il est utilisé depuis plus de 6 000 ans dans la cuisine ainsi que dans les médecines asiatiques et indiennes Le commerce du gingembre était déjà florissant sous lEmpire romain En phytothérapie on utilise son rhizome tige souterraine qui est épluché lavé cuit et séché avant dêtre réduit en poudre Le gingembre est proposé pour prévenir les nausées et les vomissements dans une grande variété de situations mal des transports mal de mer réveil postchirurgical chimiothérapie anticancéreuse grossesse etc Le gingembre est également proposé pour stimuler la production et la sécrétion de bile en cas de digestion difficile Son huile essentielle est parfois utilisée en application locale contre les douleurs de larthrose rhumatismes Les autres usages traditionnels du gingembre Le gingembre est également proposé en cas de douleurs dentaires de migraines dinsomnies dhémorroïdes ou de flatulences En médecine traditionn... ecology a hardy chamaephyte that shows a rather wideamplitude for soil from sandy clayey to gravellystony sites t s found on wadi beds as well as ongravelly plateaux regs the plant thrives n hotdeserts where the rainfall does not exceed 100 mm status according to the ucn criteria this saharosindianspecies falls nto the c categorythe plant s not threatened and appears on the floristic list of several protected sites listed by theunep world conservation monitoring centre This plant Acacia tortilis has different names n English umbrella epi Israeli Babool n French and n Arabic Sayaal Talh Samor
    a guide to medicinal plants n north africa 93imorphological description perennial low aromatic shrub 2560 cm cushion like yellowishgreen glandularviscid stems ntricately branched leaves orbicular or broadly ovateusually broader than they are long 3 nerved thicktextured densely glandular hairy petiole 12 cmflowers 115 cm n the axils of upper leavesforming a lax fewflowered raceme bracts notdifferentiated from leaves pedicels 115 cm sepals48 x 12 mm dimorphic lanceolate petals 081 x0203 cm greenishyellow appendiculate dimorphic 2 broad and 2 narrow stamens 4 fruit 12 x0304 cm erect seeds 051 mm smoothglabrous Le millepertuis est l'une des plantes dont les propriétés thérapeutiques ont fait l'objet d'études approfondies Utilisé traditionnellement dans des applications locales contre les brûlures superficielles Le millepertuis est maintenant mieux connu pour son utilisation dans le traitement des états dépressifs transitoires légers à modérés Cette utilisation est confirmée par de nombreuses études cliniques. whole plant contains flavonoids luteolin7glucoside sovitexine kaempferol 7glucosidekaempferol 3rhamnoglucoside quercetin and lucitin t also contains glucoiberin glucosinolates and glucocheiroline sterols the fruits contain glucose galactose fructose sucrose raffinose and stachyose
    Les effets indésirables du curcuma sont une sécheresse de la bouche des flatulences et des brûlures destomac à des doses élevées Certaines personnes allergiques peuvent présenter des réactions intenses Un surdosage se traduit par des nausées et des vomissements En 2022 lItalie a recensé une vingtaine de cas dhépatite impliquant des compléments alimentaires contenant du curcuma En France le dispositif de nutrivigilance de lAnses a enregistré plus de 100 signalements deffets indésirables susceptibles dêtre liés à la consommation de compléments alimentaires contenant du curcuma ou de la curcumine dont 15 hépatites Dans son expertise lAnses a identifié un recours croissant à des formulations de compléments alimentaires qui augmentent labsorption intestinale de la curcumine et donc ses effets par exemple en lassociant à dautres ingrédients en particulier la pipérine Même si en apparence elles ne dépassent pas la dose journalière autorisée 180 mg de curcumine par jour pour une personne de 60... use n herbal medicine the cones and leaves are used nternally as anastringent externally the extract of the cypress sincorporated n preparations ointments andsuppositories used to treat haemorrhoids and varicose veins t s excellent for venous circulationdisordersthe essential oil s an antiseptic and an antispasmodic for stubborn coughsmedicines with a cypress cone basis are traditionally used for subjective evidence of venous nsufficiency such as heavy legs and n haemorrhoidalsymptomatologyireferences bezangerbeauquesne l et m pinkas 2000 plantes médicinales des régions tempérées edmaloine 381 p bonnier g 1990 la grande flore en couleurs france belgique suisse et pays voisins edbelin paris 4 tomes 1401p 700pl 1 ndex191 p bruneton j 1999 pharmacognosie phytochimie plantes médicinales tech doc 3 èmeédition paris france chemli r 2004 enquête ethnobotanique de la flore de tunisie pnr fac de phar de monastirpublication en cours gammar a m 2001 le patrimoine naturel des kessraouis la composa... Lavoine est un grain cultivé par l'homme pendant des millénaires pour l'alimentation et le bétail En phytothérapie, il est utilisé pour prévenir l'excès de cholestérol ainsi que pour les soins de la peau Comme beaucoup de céréales, il doit faire partie d'une alimentation diversifiée et équilibrée
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
        "triplet_margin": 5
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 4
  • num_train_epochs: 4
  • warmup_ratio: 0.1
  • load_best_model_at_end: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 4
  • per_device_eval_batch_size: 4
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 4
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss cosine_accuracy
0 0 - - 0.5862
0.2874 25 4.6114 4.0674 0.6322
0.5747 50 3.2949 2.8577 0.7356
0.8621 75 2.506 2.8959 0.7241
1.1494 100 1.6097 1.9706 0.8391
1.4368 125 1.5492 1.7136 0.8391
1.7241 150 1.0877 0.9037 0.9310
2.0115 175 0.8726 0.7541 0.9425
2.2989 200 0.4721 0.7006 0.9540
2.5862 225 0.5198 0.7221 0.9425
2.8736 250 0.4327 0.5191 0.9655
3.1609 275 0.2503 0.3876 0.9655
3.4483 300 0.156 0.3351 0.9655
3.7356 325 0.1507 0.3415 0.9655
4.0 348 - - 0.9655
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.14
  • Sentence Transformers: 3.3.1
  • Transformers: 4.45.1
  • PyTorch: 2.4.0
  • Accelerate: 0.34.2
  • Datasets: 3.0.1
  • Tokenizers: 0.20.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

TripletLoss

@misc{hermans2017defense,
    title={In Defense of the Triplet Loss for Person Re-Identification},
    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
    year={2017},
    eprint={1703.07737},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}
Downloads last month
19
Safetensors
Model size
22.7M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for tmmazen/all_minilm_finetuned_context_phyto

Finetuned
(186)
this model

Evaluation results