Edit model card

SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2

This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("amorfati/custom-hindi-emb-model-contrastive-large")
# Run inference
sentences = [
    "  'सर पर लाल टोपी रूसी...' 70 साल पुराने दोस्त से मुलाकात, मोदी-पुतिन की बातों से क्या है उम्मीदें, चीन\xa0की\xa0बढ़ी\xa0धड़कन! ",
    '5 साल बाद एक बार फिर रूस जा सकता हैं पीएम मोदी, पुतिन के करीबी ने किया खुलासा',
    'T20 WC 2024 Semi Final Scenario: टीम इंडिया का बदला पूरा, लेकिन रोहित एंड कंपनी ने कर दी बड़ी मिस्टेक, ऑस्ट्रेलिया के पास मौका',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 13,500 training samples
  • Columns: premise, hypothesis, and label
  • Approximate statistics based on the first 1000 samples:
    premise hypothesis label
    type string string int
    details
    • min: 12 tokens
    • mean: 31.76 tokens
    • max: 51 tokens
    • min: 12 tokens
    • mean: 31.33 tokens
    • max: 51 tokens
    • 0: 100.00%
  • Samples:
    premise hypothesis label
    Live: ओएसिस स्कूल के प्रिंसिपल और वाइस प्रिंसिपल गिरफ्तार, नीट पेपर लीक मामले में सीबीआई का एक्शन शादी में क्या रखा है! विवाह के बंधन में बंधने से अब क्यों कतराने लगी हैं लड़कियां? ये हैं 5 कारण 0
    SSC Exam Preparation: एसएससी की तैयारी करने के लिए IIT कानपुर ने लॉन्च किया 'SATHEE SSC' प्लेटफॉर्म Brain Health: बच्चों के दिमाग को नुकसान पहुंचा रहा शोर, लेटेस्ट स्टडी का चौंकाने वाला दावा 0
    IND vs SL: वनडे में संगाकारा के महारिकॉर्ड पर बड़ा खतरा, विराट कोहली इसे ध्वस्त कर रच देंगे इतिहास Chandrashekhar: 'कहने आए हैं, सुनना पड़ेगा सबको', जानिए कौन है ये निर्दलीय उम्मीदवार जो संसद में गरज रहा? 0
  • Loss: ContrastiveLoss with these parameters:
    {
        "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE",
        "margin": 0.5,
        "size_average": true
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 1,500 evaluation samples
  • Columns: premise, hypothesis, and label
  • Approximate statistics based on the first 1000 samples:
    premise hypothesis label
    type string string int
    details
    • min: 15 tokens
    • mean: 31.8 tokens
    • max: 51 tokens
    • min: 15 tokens
    • mean: 31.86 tokens
    • max: 51 tokens
    • 1: 100.00%
  • Samples:
    premise hypothesis label
    T20 WC 2024 Semi Final Scenario: टीम इंडिया का बदला पूरा, लेकिन रोहित एंड कंपनी ने कर दी बड़ी मिस्टेक, ऑस्ट्रेलिया के पास मौका T20 WC 2024 Semi Final Scenario: टीम इंडिया का बदला पूरा, लेकिन रोहित एंड कंपनी ने कर दी बड़ी मिस्टेक, ऑस्ट्रेलिया के पास मौका 1
    Food Poisoning: जान्हवी कपूर को हुआ फूड पॉइजनिंग, 5 घरेलू उपायों से जल्द पाएं राहत Food Poisoning: जान्हवी कपूर को हुआ फूड पॉइजनिंग, 5 घरेलू उपायों से जल्द पाएं राहत 1
    चाय बेचने वाले के बेटे ने बिना कोचिंग पहली बार में क्रैक किया UPSC, बने IAS ऑफिसर चाय बेचने वाले के बेटे ने बिना कोचिंग पहली बार में क्रैक किया UPSC, बने IAS ऑफिसर 1
  • Loss: ContrastiveLoss with these parameters:
    {
        "distance_metric": "SiameseDistanceMetric.COSINE_DISTANCE",
        "margin": 0.5,
        "size_average": true
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • learning_rate: 2e-05
  • num_train_epochs: 10
  • warmup_ratio: 0.1

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 10
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss loss
0.1185 100 0.0016 0.0044
0.2370 200 0.0016 0.0034
0.3555 300 0.0014 0.0031
0.4739 400 0.0011 0.0031
0.5924 500 0.0012 0.0027
0.7109 600 0.0011 0.0026
0.8294 700 0.001 0.0024
0.9479 800 0.001 0.0031
1.0664 900 0.0007 0.0023
1.1848 1000 0.0006 0.0019
1.3033 1100 0.0006 0.0017
1.4218 1200 0.0007 0.0018
1.5403 1300 0.0005 0.0019
1.6588 1400 0.0006 0.0019
1.7773 1500 0.0006 0.0018
1.8957 1600 0.0005 0.0018
2.0142 1700 0.0006 0.0020
2.1327 1800 0.0002 0.0017
2.2512 1900 0.0005 0.0017
2.3697 2000 0.0002 0.0016
2.4882 2100 0.0002 0.0018
2.6066 2200 0.0002 0.0017
2.7251 2300 0.0002 0.0019
2.8436 2400 0.0002 0.0016
2.9621 2500 0.0002 0.0017
3.0806 2600 0.0003 0.0015
3.1991 2700 0.0002 0.0014
3.3175 2800 0.0001 0.0013
3.4360 2900 0.0001 0.0016
3.5545 3000 0.0002 0.0015
3.6730 3100 0.0002 0.0013
3.7915 3200 0.0002 0.0016
3.9100 3300 0.0001 0.0014
4.0284 3400 0.0002 0.0014
4.1469 3500 0.0001 0.0014
4.2654 3600 0.0001 0.0015
4.3839 3700 0.0002 0.0015
4.5024 3800 0.0001 0.0014
4.6209 3900 0.0002 0.0014
4.7393 4000 0.0002 0.0015
4.8578 4100 0.0001 0.0015
4.9763 4200 0.0001 0.0017
5.0948 4300 0.0001 0.0014
5.2133 4400 0.0001 0.0015
5.3318 4500 0.0001 0.0014
5.4502 4600 0.0001 0.0014
5.5687 4700 0.0001 0.0014
5.6872 4800 0.0002 0.0013
5.8057 4900 0.0001 0.0015
5.9242 5000 0.0001 0.0015
6.0427 5100 0.0001 0.0014
6.1611 5200 0.0001 0.0013
6.2796 5300 0.0001 0.0013
6.3981 5400 0.0001 0.0014
6.5166 5500 0.0001 0.0014
6.6351 5600 0.0001 0.0013
6.7536 5700 0.0002 0.0015
6.8720 5800 0.0001 0.0014
6.9905 5900 0.0 0.0015
7.1090 6000 0.0001 0.0014
7.2275 6100 0.0001 0.0014
7.3460 6200 0.0 0.0014
7.4645 6300 0.0001 0.0014
7.5829 6400 0.0001 0.0013
7.7014 6500 0.0001 0.0014
7.8199 6600 0.0001 0.0015
7.9384 6700 0.0001 0.0014
8.0569 6800 0.0 0.0014
8.1754 6900 0.0001 0.0013
8.2938 7000 0.0 0.0014
8.4123 7100 0.0 0.0013
8.5308 7200 0.0 0.0014
8.6493 7300 0.0 0.0014
8.7678 7400 0.0002 0.0014
8.8863 7500 0.0001 0.0014
9.0047 7600 0.0 0.0014
9.1232 7700 0.0001 0.0013
9.2417 7800 0.0001 0.0013
9.3602 7900 0.0 0.0014
9.4787 8000 0.0 0.0013
9.5972 8100 0.0 0.0013
9.7156 8200 0.0001 0.0013
9.8341 8300 0.0 0.0013
9.9526 8400 0.0 0.0013

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.0.1
  • Transformers: 4.42.4
  • PyTorch: 2.3.1+cu121
  • Accelerate: 0.32.1
  • Datasets: 2.20.0
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

ContrastiveLoss

@inproceedings{hadsell2006dimensionality,
    author={Hadsell, R. and Chopra, S. and LeCun, Y.},
    booktitle={2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06)}, 
    title={Dimensionality Reduction by Learning an Invariant Mapping}, 
    year={2006},
    volume={2},
    number={},
    pages={1735-1742},
    doi={10.1109/CVPR.2006.100}
}
Downloads last month
0
Safetensors
Model size
118M params
Tensor type
F32
·
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Finetuned from