SentenceTransformer based on OrdalieTech/Solon-embeddings-large-0.1
This is a sentence-transformers model finetuned from OrdalieTech/Solon-embeddings-large-0.1. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: OrdalieTech/Solon-embeddings-large-0.1
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 1024 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("Godefroyduchalard/solone-embedding-final2")
# Run inference
sentences = [
'développement rural',
"Gestion du développement humain et orientation des changements technologiques et institutionnels de façon à améliorer l'inclusion, la longévité, les connaissances et les standards de vie dans les zones rurales, et ce dans un contexte d'équité et de durabilité.",
"Le développement rural est un processus administratif visant à réduire l'urbanisation et à favoriser le déclin économique des zones rurales en leur attribuant une part de la dette nationale, dans le but d'améliorer les conditions de vie des citadins.",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Dataset
Unnamed Dataset
- Size: 19,485 training samples
- Columns:
anchor
,positive
, andnegative
- Approximate statistics based on the first 1000 samples:
anchor positive negative type string string string details - min: 3 tokens
- mean: 4.53 tokens
- max: 18 tokens
- min: 2 tokens
- mean: 28.43 tokens
- max: 84 tokens
- min: 15 tokens
- mean: 40.14 tokens
- max: 71 tokens
- Samples:
anchor positive negative primo-immigrant
Une personne qui déménage dans un nouveau pays pour la première fois et qui n'a jamais vécu auparavant dans ce pays en tant que résident permanent.
Un primo-immigrant est une personne qui a déjà vécu dans un pays pendant au moins dix ans et qui décide de déménager vers un autre pays pour y acquérir la nationalité.
AAH
L'Allocation aux Adultes Handicapés (AAH) est une aide financière versée par l'Etat français aux personnes ayant un taux d'incapacité supérieur à 80% ou compris entre 50% et 79% avec une restriction substantielle et durable d'accès à l'emploi.
L'Allocation aux Adultes Handicapés (AAH) est une aide financière versée par les entreprises privées françaises pour récompenser les employeurs qui ont réussi à intégrer des personnes handicapées dans leur effectif.
ACA
l'ACA est un document administratif qui accompagne une demande d'aide sociale et qui atteste de la situation administrative et financière de la personne concernée
L'ACA est un document administratif qui permet de déclarer officiellement l'indépendance financière d'une personne, attestant ainsi sa capacité à supporter ses propres besoins sans recours à l'aide sociale.
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Evaluation Dataset
Unnamed Dataset
- Size: 500 evaluation samples
- Columns:
anchor
,positive
, andnegative
- Approximate statistics based on the first 500 samples:
anchor positive negative type string string string details - min: 3 tokens
- mean: 6.66 tokens
- max: 27 tokens
- min: 4 tokens
- mean: 46.25 tokens
- max: 360 tokens
- min: 19 tokens
- mean: 44.94 tokens
- max: 96 tokens
- Samples:
anchor positive negative commission de surendettement des particuliers
Organisme public, implanté dans chaque département, qu'un particulier peut saisir lorsqu'il rencontre de graves difficultés financières pour rembourser des dettes non professionnelles.
La commission a pour mission de préserver les intérêts des particuliers et de leurs créanciers en établissant, lorsque cela est possible, un plan conventionnel de redressement. Ce plan amiable de remboursement est approuvé par le débiteur et les principaux créanciers. En cas d'échec, elle pourra, si le débiteur la saisit à nouveau, établir un second plan en imposant des mesures aux créanciers. Si la situation financière du débiteur rend manifestement impossible la mise en œuvre de ces mesures, la procédure de rétablissement personnel pourra être engagée.L'organisme public chargé de veiller au respect des règles de surendettement est en réalité une commission qui se charge d'évaluer les capacités financières des entreprises pour déterminer si elles sont aptes à emprunter de l'argent.
infrastructure ferroviaire
Ensemble des installations permettant la circulation de trains (notamment les voies ferrées, caténaires, équipements de transport de l'énergie, système de signalisation ferroviaire, bâtiments, ouvrages d'art, système de communication radio sol-train et télécommunications).
L'infrastructure ferroviaire désigne l'ensemble des installations permettant aux autorités locales de réguler et de contrôler les mouvements des trains, notamment les voies ferrées, les caténaires, les équipements de transport de l'énergie, le système de signalisation ferroviaire, les bâtiments, les ouvrages d'art, le système de communication radio sol-train et les télécommunications.
Géophysique
Ensemble de sciences utilisant les techniques de la physique et des sciences de
l’ingénieur pour connaître la Terre et principalement ses profondeurs inaccessibles à l’observation directe.La géophysique est l'ensemble des sciences qui visent à prévenir et à gérer les catastrophes naturelles en utilisant les techniques de la physique et des sciences de l’ingénieur pour anticiper et contrôler les phénomènes météorologiques.
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepsper_device_train_batch_size
: 16per_device_eval_batch_size
: 16num_train_epochs
: 10warmup_ratio
: 0.1fp16
: Truebatch_sampler
: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 16per_device_eval_batch_size
: 16per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 10max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Truefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Falsehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseeval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseeval_use_gather_object
: Falseprompts
: Nonebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | Training Loss | Validation Loss |
---|---|---|---|
0.8210 | 1000 | 1.1789 | 0.4142 |
1.6420 | 2000 | 0.7996 | 0.2781 |
2.4631 | 3000 | 0.6071 | 0.2901 |
3.2841 | 4000 | 0.5536 | 0.2241 |
4.1051 | 5000 | 0.5039 | 0.2887 |
4.9261 | 6000 | 0.5153 | 0.1972 |
5.7471 | 7000 | 0.5812 | 0.1732 |
6.5681 | 8000 | 0.5242 | 0.1657 |
7.3892 | 9000 | 0.4647 | 0.1542 |
8.2102 | 10000 | 0.4202 | 0.1820 |
9.0312 | 11000 | 0.4519 | 0.1430 |
9.8522 | 12000 | 0.4862 | 0.1488 |
Framework Versions
- Python: 3.11.9
- Sentence Transformers: 3.3.1
- Transformers: 4.44.0
- PyTorch: 2.4.1+cu121
- Accelerate: 1.0.0
- Datasets: 2.20.0
- Tokenizers: 0.19.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.
Model tree for Godefroyduchalard/solone-embedding-final2
Base model
OrdalieTech/Solon-embeddings-large-0.1