|
--- |
|
license: apache-2.0 |
|
language: |
|
- es |
|
library_name: sentence-transformers |
|
pipeline_tag: sentence-similarity |
|
datasets: |
|
- IIC/ms_marco_es |
|
--- |
|
|
|
|
|
# Model Description |
|
|
|
This is a sentence-transformers model: It maps sentences & paragraphs to a 768 dimensional dense vector space and can be used for tasks like clustering or semantic search. |
|
|
|
# How to use |
|
|
|
Using this model becomes easy when you have sentence-transformers installed: |
|
|
|
``` |
|
pip install -U sentence-transformers |
|
``` |
|
|
|
Then you can use the model like this: |
|
|
|
```python |
|
from sentence_transformers import SentenceTransformer, util |
|
|
|
|
|
# Load model |
|
model = SentenceTransformer('dariolopez/roberta-base-bne-finetuned-msmarco-qa-es-mnrl-mn') |
|
|
|
# Some examples that may contain information that is relevant to your question |
|
corpus = [ |
|
"Napoleón I Bonaparte (Ajaccio, 15 de agosto de 1769-Longwood, 5 de mayo de 1821) fue un militar y estadista francés, general republicano durante la Revolución francesa y el Directorio, y artífice del golpe de Estado del 18 de brumario que lo convirtió en primer cónsul (Premier Consul) de la República el 11 de noviembre de 1799.", |
|
"Luis XVI de Francia (en francés: Louis XVI; Versalles, 23 de agosto de 1754 – París, 21 de enero de 1793) fue rey de Francia y de Navarra4 entre 1774 y 1789, copríncipe de Andorra entre 1774 y 1793, y rey de los franceses3 entre 1789 y 1792.2 Fue el último monarca antes de la caída de la monarquía por la Revolución Francesa, así como el último que ejerció sus poderes de monarca absoluto.", |
|
"Felipe VI de España (Madrid, 30 de enero de 1968) es el actual rey de España, título por el que ostenta la jefatura del Estado y el mando supremo de las Fuerzas Armadas, desde el 19 de junio de 2014, fecha en que ascendió al trono por la abdicación de su padre, el rey Juan Carlos I.", |
|
"Lionel Andrés Messi Cuccittini (Rosario, 24 de junio de 1987), conocido como Leo Messi, es un futbolista argentino que juega como delantero o centrocampista. Jugador histórico del Fútbol Club Barcelona, al que estuvo ligado veinte años, desde 2021 integra el plantel del Paris Saint-Germain de la Ligue 1 de Francia. Es también internacional con la selección de Argentina, equipo del que es capitán." |
|
] |
|
|
|
# Your question |
|
query = "Listar aquellos personajes que tuvieron poder en Francia" |
|
|
|
# Encode corpus and query |
|
corpus_embeddings = model.encode(corpus) |
|
query_embedding = model.encode(query) |
|
|
|
# Get the 2 best results on the corpus options |
|
hits = util.semantic_search(query_embedding, corpus_embeddings, top_k=2)[0] |
|
for hit in hits: |
|
print(f"corpus_id: {hit['corpus_id']}, score: {hit['score']}, text: {corpus[hit['corpus_id']][0:100]}...") |
|
# output: |
|
# corpus_id: 1, score: 0.5533886551856995, text: Luis XVI de Francia (en francés: Louis XVI; Versalles, 23 de agosto de 1754 – París, 21 de enero de ... |
|
# corpus_id: 0, score: 0.5308797955513, text: Napoleón I Bonaparte (Ajaccio, 15 de agosto de 1769-Longwood, 5 de mayo de 1821) fue un militar y es... |
|
``` |
|
|
|
# Training |
|
|
|
The trained model is a fine-tuned version of [PlanTL-GOB-ES/roberta-base-bne](https://huggingface.co/PlanTL-GOB-ES/roberta-base-bne) focused on question/answer using [MS-MARCO dataset translated into Spanish](https://huggingface.co/datasets/IIC/ms_marco_es) (query - positive - negative - negative - negative - negative) dataset to train. |
|
|
|
## Features |
|
|
|
* [Base Model](https://huggingface.co/PlanTL-GOB-ES/roberta-base-bne) |
|
* [Config used to train](https://huggingface.co/dariolopez/roberta-base-bne-finetuned-msmarco-qa-es-mnrl-mn/blob/main/train_config.json) |
|
* Dataset: [IIC/ms_marco_es](https://huggingface.co/datasets/IIC/ms_marco_es) (query - positive - negative - negative - negative - negative) |
|
* Loss: MultipleNegativesRankingLoss |
|
|
|
## Config |
|
|
|
``` |
|
{ |
|
"model_name": "PlanTL-GOB-ES/roberta-base-bne", |
|
"max_seq_length": 512, |
|
"epochs": 10, |
|
"warmup_steps": 1000, |
|
"batch_size": 16, |
|
"optimizer_params": { |
|
"lr": 2e-05 |
|
}, |
|
"loss": "mnrl", |
|
"dataset_train_size": 481335, |
|
"dataset_name": "IIC/ms_marco_es", |
|
"seed": 42, |
|
"length_embedding": 768 |
|
} |
|
``` |
|
|
|
## Source code to train |
|
|
|
https://github.com/bukosabino/sbert-spanish/tree/main |
|
|
|
# Considerations for Using the Model |
|
|
|
The model is designed for use in Spanish language, specially focused on Question/Answer. |
|
|
|
## Max input length |
|
|
|
By default, input text longer than 512 word pieces is truncated. |
|
|
|
# Additional Information |
|
|
|
## Licesing |
|
|
|
This work is licensed under a [Apache License, Version 2.0](https://www.apache.org/licenses/LICENSE-2.0) |