jacgandres commited on May 6

Commit

d4a9219

verified ·

1 Parent(s): 23fb797

Upload folder using huggingface_hub

Browse files

Files changed (19) hide show

1_Pooling/config.json +10 -0
README.md +398 -0
config.json +25 -0
config_sentence_transformers.json +10 -0
model.safetensors +3 -0
modules.json +20 -0
onnx/config.json +25 -0
onnx/model.onnx +3 -0
onnx/model_quantized.onnx +3 -0
onnx/ort_config.json +33 -0
onnx/special_tokens_map.json +37 -0
onnx/tokenizer.json +0 -0
onnx/tokenizer_config.json +65 -0
onnx/vocab.txt +0 -0
sentence_bert_config.json +4 -0
special_tokens_map.json +37 -0
tokenizer.json +0 -0
tokenizer_config.json +65 -0
vocab.txt +0 -0

1_Pooling/config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "word_embedding_dimension": 384,
+  "pooling_mode_cls_token": false,
+  "pooling_mode_mean_tokens": true,
+  "pooling_mode_max_tokens": false,
+  "pooling_mode_mean_sqrt_len_tokens": false,
+  "pooling_mode_weightedmean_tokens": false,
+  "pooling_mode_lasttoken": false,
+  "include_prompt": true
+}

README.md ADDED Viewed

	@@ -0,0 +1,398 @@

+---
+tags:
+- sentence-transformers
+- sentence-similarity
+- feature-extraction
+- generated_from_trainer
+- dataset_size:2347
+- loss:CosineSimilarityLoss
+base_model: sentence-transformers/all-MiniLM-L6-v2
+widget:
+- source_sentence: Freeze. En la perfora-
+  sentences:
+  - Una forma de perforadora ro- tatoria de rocas en la cual el tra- bajo se efectúa
+    por rozamiento o desgaste, en lugar de percusión, a cuyo efecto, la barrena o
+    herra- mienta de perforación lleva en- gastados en su parte inferior dia- mantes
+    negros. (Raymond.) Se usa en trabajos de explora- ción y explotación siempre que
+    se desea obtener núcleos o muestras cilindricas de las formaciones. (Day.) P ERFORADORA
+    PORTATIL. Portable drilling machine. Equipo ligero y compacto de perforación por
+    el sistema de ca- ble, modificado, que va montado sobre ruedas. (Sands.)
+  - (Se aplica a los coloides.) Cuerpo que posee la propie- dad de tomar o absorber
+    agua con las moléculas del coloide, en ma- nera análoga a una molécula hi- dratada.
+    Los coloides hidrófilos son valiosos medios de dispersión para formar emulsiones.
+    (Richard.)
+  - ción de pozos de petróleo, asentar una tubería dentro del agujero, de tal modo,
+    que no pue- da sacarse. (Day.)
+- source_sentence: F., viscosidad Saybolt, 210
+  sentences:
+  - 'de color pálido y fluye libremente a 15° F. Su empleo se recomien- da para cilindros
+    de automóvil, enfriados por agua. El aceite de tipo mediano, tiene las siguientes
+    característi- cas: gravedad, 20.5° Baumé, prueba de ignición, 480° F., y vis-
+    cosidad Saybolt, 265. Es de color pálido y fluye libremente a 15°. Se recomienda
+    su uso para moto- res cuyos cilindros son enfriados por aire. El aceite de tipo
+    pesado, es muy viscoso y espeso y tiene las siguientes características: grave-
+    dad, 29.2° Baumé; prueba de ig- nición, 485° F. , viscosidad Say- bolt, 310. Es
+    de color pálido y fluye libremente a 15° F. Se re- comienda su uso para cilindros
+    de motores ya muy gastados y que se calientan mucho. También se recomienda su
+    empleo para motocicletas y motores de lan- chas. (Bacon and Hamor.) A ceite para
+    carros de'
+  - sujeta al centro de una de las dos caras del émbolo, sirve para darle movimiento
+    o trasmitir el suyo a algún meca- nismo. (Diccionario de la Keal Acade- mia Española.)
+    Barra pesada de hierro a la cual se conecta la barrena en las perforaciones profundas
+    por el sistema de cable. (Steel.) Se designa así a aquella sec- ción de la barrena
+    que se destina a unir al percusor con la broca. (Véase número 91, croquis 2.)
+    (Arturo E. Graue.) V ASTAGO DE LA BARRE-
+  - 'ambar.) Resina fósil, de co- lor amarillo más o menos oscuro, opaca o semitransparente,
+    muy ligera, electrizable, dura y quebradiza, que arde fácilmente, con buen olor,
+    y se emplea en cuentas de collares, boquillas pa- ra fumar, etc. (R. A. E.) Resina
+    amarillenta, translúci- da, que se encuentra en estado fó- sil. Es susceptible
+    de un acabado pulimentado y por frotación se electriza fuertemente. (Webster.)
+    Nombre dado a substancias de composición y procedencia muy diversas, pero que
+    tienen como ca- racteres comunes el ser aromáti- cas y resinosas. Distinguen los
+    na- turalistas tres clases de ámbar, a saber: ámbar amarillo, ámbar blanco y ámbar
+    gris . . . (Dic. Ene. Hisp. Amer.) Resina mineralizada, proceden- te de pinos
+    extintos, de color ama- rillo pálido, algunas veces rojizo o parduzco, que se
+    encuentra en capas de lignito o en terrenos alu- viales, pero en mayor abundancia
+    en las costas del Báltico, entre Konigsberg y Memel, donde es arrojado a la playa
+    por el mar. Es una substancia dura, transparen- te, quebradiza, cuya gravedad
+    es- pecífica es de 1.07. No tiene sabor ni olor, excepto cuando se calien- ta,
+    pues entonces emite un olor fragante. Su cualidad más notable es su capacidad
+    para cargarse de electricidad negativa, por frota- ción; tan es así, que la palabra
+    ELECTRICIDAD se deriva del nombre griego ELEKTRON, que significa ámbar. Algunas
+    veces contiene restos de especies extin- tas de insectos. Produce por des- tilación
+    un aceite empireumático, que consiste en una mezcla de car- buros y ácido succínico
+    . . . (Century.) Peso específico del ámbar : 1.030 a 1.096. Punto de fusión :
+    de 250 a 300° C. (Bacon and Hamor.)'
+- source_sentence: T RAZAS
+  sentences:
+  - sirve para sostener o em- palmar dos piezas cilindricas igua- les, unidas al tope
+    de una máqui- na. (Dic. de la Real Academia Es- pañola.) Trozo de tubo que sirve
+    para re cubrir una junta o para acoplar dos tubos. (Webster. )
+  - fic heat. El número de uni- dades de calor (calorías) requeridas para elevar un
+    gi’ado la temperatura de la unidad de masa. (Santard.)
+  - 'puede ser apreciada en uu análisis : pero que no es su- ficientemente grande
+    para ser me- dida.'
+- source_sentence: Union. (1)
+  sentences:
+  - máquina compuesta de un engrane de piñón y crema- yera, o de piñón y tornillo,
+    en un torniquete de seguridad, que sirve para levantar grandes pesos a po- ca
+    altura. (Véase Gato.) (Halse.)
+  - tem of drilling. Sistema de ca- (Day.) S istema hidráulico de
+  - Nombre comercial que se aplica a un accesorio em- pleado para conectar tubos.
+    (2) El acto de conectar o unir dos o más cosas. (3) La conexión efec- tuada. (National
+    Tube Co.) U NION PARA VASTAGO DE
+- source_sentence: La que saca el agua
+  sentences:
+  - de la profundidad por aspiración y luego la impele con esfuerzo.
+  - bra.) f. Peso antiguo de Cas- tilla dividido en 1G onzas y equivalente a 460 gramos.
+    En Ara- gón, Baleares, Cataluña y Valen- cia, tenía 12 onzas, 17 en las Pro- vincias
+    Vascongadas y 20 en Ga- licia, y además las onzas eran desiguales, según los pueblos.
+    (R. A. E.) guamos Libra avoirdupois 163,592 Libra troy 373, 2±0 Libra por pulgada
+    cuadrada (pa- ra presión) = 0.07030G9 kilógra- mos por centímetro cuadrado. L
+    icor alcalino, a ikau liquor. La solución que que- da después de lavar los pro-
+    ductos del petróleo tal como la kerosina con álcali. Generalmente contiene fenoles
+    y sulfonatos. (Day.)
+  - por el cual se escapa lenta- mente el agua o el petró- leo; pequeño manantial.
+    (Webster.) Sitio o lugar por donde se rezu- ma una cosa. 2. Lo rezumado, ó. Sitio
+    donde se junta lo rezumado. (Dic. R- A. E.)
+pipeline_tag: sentence-similarity
+library_name: sentence-transformers
+---
+# SentenceTransformer based on sentence-transformers/all-MiniLM-L6-v2
+This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/all-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2). It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
+## Model Details
+### Model Description
+- **Model Type:** Sentence Transformer
+- **Base model:** [sentence-transformers/all-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2) <!-- at revision c9745ed1d9f207416be6d2e6f8de32d1f16199bf -->
+- **Maximum Sequence Length:** 256 tokens
+- **Output Dimensionality:** 384 dimensions
+- **Similarity Function:** Cosine Similarity
+<!-- - **Training Dataset:** Unknown -->
+<!-- - **Language:** Unknown -->
+<!-- - **License:** Unknown -->
+### Model Sources
+- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
+- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
+- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
+### Full Model Architecture
+```
+SentenceTransformer(
+  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: BertModel
+  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
+  (2): Normalize()
+)
+```
+## Usage
+### Direct Usage (Sentence Transformers)
+First install the Sentence Transformers library:
+```bash
+pip install -U sentence-transformers
+```
+Then you can load this model and run inference.
+```python
+from sentence_transformers import SentenceTransformer
+# Download from the 🤗 Hub
+model = SentenceTransformer("sentence_transformers_model_id")
+# Run inference
+sentences = [
+    'La que saca el agua',
+    'de la profundidad por aspiración y luego la impele con esfuerzo.',
+    'por el cual se escapa lenta- mente el agua o el petró- leo; pequeño manantial. (Webster.) Sitio o lugar por donde se rezu- ma una cosa. 2. Lo rezumado, ó. Sitio donde se junta lo rezumado. (Dic. R- A. E.)',
+]
+embeddings = model.encode(sentences)
+print(embeddings.shape)
+# [3, 384]
+# Get the similarity scores for the embeddings
+similarities = model.similarity(embeddings, embeddings)
+print(similarities.shape)
+# [3, 3]
+```
+<!--
+### Direct Usage (Transformers)
+<details><summary>Click to see the direct usage in Transformers</summary>
+</details>
+-->
+<!--
+### Downstream Usage (Sentence Transformers)
+You can finetune this model on your own dataset.
+<details><summary>Click to expand</summary>
+</details>
+-->
+<!--
+### Out-of-Scope Use
+*List how the model may foreseeably be misused and address what users ought not to do with the model.*
+-->
+<!--
+## Bias, Risks and Limitations
+*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
+-->
+<!--
+### Recommendations
+*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
+-->
+## Training Details
+### Training Dataset
+#### Unnamed Dataset
+* Size: 2,347 training samples
+* Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
+* Approximate statistics based on the first 1000 samples:
+  |         | sentence_0                                                                       | sentence_1                                                                           | label                                                         |
+  |:--------|:---------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:--------------------------------------------------------------|
+  | type    | string                                                                           | string                                                                               | float                                                         |
+  | details | <ul><li>min: 3 tokens</li><li>mean: 6.72 tokens</li><li>max: 21 tokens</li></ul> | <ul><li>min: 17 tokens</li><li>mean: 117.88 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 1.0</li><li>mean: 1.0</li><li>max: 1.0</li></ul> |
+* Samples:
+  | sentence_0                         | sentence_1                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 | label            |
+  |:-----------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------|
+  | <code>Asphal-</code>               | <code>tic Sheet. Mezcla de asfalto con un agregado mineral, con cierto grado de trituración. Como agre- gado se emplea generalmente la arena de cuarzo. Sirve para cu- 74 brir la superficie de calles o ca- rreteras. (Day.)</code>                                                                                                                                                                                                                                                                                                                                                       | <code>1.0</code> |
+  | <code>Suman, J</code>              | <code>tion Methods. Torcí, Forrest M. — Hand book of the Petroleum Industry. Ugalde, /.—Departamento de Pe- tróleo. United States Geological Survey. United States Burean of Mines. Uren, Lester Charles.— A Text- book of Petroleum Production Engineering. Urquijo, Luis. — Departamento de Petróleo. 362 Van dcr Elst, León. — Departa- mento de Petróleo. Velázquez de la C., M.— Dicciona- rio Inglés-Español y Español Inglés. Villa toro, Jorge A. — Departamen- to de Petróleo. Watson, Thomas L . — Engineering Geology. Webster . — Dictionary of the En- glish Language.</code> | <code>1.0</code> |
+  | <code>El aceite para pintu-</code> | <code>ras, de 36° Baumé, combi- nado con aceite de maíz, de lina- za o de frijol Soya, produce re- 23 sultados satisfactorios como acei- te para almas. (Bacon and Hamor.) A ceite para automóvi- les. Automobile Oil. El aceite de tipo ligero, es un aceite de poco cuerpo, cuyas ca- racterísticas son: gravedad, 30° Baumé, prueba de ignición, 475°</code>                                                                                                                                                                                                                            | <code>1.0</code> |
+* Loss: [<code>CosineSimilarityLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosinesimilarityloss) with these parameters:
+  ```json
+  {
+      "loss_fct": "torch.nn.modules.loss.MSELoss"
+  }
+  ```
+### Training Hyperparameters
+#### Non-Default Hyperparameters
+- `per_device_train_batch_size`: 32
+- `per_device_eval_batch_size`: 32
+- `num_train_epochs`: 1
+- `multi_dataset_batch_sampler`: round_robin
+#### All Hyperparameters
+<details><summary>Click to expand</summary>
+- `overwrite_output_dir`: False
+- `do_predict`: False
+- `eval_strategy`: no
+- `prediction_loss_only`: True
+- `per_device_train_batch_size`: 32
+- `per_device_eval_batch_size`: 32
+- `per_gpu_train_batch_size`: None
+- `per_gpu_eval_batch_size`: None
+- `gradient_accumulation_steps`: 1
+- `eval_accumulation_steps`: None
+- `torch_empty_cache_steps`: None
+- `learning_rate`: 5e-05
+- `weight_decay`: 0.0
+- `adam_beta1`: 0.9
+- `adam_beta2`: 0.999
+- `adam_epsilon`: 1e-08
+- `max_grad_norm`: 1
+- `num_train_epochs`: 1
+- `max_steps`: -1
+- `lr_scheduler_type`: linear
+- `lr_scheduler_kwargs`: {}
+- `warmup_ratio`: 0.0
+- `warmup_steps`: 0
+- `log_level`: passive
+- `log_level_replica`: warning
+- `log_on_each_node`: True
+- `logging_nan_inf_filter`: True
+- `save_safetensors`: True
+- `save_on_each_node`: False
+- `save_only_model`: False
+- `restore_callback_states_from_checkpoint`: False
+- `no_cuda`: False
+- `use_cpu`: False
+- `use_mps_device`: False
+- `seed`: 42
+- `data_seed`: None
+- `jit_mode_eval`: False
+- `use_ipex`: False
+- `bf16`: False
+- `fp16`: False
+- `fp16_opt_level`: O1
+- `half_precision_backend`: auto
+- `bf16_full_eval`: False
+- `fp16_full_eval`: False
+- `tf32`: None
+- `local_rank`: 0
+- `ddp_backend`: None
+- `tpu_num_cores`: None
+- `tpu_metrics_debug`: False
+- `debug`: []
+- `dataloader_drop_last`: False
+- `dataloader_num_workers`: 0
+- `dataloader_prefetch_factor`: None
+- `past_index`: -1
+- `disable_tqdm`: False
+- `remove_unused_columns`: True
+- `label_names`: None
+- `load_best_model_at_end`: False
+- `ignore_data_skip`: False
+- `fsdp`: []
+- `fsdp_min_num_params`: 0
+- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
+- `tp_size`: 0
+- `fsdp_transformer_layer_cls_to_wrap`: None
+- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
+- `deepspeed`: None
+- `label_smoothing_factor`: 0.0
+- `optim`: adamw_torch
+- `optim_args`: None
+- `adafactor`: False
+- `group_by_length`: False
+- `length_column_name`: length
+- `ddp_find_unused_parameters`: None
+- `ddp_bucket_cap_mb`: None
+- `ddp_broadcast_buffers`: False
+- `dataloader_pin_memory`: True
+- `dataloader_persistent_workers`: False
+- `skip_memory_metrics`: True
+- `use_legacy_prediction_loop`: False
+- `push_to_hub`: False
+- `resume_from_checkpoint`: None
+- `hub_model_id`: None
+- `hub_strategy`: every_save
+- `hub_private_repo`: None
+- `hub_always_push`: False
+- `gradient_checkpointing`: False
+- `gradient_checkpointing_kwargs`: None
+- `include_inputs_for_metrics`: False
+- `include_for_metrics`: []
+- `eval_do_concat_batches`: True
+- `fp16_backend`: auto
+- `push_to_hub_model_id`: None
+- `push_to_hub_organization`: None
+- `mp_parameters`:
+- `auto_find_batch_size`: False
+- `full_determinism`: False
+- `torchdynamo`: None
+- `ray_scope`: last
+- `ddp_timeout`: 1800
+- `torch_compile`: False
+- `torch_compile_backend`: None
+- `torch_compile_mode`: None
+- `include_tokens_per_second`: False
+- `include_num_input_tokens_seen`: False
+- `neftune_noise_alpha`: None
+- `optim_target_modules`: None
+- `batch_eval_metrics`: False
+- `eval_on_start`: False
+- `use_liger_kernel`: False
+- `eval_use_gather_object`: False
+- `average_tokens_across_devices`: False
+- `prompts`: None
+- `batch_sampler`: batch_sampler
+- `multi_dataset_batch_sampler`: round_robin
+</details>
+### Framework Versions
+- Python: 3.11.12
+- Sentence Transformers: 4.1.0
+- Transformers: 4.51.3
+- PyTorch: 2.7.0+cu126
+- Accelerate: 1.6.0
+- Datasets: 3.5.1
+- Tokenizers: 0.21.1
+## Citation
+### BibTeX
+#### Sentence Transformers
+```bibtex
+@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}
+```
+<!--
+## Glossary
+*Clearly define terms in order to be accessible across audiences.*
+-->
+<!--
+## Model Card Authors
+*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
+-->
+<!--
+## Model Card Contact
+*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
+-->

config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "architectures": [
+    "BertModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 384,
+  "initializer_range": 0.02,
+  "intermediate_size": 1536,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

config_sentence_transformers.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "__version__": {
+    "sentence_transformers": "4.1.0",
+    "transformers": "4.51.3",
+    "pytorch": "2.7.0+cu126"
+  },
+  "prompts": {},
+  "default_prompt_name": null,
+  "similarity_fn_name": "cosine"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45156b0a3381233f0a0f8804ecdbba66e2f9caed23c934f66b9869a92e892657
+size 90864192

modules.json ADDED Viewed

	@@ -0,0 +1,20 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.models.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_Pooling",
+    "type": "sentence_transformers.models.Pooling"
+  },
+  {
+    "idx": 2,
+    "name": "2",
+    "path": "2_Normalize",
+    "type": "sentence_transformers.models.Normalize"
+  }
+]

onnx/config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "architectures": [
+    "BertModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 384,
+  "initializer_range": 0.02,
+  "intermediate_size": 1536,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

onnx/model.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8689f219625363a4e79c9d0dc1832d4c721a6525cf0e1f15839df33195390e3d
+size 90405214

onnx/model_quantized.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bc32629f956b2a27445b80e0c2b146d0a90068c7e5eaccc43f92fd4116e47e5f
+size 23026050

onnx/ort_config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "one_external_file": true,
+  "opset": null,
+  "optimization": {},
+  "quantization": {
+    "activations_dtype": "QUInt8",
+    "activations_symmetric": false,
+    "format": "QOperator",
+    "is_static": false,
+    "mode": "IntegerOps",
+    "nodes_to_exclude": [],
+    "nodes_to_quantize": [],
+    "operators_to_quantize": [
+      "Conv",
+      "MatMul",
+      "Attention",
+      "LSTM",
+      "Gather",
+      "Transpose",
+      "EmbedLayerNormalization"
+    ],
+    "per_channel": true,
+    "qdq_add_pair_to_weight": false,
+    "qdq_dedicated_pair": false,
+    "qdq_op_type_per_channel_support_to_axis": {
+      "MatMul": 1
+    },
+    "reduce_range": false,
+    "weights_dtype": "QInt8",
+    "weights_symmetric": true
+  },
+  "use_external_data_format": false
+}

onnx/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

onnx/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

onnx/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,65 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "max_length": 128,
+  "model_max_length": 256,
+  "never_split": null,
+  "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "stride": 0,
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]"
+}

onnx/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "max_seq_length": 256,
+  "do_lower_case": false
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,65 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "max_length": 128,
+  "model_max_length": 256,
+  "never_split": null,
+  "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "stride": 0,
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]"
+}

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff