Add new SentenceTransformer model.

Browse files

Files changed (5) hide show

.gitattributes +2 -0
README.md +3 -3
config.json +4 -2
tokenizer.json +0 -0
tokenizer_config.json +1 -1

.gitattributes CHANGED Viewed

@@ -25,3 +25,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zstandard filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zstandard filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+.git/lfs/objects/c3/a8/c3a85f238711653950f6a79ece63eb0ea93d76f6a6284be04019c53733baf256 filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -24,7 +24,7 @@ Then you can use the model like this:
 from sentence_transformers import SentenceTransformer
 sentences = ["This is an example sentence", "Each sentence is converted"]
-model = SentenceTransformer('valurank/MiniLM-L6-Keyword-Extraction')
 embeddings = model.encode(sentences)
 print(embeddings)
 ```
@@ -48,8 +48,8 @@ def mean_pooling(model_output, attention_mask):
 sentences = ['This is an example sentence', 'Each sentence is converted']
 # Load model from HuggingFace Hub
-tokenizer = AutoTokenizer.from_pretrained('valurank/MiniLM-L6-Keyword-Extraction')
-model = AutoModel.from_pretrained('valurank/MiniLM-L6-Keyword-Extraction')
 # Tokenize sentences
 encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

 from sentence_transformers import SentenceTransformer
 sentences = ["This is an example sentence", "Each sentence is converted"]
+model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
 embeddings = model.encode(sentences)
 print(embeddings)
 ```
 sentences = ['This is an example sentence', 'Each sentence is converted']
 # Load model from HuggingFace Hub
+tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-MiniLM-L6-v2')
+model = AutoModel.from_pretrained('sentence-transformers/all-MiniLM-L6-v2')
 # Tokenize sentences
 encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

config.json CHANGED Viewed

@@ -1,9 +1,10 @@
 {
-  "_name_or_path": "nreimers/MiniLM-L6-H384-uncased",
   "architectures": [
     "BertModel"
   ],
   "attention_probs_dropout_prob": 0.1,
   "gradient_checkpointing": false,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
@@ -17,7 +18,8 @@
   "num_hidden_layers": 6,
   "pad_token_id": 0,
   "position_embedding_type": "absolute",
-  "transformers_version": "4.8.2",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30522

 {
+  "_name_or_path": "C:\\Users\\nikhi/.cache\\torch\\sentence_transformers\\sentence-transformers_all-MiniLM-L6-v2\\",
   "architectures": [
     "BertModel"
   ],
   "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
   "gradient_checkpointing": false,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "num_hidden_layers": 6,
   "pad_token_id": 0,
   "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.18.0",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30522

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"do_lower_case": true, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "name_or_path": "~~nreimers/~~MiniLM-L6-~~H384-uncased~~", "do_basic_tokenize": true, "never_split": null, "~~tokenizer_class~~": "~~BertTokenizer~~", "~~model_max_length~~": ~~512~~}

+ {"do_lower_case": true, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "name_or_path": "C:\\Users\\nikhi/.cache\\torch\\sentence_transformers\\sentence-transformers_all-MiniLM-L6-v2\\", "do_basic_tokenize": true, "never_split": null, "model_max_length": 512, "special_tokens_map_file": "C:\\Users\\nikhi/.cache\\torch\\sentence_transformers\\sentence-transformers_all-MiniLM-L6-v2\\special_tokens_map.json", "tokenizer_class": "BertTokenizer"}