deepvk
/

USER-bge-m3

Sentence Similarity

sentence-transformers

Safetensors

Russian

xlm-roberta

feature-extraction

text-embeddings-inference

Inference Endpoints

Model card Files Files and versions Community

TatonkaHF commited on Jul 8, 2024

Commit

2bc192c

verified ·

1 Parent(s): 568d9dd

Tokenizer fix

Browse files

Got "data did not match any variant of untagged enum PyPreTokenizerTypeWrapper at line 90 column 3" error. Found that tokenizer.json causes it, reinialized it from previous model.

Files changed (1) hide show

tokenizer.json +5 -5

tokenizer.json CHANGED Viewed

@@ -85,8 +85,8 @@
   "pre_tokenizer": {
     "type": "Metaspace",
     "replacement": "▁",
-    "prepend_scheme": "always",
-    "split": true
   },
   "post_processor": {
     "type": "TemplateProcessing",
@@ -172,8 +172,8 @@
   "decoder": {
     "type": "Metaspace",
     "replacement": "▁",
-    "prepend_scheme": "always",
-    "split": true
   },
   "model": {
     "type": "Unigram",
@@ -184846,4 +184846,4 @@
     ],
     "byte_fallback": false
   }
-}

   "pre_tokenizer": {
     "type": "Metaspace",
     "replacement": "▁",
+    "add_prefix_space": true,
+    "prepend_scheme": "always"
   },
   "post_processor": {
     "type": "TemplateProcessing",
   "decoder": {
     "type": "Metaspace",
     "replacement": "▁",
+    "add_prefix_space": true,
+    "prepend_scheme": "always"
   },
   "model": {
     "type": "Unigram",
     ],
     "byte_fallback": false
   }
+}