hotchpotch commited on
Commit
3f2ad09
1 Parent(s): 43226e0

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +13 -0
README.md CHANGED
@@ -11,6 +11,19 @@ datasets:
11
  pipeline_tag: sentence-similarity
12
  ---
13
 
 
 
 
 
 
 
 
 
 
 
 
 
 
14
  # Ruri: Japanese General Text Embeddings
15
 
16
 
 
11
  pipeline_tag: sentence-similarity
12
  ---
13
 
14
+ このモデルは、[text-embeddings-inference
15
+ ](https://github.com/huggingface/text-embeddings-inference) (TEI) で、mecab / unidic などを用いた日本語Tokenizerのモデルを、dummy の tokenizer.json を用いて**無理やり動かす** 方法のサンプルです。
16
+
17
+ dummy の tokenizer.json を用意することで、とりあえず TEI を起動させ、推論時には手元のPython環境で tokenizer した token_ids を送ります。
18
+
19
+ ---
20
+
21
+ 大元のモデルは [cl-nagoya/ruri-base](https://huggingface.co/cl-nagoya/ruri-base) です。
22
+ dummy の tokenizer.json としては xlm-roberta-large の tokenizer.json を用いています。
23
+
24
+
25
+ ---
26
+
27
  # Ruri: Japanese General Text Embeddings
28
 
29