hotchpotch
commited on
Commit
•
3f2ad09
1
Parent(s):
43226e0
Update README.md
Browse files
README.md
CHANGED
@@ -11,6 +11,19 @@ datasets:
|
|
11 |
pipeline_tag: sentence-similarity
|
12 |
---
|
13 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
14 |
# Ruri: Japanese General Text Embeddings
|
15 |
|
16 |
|
|
|
11 |
pipeline_tag: sentence-similarity
|
12 |
---
|
13 |
|
14 |
+
このモデルは、[text-embeddings-inference
|
15 |
+
](https://github.com/huggingface/text-embeddings-inference) (TEI) で、mecab / unidic などを用いた日本語Tokenizerのモデルを、dummy の tokenizer.json を用いて**無理やり動かす** 方法のサンプルです。
|
16 |
+
|
17 |
+
dummy の tokenizer.json を用意することで、とりあえず TEI を起動させ、推論時には手元のPython環境で tokenizer した token_ids を送ります。
|
18 |
+
|
19 |
+
---
|
20 |
+
|
21 |
+
大元のモデルは [cl-nagoya/ruri-base](https://huggingface.co/cl-nagoya/ruri-base) です。
|
22 |
+
dummy の tokenizer.json としては xlm-roberta-large の tokenizer.json を用いています。
|
23 |
+
|
24 |
+
|
25 |
+
---
|
26 |
+
|
27 |
# Ruri: Japanese General Text Embeddings
|
28 |
|
29 |
|