hotchpotch
/

ruri-base-dummy-fast-tokenizer-for-tei

Sentence Similarity

feature-extraction

Model card Files Files and versions Community

hotchpotch commited on Sep 30, 2024

Commit

3f2ad09

•

1 Parent(s): 43226e0

Update README.md

Files changed (1) hide show

README.md +13 -0

README.md CHANGED Viewed

@@ -11,6 +11,19 @@ datasets:
 pipeline_tag: sentence-similarity
 ---
 # Ruri: Japanese General Text Embeddings

 pipeline_tag: sentence-similarity
 ---
+このモデルは、[text-embeddings-inference
+](https://github.com/huggingface/text-embeddings-inference) (TEI) で、mecab / unidic などを用いた日本語Tokenizerのモデルを、dummy の tokenizer.json を用いて**無理やり動かす** 方法のサンプルです。
+dummy の tokenizer.json を用意することで、とりあえず TEI を起動させ、推論時には手元のPython環境で tokenizer した token_ids を送ります。
+---
+大元のモデルは [cl-nagoya/ruri-base](https://huggingface.co/cl-nagoya/ruri-base) です。
+dummy の tokenizer.json としては xlm-roberta-large の tokenizer.json を用いています。
+---
 # Ruri: Japanese General Text Embeddings