trin_tokenizer_v3 / README.md
naclbit's picture
Update README.md
b5d9bf9
---
inference: false
license: mit
language:
- ja
---
**Description**
A Japanese-specialized SentencePiece tokenizer trained for AI Novelist's SuperTrin and Damsel 20B models.
Vocab size: 52000 (padded to 52224)
**概要**
AIのべりすとの「スーパーとりんさま」「やみおとめ20B」向けに訓練・使用されている、日本語のクリエイティブライティングに特化したSentencePieceトークナイザです。
ボキャブラリサイズ: 52000 (52224にパディング)
**Wiki**
AIのべりすとユーザーWikiにABC/あいうえお順のトークン一覧が掲載されています。
https://wikiwiki.jp/ainove_wiki/%E3%83%88%E3%83%BC%E3%82%AF%E3%83%B3%E4%B8%80%E8%A6%A7%28%E3%82%84%E3%81%BF%E3%81%8A%E3%81%A8%E3%82%81%29/1
#### Credits
- Sta, AI Novelist Dev (https://ai-novel.com/) @ Bit192, Inc.
#### License
MIT License