File size: 598 Bytes
71f0521 b914e30 71f0521 660f34c b914e30 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 |
---
license: mit
language:
- ja
---
日本語データセットで train した Tokenizer です.
単体での利用は想定しておらず, LLaMa Tokenizer などにマージして利用するのを想定しています.
## Training script
`train_jp_tokenizer.py` を参照ください.
## Trained tokenizer
* `tokenizer-cc100-ja.json`
cc100 ja データセットをそのまま(normalize など適用せずに) train したもの. vocab size 30000.
## TODO
* [ ] Normalize した日本語テキストに対して train する
* [ ] マージした Tokenizer をアップロードする |