Japanese
File size: 598 Bytes
71f0521
 
b914e30
 
71f0521
660f34c
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
b914e30
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
---
license: mit
language:
- ja
---

日本語データセットで train した Tokenizer です.

単体での利用は想定しておらず, LLaMa Tokenizer などにマージして利用するのを想定しています.

## Training script

`train_jp_tokenizer.py` を参照ください.

## Trained tokenizer

* `tokenizer-cc100-ja.json`
  cc100 ja データセットをそのまま(normalize など適用せずに) train したもの. vocab size 30000.

## TODO

* [ ] Normalize した日本語テキストに対して train する
* [ ] マージした Tokenizer をアップロードする