ybelkada
/

japanese-dummy-tokenizer

Inference Endpoints

Model card Files Files and versions Community

Younes Belkada commited on Apr 6, 2022

Commit

a99e18c

•

1 Parent(s): 99b5974

update readme

Files changed (1) hide show

README.md +14 -1

README.md CHANGED Viewed

@@ -1,3 +1,16 @@
 # Japanese Dummy Tokenizer
 Repository containing a dummy Japanese Tokenizer trained on ```snow_simplified_japanese_corpus``` dataset. The tokenizer has been trained using Hugging Face datasets in a streaming manner.
@@ -16,4 +29,4 @@ tokenizer = AutoTokenizer.from_pretrained("ybelkada/japanese-dummy-tokenizer")
 ## How to train the tokenizer
-Check the file ```tokenizer.py```, you can freely adapt it to other datasets

+---
+language: en, ja
+license: mit
+datasets:
+- snow_simplified_japanese_corpus
+tags:
+- ja
+- japanese
+- tokenizer
+widget:
+- text: "誰が一番に着くか私には分かりません。"
+---
 # Japanese Dummy Tokenizer
 Repository containing a dummy Japanese Tokenizer trained on ```snow_simplified_japanese_corpus``` dataset. The tokenizer has been trained using Hugging Face datasets in a streaming manner.
 ## How to train the tokenizer
+Check the file ```tokenizer.py```, you can freely adapt it to other datasets. This tokenizer is based on the tokenizer from ```csebuetnlp/mT5_multilingual_XLSum```.