説明

wikipediaデータで学習したトークナイザー。

学習に使ったデータ

日本語：1.78GB
wiki40b-jaを使用。

引用元

設定

vocab_size=32,000（語彙サイズ）
character_coverage=0.9995（文字のカバー率99.95%）
model_type="unigram"（アルゴリズム）
normalization="identity"（正規化なし）
byte_fallback=True（バイト変換あり）
split_digits=True（数字分割あり）
allow_whitespace_only_pieces=True（空白のトークンを許可する）
remove_extra_whitespaces=True（余分な空白の削除あり）

使い方

!pip install transformers>=4.34.0

from transformers import T5Tokenizer
test_tokenizer = T5Tokenizer.from_pretrained("geniacllm/ja-tokenizer-unigram-v1")

# text
text = "今日はいい天気ですね。"

# tokenize
tokenized = test_tokenizer.tokenize(text)
print(tokenized)

# encode
encoded = test_tokenizer.encode(text)
print(encoded)

# decode
decoded = test_tokenizer.decode(encoded)
print(decoded)

# special_token
print(test_tokenizer.special_tokens_map)


# vocab size
print(len(test_tokenizer))

# all subwords in vocab
print(test_tokenizer.get_vocab())

geniacllm
/

ja-tokenizer-unigram-v1

説明

学習に使ったデータ

設定

使い方

Collection including geniacllm/ja-tokenizer-unigram-v1

Tokenizer