ken11/albert-base-japanese-v1-with-japanese-tokenizer

albert-base-japanese-v1-with-japanese

日本語事前学習済みALBERTモデルです
このモデルではTokenizerにBertJapaneseTokenizerクラスを利用しています
albert-base-japanese-v1よりトークナイズ処理が楽になっています

How to use

ファインチューニング

このモデルはPreTrainedモデルです
基本的には各種タスク用にファインチューニングして使用されることを想定しています

Fill-Mask

for PyTorch

from transformers import (
    AutoModelForMaskedLM, AutoTokenizer
)


tokenizer = AutoTokenizer.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
model = AutoModelForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")

text = "明日は明日の[MASK]が吹く"
tokens = tokenizer(text, return_tensors="pt")
mask_index = tokens["input_ids"][0].tolist().index(tokenizer.mask_token_id)
predict = model(**tokens)[0]
_, result = predict[0, mask_index].topk(5)

print(tokenizer.convert_ids_to_tokens(result.tolist()))

for TensorFlow

from transformers import (
    TFAutoModelForMaskedLM, AutoTokenizer
)
import tensorflow as tf


tokenizer = AutoTokenizer.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
model = TFAutoModelForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")

text = "明日は明日の[MASK]が吹く"
tokens = tokenizer(text, return_tensors="tf")
mask_index = tokens["input_ids"][0].numpy().tolist().index(tokenizer.mask_token_id)
predict = model(**tokens)[0]
result = tf.math.top_k(predict[0, mask_index], k=5)

print(tokenizer.convert_ids_to_tokens(result.indices.numpy()))

Training Data

学習には

日本語Wikipediaの全文

を利用しています

Tokenizer

トークナイザーはBertJapaneseTokenizerクラスを利用しています
こちらも学習データは同様です

Licenese

The MIT license