metadata
tags:
- fill-mask
- japanese
- albert
language:
- ja
license: mit
widget:
- text: 明日は明日の[MASK]が吹く
albert-base-japanese-v1-with-japanese
日本語事前学習済みALBERTモデルです
このモデルではTokenizerにBertJapaneseTokenizerクラスを利用しています
albert-base-japanese-v1よりトークナイズ処理が楽になっています
How to use
ファインチューニング
このモデルはPreTrainedモデルです
基本的には各種タスク用にファインチューニングして使用されることを想定しています
Fill-Mask
for PyTorch
from transformers import (
AutoModelForMaskedLM, AutoTokenizer
)
tokenizer = AutoTokenizer.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
model = AutoModelForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
text = "明日は明日の[MASK]が吹く"
tokens = tokenizer(text, return_tensors="pt")
mask_index = tokens["input_ids"][0].tolist().index(tokenizer.mask_token_id)
predict = model(**tokens)[0]
_, result = predict[0, mask_index].topk(5)
print(tokenizer.convert_ids_to_tokens(result.tolist()))
for TensorFlow
from transformers import (
TFAutoModelForMaskedLM, AutoTokenizer
)
import tensorflow as tf
tokenizer = AutoTokenizer.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
model = TFAutoModelForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
text = "明日は明日の[MASK]が吹く"
tokens = tokenizer(text, return_tensors="tf")
mask_index = tokens["input_ids"][0].numpy().tolist().index(tokenizer.mask_token_id)
predict = model(**tokens)[0]
result = tf.math.top_k(predict[0, mask_index], k=5)
print(tokenizer.convert_ids_to_tokens(result.indices.numpy()))
Training Data
学習には
を利用しています
Tokenizer
トークナイザーはBertJapaneseTokenizerクラスを利用しています
こちらも学習データは同様です