|
--- |
|
tags: |
|
- fill-mask |
|
- japanese |
|
- albert |
|
|
|
language: |
|
- ja |
|
|
|
license: mit |
|
|
|
widget: |
|
- text: "明日は明日の[MASK]が吹く" |
|
|
|
--- |
|
## albert-base-japanese-v1-with-japanese |
|
日本語事前学習済みALBERTモデルです |
|
このモデルではTokenizerに[BertJapaneseTokenizerクラス](https://huggingface.co/docs/transformers/main/en/model_doc/bert-japanese#transformers.BertJapaneseTokenizer)を利用しています |
|
[albert-base-japanese-v1](https://huggingface.co/ken11/albert-base-japanese-v1)よりトークナイズ処理が楽になっています |
|
|
|
## How to use |
|
### ファインチューニング |
|
このモデルはPreTrainedモデルです |
|
基本的には各種タスク用にファインチューニングして使用されることを想定しています |
|
|
|
### Fill-Mask |
|
#### for PyTorch |
|
```py |
|
from transformers import ( |
|
AutoModelForMaskedLM, AutoTokenizer |
|
) |
|
|
|
|
|
tokenizer = AutoTokenizer.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer") |
|
model = AutoModelForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer") |
|
|
|
text = "明日は明日の[MASK]が吹く" |
|
tokens = tokenizer(text, return_tensors="pt") |
|
mask_index = tokens["input_ids"][0].tolist().index(tokenizer.mask_token_id) |
|
predict = model(**tokens)[0] |
|
_, result = predict[0, mask_index].topk(5) |
|
|
|
print(tokenizer.convert_ids_to_tokens(result.tolist())) |
|
``` |
|
|
|
#### for TensorFlow |
|
```py |
|
from transformers import ( |
|
TFAutoModelForMaskedLM, AutoTokenizer |
|
) |
|
import tensorflow as tf |
|
|
|
|
|
tokenizer = AutoTokenizer.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer") |
|
model = TFAutoModelForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer") |
|
|
|
text = "明日は明日の[MASK]が吹く" |
|
tokens = tokenizer(text, return_tensors="tf") |
|
mask_index = tokens["input_ids"][0].numpy().tolist().index(tokenizer.mask_token_id) |
|
predict = model(**tokens)[0] |
|
result = tf.math.top_k(predict[0, mask_index], k=5) |
|
|
|
print(tokenizer.convert_ids_to_tokens(result.indices.numpy())) |
|
``` |
|
|
|
## Training Data |
|
学習には |
|
- [日本語Wikipediaの全文](https://ja.wikipedia.org/wiki/Wikipedia:%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89) |
|
|
|
を利用しています |
|
|
|
## Tokenizer |
|
トークナイザーは[BertJapaneseTokenizerクラス](https://huggingface.co/docs/transformers/main/en/model_doc/bert-japanese#transformers.BertJapaneseTokenizer)を利用しています |
|
こちらも学習データは同様です |
|
|
|
## Licenese |
|
[The MIT license](https://opensource.org/licenses/MIT) |
|
|