ken11
/

albert-base-japanese-v1-with-japanese-tokenizer

Inference Endpoints

Model card Files Files and versions Community

albert-base-japanese-v1-with-japanese-tokenizer / README.md

ken11

update README

e1d6e47 over 2 years ago

|

No virus

2.6 kB

	---
	tags:
	- fill-mask
	- japanese
	- albert

	language:
	- ja

	license: mit

	widget:
	- text: "明日は明日の[MASK]が吹く"

	---
	## albert-base-japanese-v1-with-japanese
	日本語事前学習済みALBERTモデルです
	このモデルではTokenizerに[BertJapaneseTokenizerクラス](https://huggingface.co/docs/transformers/main/en/model_doc/bert-japanese#transformers.BertJapaneseTokenizer)を利用しています
	[albert-base-japanese-v1](https://huggingface.co/ken11/albert-base-japanese-v1)よりトークナイズ処理が楽になっています

	## How to use
	### ファインチューニング
	このモデルはPreTrainedモデルです
	基本的には各種タスク用にファインチューニングして使用されることを想定しています

	### Fill-Mask
	#### for PyTorch
	```py
	from transformers import (
	AutoModelForMaskedLM, AutoTokenizer
	)


	tokenizer = AutoTokenizer.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
	model = AutoModelForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")

	text = "明日は明日の[MASK]が吹く"
	tokens = tokenizer(text, return_tensors="pt")
	mask_index = tokens["input_ids"][0].tolist().index(tokenizer.mask_token_id)
	predict = model(**tokens)[0]
	_, result = predict[0, mask_index].topk(5)

	print(tokenizer.convert_ids_to_tokens(result.tolist()))
	```

	#### for TensorFlow
	```py
	from transformers import (
	TFAutoModelForMaskedLM, AutoTokenizer
	)
	import tensorflow as tf


	tokenizer = AutoTokenizer.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
	model = TFAutoModelForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")

	text = "明日は明日の[MASK]が吹く"
	tokens = tokenizer(text, return_tensors="tf")
	mask_index = tokens["input_ids"][0].numpy().tolist().index(tokenizer.mask_token_id)
	predict = model(**tokens)[0]
	result = tf.math.top_k(predict[0, mask_index], k=5)

	print(tokenizer.convert_ids_to_tokens(result.indices.numpy()))
	```

	## Training Data
	学習には
	- [日本語Wikipediaの全文](https://ja.wikipedia.org/wiki/Wikipedia:%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89)

	を利用しています

	## Tokenizer
	トークナイザーは[BertJapaneseTokenizerクラス](https://huggingface.co/docs/transformers/main/en/model_doc/bert-japanese#transformers.BertJapaneseTokenizer)を利用しています
	こちらも学習データは同様です

	## Licenese
	[The MIT license](https://opensource.org/licenses/MIT)