nlp-waseda
/

roberta-base-japanese

Inference Endpoints

Model card Files Files and versions Community

roberta-base-japanese / README.md

dkawahara's picture

Specified mask_token.

31161df almost 3 years ago

|

No virus

857 Bytes

	---
	language: ja
	tags:
	- exbert
	license: cc-by-sa-4.0
	datasets:
	- wikipedia
	- cc100
	mask_token: "[MASK]"
	widget:
	- text: "早稲田大学で自然言語処理を [MASK] する。"
	---

	# nlp-waseda/roberta-base-japanese

	## Model description

	This is a Japanese RoBERTa model pretrained on Japanese Wikipedia and the Japanese portion of CC-100.

	## How to use

	```python
	from transformers import AutoTokenizer,AutoModelForMaskedLM
	tokenizer=AutoTokenizer.from_pretrained("nlp-waseda/roberta-base-japanese")
	model=AutoModelForMaskedLM.from_pretrained("nlp-waseda/roberta-base-japanese")
	```

	## Tokenization

	The input text should be segmented into words by [Juman++](https://github.com/ku-nlp/jumanpp) in advance. Each word is tokenized into subwords by [sentencepiece](https://github.com/google/sentencepiece).

	## Vocabulary

	## Training procedure