README.md · Azion/bert-based-chinese at b7bd0eb94f9a29a830768ade2c9cf2c0ad62024f

metadata

datasets:
  - botp/yentinglin-zh_TW_c4
language:
  - zh
pipeline_tag: fill-mask

Model Sources

Paper: BERT

Uses

Direct Use

This model can be used for masked language modeling

Training

Training Procedure

type_vocab_size: 2
vocab_size: 21128
num_hidden_layers: 12

Training Data

botp/yentinglin-zh_TW_c4

Evaluation

Dataset\BERT Pretrain	bert-based-chinese	ckiplab	GufoLab
5000 Tradition Chinese Dataset	0.7183	0.6989	0.8081
10000 Sol-Idea Dataset	0.7874	0.7913	0.8025
ALL DataSet	0.7694	0.7678	0.8038

Results

Test ID\Results	[MASK] Input	Result Output
1	今天禮拜[MASK]？我[MASK]是很想[MASK]班。	今天禮拜六？我不是很想上班。
2	[MASK]灣並[MASK]是[MASK]國不可分割的一部分。	臺灣並不是中國不可分割的一部分。
3	如果可以是韋[MASK]安的最新歌[MASK]。	如果可以是韋禮安的最新歌曲。
4	[MASK]水老[MASK]有賣很多鐵蛋的攤販。	淡水老街有賣很多鐵蛋的攤販。

How to Get Started With the Model

Private Model Download

Installation

$ curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
$ sudo apt-get install git-lfs
$ git lfs install
$ pip install huggingface_hub

Login HuggingFace

$ huggingface-cli login
Token:Your own huggingface token.

Pyhon Code

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained('Azion/bert-based-chinese', use_auth_token=True)

model = AutoModelForMaskedLM.from_pretrained("Azion/bert-based-chinese", use_auth_token=True)