ckiplab
/

bert-base-han-chinese

Inference Endpoints

Model card Files Files and versions Community

bert-base-han-chinese / README.md

ctlin's picture

update

274f25f almost 2 years ago

|

raw history blame

No virus

2.09 kB

	---
	language:
	- zh
	thumbnail: https://ckip.iis.sinica.edu.tw/files/ckip_logo.png
	tags:
	- pytorch
	- lm-head
	- bert
	- zh
	license: gpl-3.0
	---

	# CKIP BERT Base Han Chinese

	Pretrained model on Ancient Chinese language using a masked language modeling (MLM) objective.

	## Homepage
	* [ckiplab/han-transformers](https://github.com/ckiplab/han-transformers)

	## Training Datasets
	The copyright of the datasets belongs to the Institute of Linguistics, Academia Sinica.
	* [中央研究院上古漢語標記語料庫](http://lingcorpus.iis.sinica.edu.tw/cgi-bin/kiwi/akiwi/kiwi.sh)
	* [中央研究院中古漢語語料庫](http://lingcorpus.iis.sinica.edu.tw/cgi-bin/kiwi/dkiwi/kiwi.sh)
	* [中央研究院近代漢語語料庫](http://lingcorpus.iis.sinica.edu.tw/cgi-bin/kiwi/pkiwi/kiwi.sh)
	* [中央研究院現代漢語語料庫](http://asbc.iis.sinica.edu.tw)

	## Contributors
	* Chin-Tung Lin at [CKIP](https://ckip.iis.sinica.edu.tw)

	## Usage

	* Using our model in your script
	```python
	from transformers import (
	AutoTokenizer,
	AutoModel,
	)

	tokenizer = AutoTokenizer.from_pretrained("ckiplab/bert-base-han-chinese")
	model = AutoModel.from_pretrained("ckiplab/bert-base-han-chinese")
	```

	* Using our model for inference
	```python
	>>> from transformers import pipeline
	>>> unmasker = pipeline('fill-mask', model='ckiplab/bert-base-han-chinese')
	>>> unmasker("黎[MASK]於變時雍。")

	[{'sequence': '黎民於變時雍。',
	'score': 0.14885780215263367,
	'token': 3696,
	'token_str': '民'},
	{'sequence': '黎庶於變時雍。',
	'score': 0.0859643816947937,
	'token': 2433,
	'token_str': '庶'},
	{'sequence': '黎氏於變時雍。',
	'score': 0.027848130092024803,
	'token': 3694,
	'token_str': '氏'},
	{'sequence': '黎人於變時雍。',
	'score': 0.023678112775087357,
	'token': 782,
	'token_str': '人'},
	{'sequence': '黎生於變時雍。',
	'score': 0.018718384206295013,
	'token': 4495,
	'token_str': '生'}]
	```