IDEA-CCNL
/

Erlangshen-DeBERTa-v2-710M-Chinese

Inference Endpoints

Model card Files Files and versions Community

Erlangshen-DeBERTa-v2-710M-Chinese / README.md

gxy's picture

gxy

INIT: Add deberta xlarge model

9f187e6 almost 2 years ago

|

No virus

1.72 kB

	---
	language:
	- zh

	license: apache-2.0

	tags:
	- bert

	inference: true

	widget:
	- text: "生活的真谛是[MASK]。"
	---
	# Erlangshen-Deberta-XLarge-710M-Chinese，one model of [Fengshenbang-LM](https://github.com/IDEA-CCNL/Fengshenbang-LM)

	The 710 million parameter deberta-V2 base model, using 180G Chinese data, 24 A100(40G) training for 21 days，which is a encoder-only transformer structure. Consumed totally 700M samples. Still training...

	## Task Description

	Erlangshen-Deberta-XLarge-710M-Chinese is pre-trained by bert like mask task from Deberta [paper](https://readpaper.com/paper/3033187248)

	## Usage

	```python
	from transformers import AutoModelForMaskedLM, AutoTokenizer, FillMaskPipeline
	import torch

	tokenizer=AutoTokenizer.from_pretrained('IDEA-CCNL/Erlangshen-Deberta-XLarge-710M-Chinese', use_fast=false)
	model=AutoModelForMaskedLM.from_pretrained('IDEA-CCNL/Erlangshen-Deberta-XLarge-710M-Chinese')
	text = '生活的真谛是[MASK]。'
	fillmask_pipe = FillMaskPipeline(model, tokenizer, device=-1)
	print(fillmask_pipe(text, top_k=10))
	```

	## Finetune

	We present the dev results on some tasks.

	\| Model \| AFQMC\|TNEWS1.1\|IFLYTEK\|OCNLI \| CMNLI \|
	\| ---------------------------------- \| ----- \| ------ \| ------ \| ------ \| ------ \|
	\| RoBERTa-Large \| 0.7488\|0.5879\|0.6152\|0.777 \| 0.814 \|
	\| Erlangshen-Deberta-XLarge-710M-Chinese \| 0.7549\|0.5873\|0.6177\|0.8012\|0.8389\|

	## Citation

	If you find the resource is useful, please cite the following website in your paper.

	```html
	@misc{Fengshenbang-LM,
	title={Fengshenbang-LM},
	author={IDEA-CCNL},
	year={2022},
	howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
	}
	```