yuanzhoulvpi
/

gpt2_chinese

Text Generation

Inference Endpoints

text-generation-inference

Model card Files Files and versions Community

gpt2_chinese / README.md

yuanzhoulvpi's picture

Update README.md

7462efc over 1 year ago

|

raw history blame contribute delete

No virus

2.1 kB

	---
	license: apache-2.0
	language:
	- zh
	library_name: transformers
	---

	# intro
	1. 15G的中文语料
	2. 31亿个tokens
	3. 一张3090显卡
	4. 训练60多个小时

	最终训练出一个中文版本的gpt2，如果有想了解如何训练中文gpt2的，可以查看这个教程

	# Github link
	[https://github.com/yuanzhoulvpi2017/zero_nlp/tree/main/chinese_gpt2](https://github.com/yuanzhoulvpi2017/zero_nlp/tree/main/chinese_gpt2)


	# infer code

	```python

	from transformers import GPT2LMHeadModel, AutoTokenizer

	model_name_or_path = "yuanzhoulvpi/gpt2_chinese"#"checkpoint-36000"
	tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)

	# add the EOS token as PAD token to avoid warnings
	model = GPT2LMHeadModel.from_pretrained(model_name_or_path, pad_token_id=tokenizer.eos_token_id)
	```


	```python
	txt = """\
	你是谁
	"""
	# encode context the generation is conditioned on
	input_ids = tokenizer.encode(txt, return_tensors='pt')
	# set no_repeat_ngram_size to 2
	beam_output = model.generate(
	input_ids,
	max_length=200,
	num_beams=5,
	no_repeat_ngram_size=2,
	early_stopping=True
	)

	print("Output:\n" + 100 * '-')
	print(tokenizer.decode(beam_output[0], skip_special_tokens=True))

	```

	```bash
	Output:
	----------------------------------------------------------------------------------------------------
	你是谁?, 简单的描述是, 答案是你好，我叫，是一名美籍华裔女演员，出生于美国加利福尼亚州的一个犹太人家庭。她的父母都是工程师，母亲是医生，父亲则是律师。是加州大学伯克利分校的教授，也是的创始人之一，曾在《纽约时报》上发表过一篇文章，引起了广泛的关注。文中写道：我从小就喜欢音乐，并且在学校里学到了很多乐理知识，但是我并不知道自己到底想要什么，因为我觉得这个世界上没有任何东西可以比得上它。
	```