raynardj
/

wenyanwen-chinese-translate-to-ancient

encoder-decoder

text2text-generation

Inference Endpoints

Model card Files Files and versions Community

wenyanwen-chinese-translate-to-ancient / README.md

raynardj's picture

Update README.md

55a2778 over 2 years ago

|

raw history blame

No virus

2.42 kB

	---
	language:
	- zh
	- zh
	tags:
	- translation
	- 文言文
	- ancient
	license: apache-2.0
	widget:
	- text: "暴力是无能者的最后手段"
	example_title: "基地"
	- text: "轻轻的我走了，正如我轻轻的来。我轻轻的招手，作别西天的云彩。那河畔的金柳，是夕阳中的新娘。波光里的艳影，在我的心头荡漾。"
	example_title: "再别康桥"
	- text: "当恐惧逝去，我会打开心眼，看清它的轨迹。恐惧所过之处，不留一物，唯我独存。"
	example_title: "沙丘"

	---

	# From modern Chinese to Ancient Chinese
	> This model translate modern Chinese to Classical Chinese, so I guess who's interested in the problemset can speak at least modern Chinese, so... let me continue the documentation in Chinese

	> 从现代文到文言文的翻译器, 训练语料是就是九十多万句句对， [数据集链接](https://github.com/BangBOOM/Classical-Chinese)

	## 推荐的inference 通道
	```python
	from transformers import (
	EncoderDecoderModel,
	AutoTokenizer
	)
	PRETRAINED = "raynardj/wenyanwen-chinese-translate-to-ancient"
	tokenizer = AutoTokenizer.from_pretrained(PRETRAINED)
	model = EncoderDecoderModel.from_pretrained(PRETRAINED)

	def inference(text):
	tk_kwargs = dict(
	truncation=True,
	max_length=128,
	padding="max_length",
	return_tensors='pt')

	inputs = tokenizer([text,],**tk_kwargs)
	with torch.no_grad():
	return tokenizer.batch_decode(
	model.generate(
	inputs.input_ids,
	attention_mask=inputs.attention_mask,
	num_beams=3,
	bos_token_id=101,
	eos_token_id=tokenizer.sep_token_id,
	pad_token_id=tokenizer.pad_token_id,
	), skip_special_tokens=True)
	```

	## 目前版本的案例
	```python
	>>> inference('你连一百块都不肯给我')
	['不肯与我百钱。']
	```

	```python
	>>> inference("他不能做长远的谋划")
	['不能为远谋。']
	```

	```python
	>>> inference("我们要干一番大事业")
	['吾属当举大事。']
	```

	```python
	>>> inference("这感觉，已经不对，我努力，在挽回")
	['此之谓也，已不可矣，我勉之，以回之。']
	```

	```python
	>>> inference("轻轻地我走了，正如我轻轻地来，我挥一挥衣袖，不带走一片云彩")
	['轻我行，如我轻来，挥袂不携一片云。']
	```