raynardj
/

wenyanwen-ancient-translate-to-modern

encoder-decoder

text2text-generation

Inference Endpoints

Model card Files Files and versions Community

wenyanwen-ancient-translate-to-modern / README.md

raynardj's picture

Update README.md

703a441 about 3 years ago

|

3.51 kB

	---
	language:
	- zh
	- zh
	tags:
	- translation
	- 古文
	- 文言文
	- ancient
	- classical
	widget:
	- text: "此诚危急存亡之秋也"

	---

	# From Classical(ancient) Chinese to Modern Chinese
	> This model translate Classical(ancient) Chinese to Modern Chinese, so I guess who's interested in the problemset can speak at least modern Chinese, hence... let me continue the documentation in Chinese

	# 文言文（古文）到现代文的翻译器
	> 输入文言文，可以是断句或者未断句的文言文，模型会预测现代文的表述。其他模型：
	* 从[现代文翻译到文言文](https://huggingface.co/raynardj/wenyanwen-chinese-translate-to-ancient)

	> 从文言文到现代文的翻译器, 欢迎前往[我的github文言诗词项目页面探讨、加⭐️ ](https://github.com/raynardj/yuan)

	> 训练语料是就是九十多万句句对， [数据集链接📚](https://github.com/BangBOOM/Classical-Chinese)。训练时source序列（古文序列），按照50%的概率整句去除所有标点符号。

	## 推荐的inference 通道
	注意
	* 你必须将```generate```函数的```eos_token_id```设置为102就可以翻译出完整的语句，不然翻译完了会有残留的语句(因为做熵的时候用pad标签=-100导致)。
	目前huggingface 页面上compute按钮会有这个问题，推荐使用以下代码来得到翻译结果
	* 请设置```generate```的参数```num_beams>=3```, 以达到较好的翻译效果
	* 请设置```generate```的参数```max_length```256，不然结果会吃掉句子
	```python
	from transformers import (
	EncoderDecoderModel,
	AutoTokenizer
	)
	PRETRAINED = "raynardj/wenyanwen-ancient-translate-to-modern"
	tokenizer = AutoTokenizer.from_pretrained(PRETRAINED)
	model = EncoderDecoderModel.from_pretrained(PRETRAINED)
	def inference(text):
	tk_kwargs = dict(
	truncation=True,
	max_length=128,
	padding="max_length",
	return_tensors='pt')

	inputs = tokenizer([text,],**tk_kwargs)
	with torch.no_grad():
	return tokenizer.batch_decode(
	model.generate(
	inputs.input_ids,
	attention_mask=inputs.attention_mask,
	num_beams=3,
	max_length=256,
	bos_token_id=101,
	eos_token_id=tokenizer.sep_token_id,
	pad_token_id=tokenizer.pad_token_id,
	), skip_special_tokens=True)
	```

	## 目前版本的案例
	> 当然，拿比较熟知的语句过来，通常会有些贻笑大方的失误，大家如果有好玩的调戏案例，也欢迎反馈
	```python
	>>> inference('非我族类其心必异')
	['不是我们的族类，他们的心思必然不同。']
	>>> inference('肉食者鄙未能远谋')
	['吃肉的人鄙陋，不能长远谋划。']
	# 这里我好几批模型都翻不出这个输字（甚至有一个版本翻成了秦始皇和汉武帝），可能并不是很古朴的用法，
	>>> inference('江山如此多娇引无数英雄竞折腰惜秦皇汉武略输文采唐宗宋祖稍逊风骚')
	['江山如此多，招引无数的英雄，竞相折腰，可惜秦皇、汉武，略微有文采，唐宗、宋祖稍稍逊出风雅。']
	>>> inference("清风徐来水波不兴")
	['清风慢慢吹来，水波不兴。']
	>>> inference("无他唯手熟尔")
	['没有别的事，只是手熟罢了。']
	>>> inference("此诚危急存亡之秋也")
	['这实在是危急存亡的时候。']
	```