---
language: zh
datasets: c2m
inference:
  parameters:
    max_length: 108
    num_return_sequences: 1
    do_sample: True
widget: 
- text: "晋太元中，武陵人捕鱼为业。缘溪行，忘路之远近。忽逢桃花林，夹岸数百步，中无杂树，芳草鲜美，落英缤纷。渔人甚异之，复前行，欲穷其林。林尽水源，便得一山，山有小口，仿佛若有光。便舍船，从口入。初极狭，才通人。复行数十步，豁然开朗。土地平旷，屋舍俨然，有良田、美池、桑竹之属。阡陌交通，鸡犬相闻。其中往来种作，男女衣着，悉如外人。黄发垂髫，并怡然自乐。"
  example_title: "桃花源记"
- text: "往者不可谏,来者犹可追。"
  example_title: "来者犹可追"
- text: "逝者如斯夫！不舍昼夜。"
  example_title: "逝者如斯夫"


---


# 文言文 to 现代文

## Model description


## How to use
使用 pipeline 调用模型:

```python
>>> from transformers import pipeline
>>> model_checkpoint = "supermy/c2m"
>>> translator = pipeline("translation", 
		model=model_checkpoint,
		num_return_sequences=1,
		max_length=52, 
		truncation=True,)

>>> translator("往者不可谏,来者犹可追。")
[{'translation_text': '过 去 的 事 情 不能 劝 谏 ， 未来 的 事 情 还 可以 追 回 来 。 如 果 过 去 的 事 情 不能 劝 谏 ， 那 么 ， 未来 的 事 情 还 可以 追 回 来 。 如 果 过 去 的 事 情'}]

>>> translator("福兮祸所伏，祸兮福所倚。",do_sample=True)
[{'translation_text': '幸 福 是 祸 患 所 隐 藏 的 ， 灾 祸 是 福 祸 所 依 托 的 。 这 些 都 是 幸 福 所 依 托 的 。 这 些 都 是 幸 福 所 带 来 的 。 幸 福 啊 ， 也 是 幸 福'}]

>>> translator("成事不说，遂事不谏，既往不咎。", num_return_sequences=1,do_sample=True)
[{'translation_text': '事 情 不 高 兴 ， 事 情 不 劝 谏 ， 过 去 的 事 就 不 会 责 怪 。 事 情 没 有 多 久 了 ， 事 情 没 有 多 久 ， 事 情 没 有 多 久 了 ， 事 情 没 有 多'}]

>>> translator("逝者如斯夫！不舍昼夜。",num_return_sequences=1,max_length=30)
[{'translation_text': '逝 去 的 人 就 像 这 样 啊 ， 不分 昼夜 地 去 追 赶 它 们 。 这 样 的 人 就 不 会 忘 记'}]

```
Here is how to use this model to get the features of a given text in PyTorch:

```python
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("supermy/c2m")
model = AutoModelForSeq2SeqLM.from_pretrained("supermy/c2m")
text = "用你喜欢的任何文本替换我。"
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
```


## Training data

非常全的文言文（古文）-现代文平行语料，基本涵盖了大部分经典古籍著作。

原始爬取的数据是篇章级对齐，经过脚本分句（按照句号分号感叹号问号划分）以及人工校对，形成共计约96万句对。目录bitext下是文言文-现代文对齐的平行数据。此外，目录source下是文言文单语数据，target下是现代文单语数据，这两个目录下的文件内容按行对齐。

以下为数据统计信息。其中，短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍，已和《资治通鉴》合并。

|书名|句数
|:--|:--|
短篇章和资治通鉴|348727
元史|21182
北史|25823
北书|10947
南史|13838
南齐书|13137
史记|17701
后汉书|17753
周书|14930
太平广记|59358
宋书|23794
宋史|77853
徐霞客游记|22750
新五代史|10147
新唐书|12359
旧五代史|11377
旧唐书|29185
明史|85179
晋书|21133
梁书|14318
水经注全|11630
汉书|37622
辽史|9278
金史|13758
陈书|7096
隋书|8204
魏书|28178
**总计**|**967257**

《短篇章和资治通鉴》中各书籍统计如下（此部分数据量不完全准确）：

|书名|句数
|:--|:--|
资治通鉴|7.95w
左传|1.09w
大学章句集注|	   86
反经|			 4211
公孙龙子|		   73
管子|			 6266
鬼谷子|		  385
韩非子|		 4325
淮南子|		 2669
黄帝内经|	 6162
皇帝四经|		  243
将苑|			  100
金刚经|		  193
孔子家语|		  138
老子|			  398
了凡四训|		   31
礼记|			 4917
列子|			 1735
六韬|			  693
六祖坛经|		  949
论语|			  988
吕氏春秋|	 2473
孟子|			 1654
梦溪笔谈| 		 1280
墨子|		 2921
千字文|		   82
清史稿|		 1604
三字经|		  234
山海经|		  919
伤寒论|		  712
商君书|		  916
尚书|		 1048
世说新语|		 3044
司马法|		  132
搜神记|		 1963
搜神后记|		  540
素书|			   61
孙膑兵法|		  230
孙子兵法|		  338
天工开物|		  807
尉缭子|		  226
文昌孝经|		  194
文心雕龙|		 1388
吴子|			  136
孝经|		      102	 
笑林广记|		 1496
荀子|			 3131 
颜氏家训|		  510
仪礼|			 2495
易传|			  711
逸周书|		 1505
战国策|		 3318
贞观政要|		 1291
中庸|			  206
周礼|			 2026
周易|			  460
庄子|			 1698
百战奇略|		  800
论衡| 1.19w
智囊|2165
罗织经|188
朱子家训|31
抱朴子|217
地藏经|547
国语|3841
容斋随笔|2921
幼学琼林|1372
三略|268
围炉夜话|387
冰鉴|120


如果您使用该语料库，请注明出处：https://github.com/NiuTrans/Classical-Modern

感谢为该语料库做出贡献的成员：丁佳鹏、杨文权、刘晓晴、曹润柘、罗应峰。
```
```

## Training procedure

在英伟达16G显卡训练了 4 天整，共计68 次。

[文言文数据集](https://huggingface.co/datasets/supermy/Classical-Modern) 训练数据. Helsinki-NLP [Helsinki-NLP](Helsinki-NLP/opus-mt-zh-en) 模型:


```

###  entry and citation info

```

```